Pod诊断

根因分析:根据采集的数据和检查项,部分问题可自动分析导致问题的原因。诊断结果 诊断结果包括根因结果与检查项。根因诊断结果部分包括 识别到的异常、异常根因 和 修复建议。检查项则按不同的类别对可能引起异常的点进行检查,覆盖根因未...

Pod诊断

根因分析:根据采集的数据和检查项,部分问题可自动分析导致问题的原因。诊断结果 诊断结果包括根因结果与检查项。根因诊断结果部分包括 识别到的异常、异常根因 和 修复建议。检查项则按不同的类别对可能引起异常的点进行检查,覆盖根因未...

使用执行计划分析查询

本文介绍如何使用Stage层和算子层执行计划分析查询。Stage层执行计划 Stage层执行计划由多个Stage节点组成,数据流向自下而上,先由具有扫描算子的Stage进行数据扫描,再经过中间Stage节点的层层处理后,再由最上层的根节点将查询...

EasyCkpt:AI大模型高性能状态保存恢复

功能介绍 针对频繁故障情况,PAI通过之前的故障失败场景总结以下GPU和深度学习场景故障的功能特点:特点1:任务的故障是部分的。通常,故障的根因是一到两台机器的故障,这只会影响部分Worker。对于大规模分布式训练任务而言,不会所有...

数据湖管理FAQ

Lakehouse相关问题 什么是Lakehouse?Lakehouse数据入湖时,对线上RDS有压力吗?如何控制建仓的限流能力?Lakehouse工作负载为什么运行失败,又没有S park Log 日志可以看?元数据发现相关问题 为什么配置了元信息发现,并在“手动执行”...

使用路径分析

路径分析是一个配置分析工具,覆盖 ECS 实例互访、ECS 与公网IP地址互访、ECS 与私网IP地址互访、云上 VPC 与云下站点互访等多类应用场景,能够判断源资源和目的资源之间的连通性,诊断网络配置错误引起的连接问题。路径分析介绍 路径分析...

原因分析

原因分析时通过对通话内容的挖掘,分析出客户投诉或者问题未解决的具体原因。分析客户投诉或问题未解决的热门、冷门原因、变化趋势、涨跌幅等情况。未解决原因分析 分析维度 未解决原因分析是以时间和数据来源的维度对未解决数据进行分析。...

缓存分析

数据库自治服务DAS支持缓存分析功能,通过分析Redis的备份文件,可以快速发现实例中的大Key,帮助您掌握Key在内存中的占用和分布、Key过期时间等信息,为您的优化操作提供数据支持,帮助您避免因Key倾斜引发的内存不足、性能下降等问题。...

标准架构

阿里云自研 故障探测切换系统(HA)阿里云 Tair 服务封装HA切换系统,实时探测主节点的异常情况,可以有效解决磁盘IO故障,CPU故障问题导致的服务异常,及时进行主从切换,从而保证服务高可用。主从复制机制 阿里云针对 Tair 主从复制...

监控与日志

例如您可以根据通过捕获的流量信息分析带宽使用情况、排查网络故障、优化流量使用成本、分析异常流量等。云企业网流日志 流日志会在指定的捕获窗口捕获转发路由器之间的跨地域流量信息和边界路由器VBR(Virtual border router)连接的流量...

附录:SOFAStack 产品目录

应用场景 问题分析和快速定位 在分布式场景下,服务调用错综复杂,问题分析与定位非常困难。分布式链路跟踪系统能迅速定位到有问题的服务,协助快速解决问题。查看完整的应用调用拓扑关系:自动发现该服务之前的调用以及对所有中间件的...

使用前须知

帮助您在加速域名访问出现异常时,快速定位是由于CDN服务本身出现的访问问题,例如源站访问出现故障,节点不可用等,还是由于终端用户的网络故障或地域特性等问题。CDN用户分析 统计用户访问信息,例如访问次数最高的用户等。帮助您更好的...

节点诊断

根因分析:根据采集的数据和检查项,部分问题可自动分析导致问题的原因。诊断结果 诊断结果包括根因结果与检查项。根因诊断结果部分包括 识别到的异常、异常根因 和 修复建议。检查项则按不同的类别对可能引起异常的点进行检查,覆盖根因未...

网络诊断

容器服务平台提供网络诊断功能,帮助您诊断网络常见问题,例如Pod之间不通、集群到公网访问不通、公网到LoadBalancer不通。本文介绍网络诊断的基本原理、使用方式、以及如何针对常见网络不通的场景定位网络问题和使用网络诊断。重要 使用...

常见问题

一般性常见问题 什么是 表格存储?表格存储 面向海量结构化数据提供Serverless表存储服务,同时针对物联网场景深度优化提供一站式的IoTstore解决方案。适用于海量账单、IM消息、物联网、车联网、风控、推荐等场景中的结构化数据存储,提供...

Pod诊断

根因分析:根据采集的数据和检查项,部分问题可自动分析导致问题的原因。诊断结果 诊断结果包括根因结果与检查项。根因诊断结果部分包括 识别到的异常、异常根因 和 修复建议。检查项则按不同的类别对可能引起异常的点进行检查,覆盖根因未...

阿里云智能质检

条件b的检测范围是条件a命中之后的客服说的后3句话,条件c的检测范围是条件a命中之前客服说的前3句话,规则的条件间逻辑关系是b|c,这样就能覆盖所有的问题情况。图6.规则详情 质检结果复核 图7是这条规则命中的数据复核页面,可以看到客户...

什么是网络智能服务

分析实时问题 追溯历史问题 覆盖多类场景 流量分析概述 使用公网流量分析 使用混合云流量分析 使用跨域流量分析 使用同域流量分析 网络洞察 分析业务单元流量的实时运行状况,帮助您及时感知业务网络异常,并提供网络质量评估数据和事件...

什么是应用监控

智能洞察 对于应用服务响应时间突增、错误率突增等常见的问题,ARMS提供了智能洞察能力,您无需做任何设置,智能洞察将会基于应用历史数据并结合智能算法完成巡检,给具体的根因分析和建议,同时支持订阅告警,帮助您一键触达问题根因。...

离线全量Key分析

您可以通过离线全量Key分析功能来分析 Tair 的备份文件,快速发现实例中的大Key,帮助您掌握Key在内存中的占用和分布、Key过期时间等信息,为您的优化操作提供数据支持,帮助您避免因Key倾斜引发的内存不足、性能下降等问题。该功能由 ...

离线全量Key分析

通过离线全量Key分析功能来分析Redis的备份文件,可以快速发现实例中的大Key,帮助您掌握Key在内存中的占用和分布、Key过期时间等信息,为您的优化操作提供数据支持,帮助您避免因Key倾斜引发的内存不足、性能下降等问题。该功能由 ...

概览

什么是网络质量分析器 网络质量分析器(Internet Performace Analyzer)可以提供互联网全链路的网络质量分析能力。本服务提供的SDK集成到用户应用程序或者SDK中,配合云端配置的探测策略,即可获取丰富的、可视化的业务相关网络数据。可以...

配置CLB访问日志

CLB结合阿里云日志服务提供的访问日志功能,可帮助您大幅提升日志数据分析故障定位处理的效率。使用限制 仅CLB的七层负载均衡(HTTP/HTTPS监听)支持访问日志功能。前提条件 已创建CLB实例。具体操作,请参见 创建和管理CLB实例。已创建...

强弱依赖治理概述

强弱依赖治理就是通过科学的手段持续稳定地得到应用间依赖关系、流量、强弱等数据,提前发现因为依赖问题可能导致的故障,避免依赖故障影响用户体验,积累数据持续推进系统稳定性提升。什么是强弱依赖?异常发生时,不影响核心业务流程,不...

Quick引擎概述

Quick BI基于阿里云横向可扩展的架构底座,不但拥有可视化分析、中国式报表、自助分析等传统BI能力,同时拥有企业级安全底座、移动端和三方系统开放集成能力。Quick BI自研的计算内核Quick引擎,托管在阿里云上的SAAS服务实测数据十亿级...

可视化图表概述

可视化图表可以帮助您直观、清晰地展示数据分析结果,本文为您介绍不同类型图表的适用场景,以及不同版本支持的图表类型,辅助您快速选取合适的图表进行数据呈现和展示。Quick BI提供了40余种图表样式,包含了表格类、指标类、线/面图类、...

查看监控信息

相关文档 常见性能问题:RDS MySQL慢SQL问题 RDS MySQL内存使用问题 RDS MySQL空间不足问题 RDS MySQL I/O高问题 RDS MySQL活跃线程数高问题 使用自治服务对数据库进行性能优化和诊断,详情请参见 性能优化与诊断。常见问题 MySQL CPU使用...

集群负载不均问题分析方法及解决方案

导致阿里云Elasticsearch(简称ES)的负载不均问题的原因很多,目前主要包括shard设置不合理、segment大小不均、冷热数据需求、负载均衡及多可用区架构部署的长连接不释放等。本文介绍ES集群负载不均问题分析方法及解决方案。问题现象 ...

性能监控最佳实践

提高故障排查效率:当系统或应用出现故障时,传统的性能监控方案通常需要IT运维人员手动分析监控数据来确定故障原因,这样会浪费大量的时间和精力。而一体化性能监控能够对多种关联的监控数据进行自动分析和处理,帮助IT运维人员快速定位...

日志查询

WAF向客户端返回拦截页面或者滑块验证响应时会提供该ID,用于问题分析故障排查。规则ID 请求命中的WAF防护规则的ID。您可以 防护规则 页面,查询具体规则的规则ID;或者在 安全报表 页面,通过规则命中纪录或统计数据,获取请求命中的...

自动/手动主备切换

当系统发生故障时,PolarDB 集群会自动进行主备切换。您也可以手动进行主备切换,指定一个只读节点为新的主节点。注意事项 不论是自动切换还是手动切换,当只读节点未开启热备时,主备切换过程中可能会出现20~30秒左右的闪断,因此切换前请...

Lindorm实时入湖建仓分析

DLA Lakehouse实时入湖方案利用数据湖技术,...常见问题 Q:为什么Lindorm中开通数据湖分析后,下拉选择入湖表没有显示已创建的表?A:目前数据湖分析仅支持有Schema的表,即Lindorm通过CQL创建的表。更多信息,请参见 Lindorm CQL操作文档。

使用集群诊断

容器智能运维平台 提供一键故障诊断能力,包括节点诊断、Pod诊断、Service诊断、Ingress诊断、内存诊断、网络诊断,可以辅助您定位集群中出现的问题。本文介绍如何在ACK集群中使用集群诊断功能。前提条件 已创建Kubernetes托管版集群。具体...

产品简介

什么是运维事件中心 运维事件中心是企业业务连续性的运营管理平台,提供丰富的监控集成、强大的报警降噪、可靠的通知、灵活的事件流转、基于ITIL的故障管理等功能;一站式管理、多端协同,帮助企业实现更实时的数字化管理、更快的故障响应...

强弱依赖治理最佳实践

本文以对一个部署在Kubernetes上的微服务应用进行强弱依赖治理为例,介绍通过场景化演练来发现依赖问题、暴露风险的整个过程。背景信息 关于强弱依赖治理的更多信息,请参见 强弱依赖治理概述 和 应用强弱依赖治理。示例说明 本文示例的...

专家成长计划技术培训课程

现场面授(特殊情况可调整为线上钉钉群直播)云存储问题处理详解专题 1天 30人 全面介绍磁盘的基础知识,Linux和Windows操作系统的磁盘分区和文件系统结构,以及关键扇区的含义和作用,查看和编译磁盘结构的主要工具,例如Linux系统下的...

服务等级协议

本服务等级协议(Service Level Agreement,以下简称“SLA”)规定了阿里云向客户提供的基因分析平台(简称“平台”)的服务可用性等级指标及补偿方案。1.定 义 1.1 服务周期:一个服务周期为一个自然月。1.2 服务周期总分钟数:服务周期内...

性能优化与诊断简介

在RDS MySQL日常运维中,您可以通过数据库自治服务DAS(Database Autonomy Service)来处理数据库故障、优化性能、提升效率、降低运维成本。DAS是一种基于机器学习和专家经验的云服务,实现数据库自感知、自修复、自优化、自运维和自安全,...

规格容量评估

建议您在条件允许的情况下,通过实际的数据和使用场景测试适合自己的集群规格容量规划。评估集群存储空间 影响ES集群存储空间大小的因素主要包括:源数据的大小。索引的副本数量:每个索引至少需要1个副本。索引开销:通常比源数据大10%...

系统类故障排查

概述 本文主要介绍使用阿里云服务器ECS时的系统类故障排查,包含CPU、磁盘I/O、内存、硬盘、带宽资源占用异常的问题排查与定位。详细信息 说明 阿里云提醒您:如果您对实例或数据有修改、变更等风险操作,务必注意实例的容灾、容错能力,...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
检索分析服务 Elasticsearch版 云安全中心 实时数仓 Hologres 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用