监控、诊断和故障排除

故障排除:提供常见的问题场景和故障排除方法。服务监控 监视总体运行状况 可用性和有效请求率 可用性和有效请求率是有关系统稳定性和用户是否正确使用系统的最重要指标,指标小于100%说明某些请求失败。可能因为一些系统优化因素出现暂时...

设备显示离线

如果是静态路由接入,尝试通过交换机,能否 ping 通设备的每个接口IP,如果其中有无法 ping 通的接口,请参见 设备和交换机之间的链路故障排除接口互联问题。如果是单机设备,观察设备机身的状态指示灯,确认右侧第二个和第三个灯是否为...

无法连接到同一个云连接网内的本地客户端

如果是静态路由接入,尝试通过交换机,能否 ping 通设备的每个接口IP,如果其中有无法 ping 通的接口,请参见 设备和交换机之间的链路故障排除接口互联问题。如果是单机设备,观察设备机身的状态指示灯,确认右侧第2和第3个灯是否为黄色...

高可用能力

自动高可用模式下,PolarDB PostgreSQL版(兼容Oracle)通过对数据库内核、容器、主机等多维度状态检测,减少故障检测时间,降低故障误判概率,单点故障场景下RTO。手动高可用模式下,PolarDB PostgreSQL版(兼容Oracle)检测机制、状态...

ping不通云服务ECS(SAG-1000)

如果是静态路由接入,尝试通过交换机,能否ping通设备的每个接口IP,如果其中有无法ping通的接口,请参见 设备和交换机之间的链路故障排除接口互联问题。如果是单机设备,观察设备机身的状态指示灯,确认右侧第2和第3个灯是否有红色的。...

故障基础数据管理

故障场景等级定义 日常运营中,除用户方环境或自身操作引起的问题外,无论什么原因导致的服务中断、服务品质下降或用户服务体验下降的现象,都称为故障。对故障影响程度的划分就是故障等级定义。定义故障等级是为了指定故障等级定义作为各...

产品优势

自动化故障诊断和标准化应急预案快速定位并恢复故障,减少因故障引起的业务中断时间故障演练主动检验应用高可用能力。支持蚂蚁产品双中心容灾切换,满足监管合规需求。技术风险防控内容库快速更新 阿里云、蚂蚁技术风险团队基于域内、...

源为PolarDB-X的功能规范和约束说明

在出现故障(如网络中断、机房批量设备故障或互联网数据中心IDC故障),且DTS任务存在延迟的情况下,此时如更新至目标库的最后一条数据的时间故障发生时的时间之差小于RPO(如5分钟),则可以业务优先恢复为准则切流。切流后可能有5分钟...

源为PolarDB-X的功能规范和约束说明

在出现故障(如网络中断、机房批量设备故障或互联网数据中心IDC故障),且DTS任务存在延迟的情况下,此时如更新至目标库的最后一条数据的时间故障发生时的时间之差小于RPO(如5分钟),则可以业务优先恢复为准则切流。切流后可能有5分钟...

常见问题-FAQ

重要 标准版最快可在4分钟左右准确发现故障并切换 故障发现时间:GTM可保障故障发现时间,目前默认的健康检查配置可以在故障的4分钟左右准确发现故障并切换;全网生效时间:GTM无法保障全网的最终生效时间,因受限于全国各地运营商的TTL...

应用故障自动诊断

在EDAS中进入应用总览页面时,会按照您自定义的时间段对该应用的运行情况做一个自动诊断。如果发现问题,则会在应用总览页面上方闪现一个红色盾牌图标,单击该图标即可弹出故障诊断报告,故障报告上的故障定界和根因分析可以帮助您更好地...

FAQs

重要 故障发现时间:GTM可保障故障发现时间,目前默认的健康检查配置可以在故障的4分钟左右准确发现故障并切换;DNS切换同步时间:GTM无法保障全网的最终生效时间,因受限于全国各地运营商的TTL缓存设置以及网络环境不同,所以全网生效时间...

如何管理事件

故障状态:处理中(升级时故障还在处理中),输入发现故障时间、已恢复(升级时故障已恢复),输入故障生成的时间故障恢复的时间;所属服务:升级故障所属的 服务;影响服务:选择 影响服务(可多选);进展摘要:处理人将事件升级为...

归档存储服务等级协议

(2)不可用时间=故障解决时间-故障开始时间,不可用时间按分钟计算;(3)如果用户没有使用到24小时,按实际使用时长计算平均每分钟费用。3.其他 阿里云有权根据变化适时对本服务等级协议部分服务指标 作出调整,并及时在阿里云官网...

日志字段详情

DI:请求处理被延迟一段时间,该延迟时间故障注入指定。FI:请求被故障注入指定的响应码中止。RL:请求在本地被HTTP速率限制过滤器限制,除了429响应码之外。UAEX:请求被外部授权服务拒绝。RLSE:请求被拒绝,因为速率限制服务出现错误...

产品优势

故障定位时,服务商和用户之间沟通时间长,且故障排查前,服务商需要先熟悉用户的云平台和应用平台,再排查故障,排查过程耗时长,导致业务长时间处于受损状态。服务流程可审计、可追溯,打造可信任的企业服务。操作过程难以记录和追溯,...

产品价格

版本配置 功能项 标准版 旗舰版 全网故障恢复时间=故障切换时间+全网生效时间 在健康检查间隔设置为1分钟,TTL60秒,连续失败次数3次的配置下,GTM能在4分钟左右准确发现故障并切换,故障切换后理论上60秒左右可以全网生效,但实际情况取决...

动态与公告

功能/版本 历史版本GTM标准版 新版GTM标准版 新版GTM旗舰版 全网故障恢复时间=故障切换时间+全网生效时间 在健康检查间隔设置为1分钟,TTL60秒,连续失败次数3次的配置下,GTM能在4分钟左右准确发现故障并切换,故障切换后理论上60秒左右...

实例健康诊断

实例健康诊断功能可以对 轻量应用服务器 实例的计算服务状态、网络服务、存储服务和配置管理等进行全方位的诊断,帮助您了解实例的健康状态,及时发现并解决常见的问题。前提条件 轻量应用服务器...轻量应用服务器故障问题,请参见 故障排除

GetProblem-故障详情

服务组名字 isValid Long 1 是否合法 timelines Array of 故障操作时间线 故障操作时间线 keyNode String 1,2,3,4,5,7,6,8,9,10 关键节点码表:PROBLEM_KEY_NODE cancelProblemOperateLogs Array of 已取消故障操作日志 已取消故障操作日志...

支持计划

配置指导以及故障排除 配置指导以及故障排除 配置指导以及故障排除 专属技术服务经理 不支持 不支持 专属技术服务经理(TAM)健康检查 可免费使用智能顾问Advisor 可免费使用智能顾问Advisor 可免费使用智能顾问Advisor。专属技术服务经理...

节点诊断

容器智能运维平台 构建了基于专家经验的故障诊断系统,并基于海量数据训练了AI智能故障诊断模型。基于专家经验和AI智能诊断两种诊断模式,节点诊断可以深入定位问题根因。节点诊断包括诊断检查项和诊断根因。诊断检查项:包括Node检查、...

使用云监控功能监控网站环境(部署于ECS实例)

同时,告警机制能让您在故障发生后第一时间发现问题,缩短故障处理时间,以便尽快恢复业务。前提条件 在开始设置云监控前,您需要完成以下操作:检查ECS监控插件运行情况,确保监控信息能够正常采集。如果安装失败则需要手动安装插件,具体...

日志审计合规

执行频率 固定时间间隔1分钟 查询范围 过去2分钟 参数配置 无 外部配置 无 消除方法 在日志审计服务中的 审计配置>云产品接入>接入状态 中查看日志审计服务的状态,定位状态异常的原因。前提条件 无 PolarDB(DRDS)日志审计配置检测 告警...

关于网络分析

APM 网络分析对客户端侧的网络请求情况进行检测、分析、诊断,帮助您快速查找和排除网络故障,提升网络性能,增大网络可用性价值。在网络监控指标分析中,APM 针对不同网关类型,提供网络请求响应时长、网络请求错误率、请求次数等网络监控...

账号安全

执行频率 固定时间间隔:4分钟 查询范围 过去5分钟 参数配置 严重度:严重、高、中、低、报告。默认值为中。最大登录次数:每5分钟内,允许未开启MFA的RAM用户登录的最大次数。默认值为0。外部配置 无MFA登录的RAM用户白名单。白名单中RAM...

RDS操作合规

执行频率 固定时间间隔:1分钟 查询范围 过去2分钟 参数配置 严重度:严重、高、中、低、报告。默认值为高。外部配置 允许RDS SQL洞察功能关闭的账号白名单。白名单账号下RDS实例的SQL洞察功能关闭后,不会触发告警。消除方法 禁止白名单...

ECS操作合规

执行频率 固定时间间隔:1分钟 查询范围 过去2分钟 参数配置 严重度:严重、高、中、低、报告。默认值为高。外部配置 允许磁盘不加密的账号白名单。关闭白名单账号下磁盘的加密功能后,不会触发告警。消除方法 禁止白名单以外账号下的磁盘...

权限控制

执行频率 固定时间间隔:1分钟 查询范围 过去2分钟 参数配置 严重度:严重、高、中、低、报告。默认值为高。外部配置 允许进行OSS Bucket权限变更的RAM用户白名单。使用白名单中的RAM用户进行Bucket权限变更不会触发告警。消除方法 禁止...

VPC操作合规

执行频率 固定时间间隔:1分钟 查询范围 过去2分钟 参数配置 严重度:严重、高、中、低、报告。默认值为低。外部配置 允许VPC网络路由配置变更的账号白名单。白名单中的账号进行VPC网络路由配置变更时,不会触发告警。消除方法 禁止白名单...

产品优势

提高开源组织版本管理效率,快速支持业务创新 更多开源软件支持 更高软件版本支持 覆盖从边缘到AI全场景 企业级的服务支持,降低运维成本,缩短故障处理时间 来自阿里云和Cloudera的7*24小时大数据专家服务支持 快速定位使用中遇到的问题,...

常见问题FAQ

4.HDMI无信号 故障示意图如下:故障排除方案如下:1.见下遥控器说明,按电源键,重启魔盒。2.重复插拔HDMI线 3.重启屏幕 屏幕操作指南由屏幕供应商给出。4.屏幕的信号源切换到HDMI输入。屏幕操作指南由屏幕供应商给出。如无法排除故障:...

OSS操作合规

执行频率 固定时间间隔:1分钟 查询范围 过去2分钟 参数配置 严重度:严重、高、中、低、报告。默认值为高。外部配置 允许OSS Bucket不开启加密的账号白名单。白名单账号下的OSS Bucket加密被关闭后,不会触发告警。消除方法 禁止白名单...

RDS安全

执行频率 固定时间间隔:1分钟 查询范围 过去2分钟 参数配置 告警名称:告警实例的名称,默认为 RDS查询SQL平均执行时间监控告警。您可以根据不同监控对象,命名不同的告警名称便于识别。严重度:严重、高、中、低、报告。默认值为高。SQL...

配置加速规则

成功添加服务域名后,您可以根据需要设置动静态内容加速规则,开启动态...文件类型 更新频率 缓存时间设置 文件类型举例 静态文件 不常更新 1个月以上 图片、应用下载类型等 静态文件 频繁更新 稍短于1个月,根据实际业务情况设置 JS、CSS等

OSS流量安全

执行频率 固定时间间隔:4小时 查询范围 过去4小时 参数配置 告警参数说明如下所示:告警名称:告警实例的名称,支持创建多个告警实例。严重度:告警严重度,包括严重、高、中、低、报告。流量异常点个数的阈值:OSS流量异常点个数的阈值,...

SLB流量安全

执行频率 固定时间间隔:4小时 查询范围 过去4小时 参数配置 告警名称:告警实例的名称,默认为 负载均衡响应报文长度异常检测。您可以根据不同监控对象,命名不同的告警名称便于识别。严重度:严重、高、中、低、报告。默认值为高。异常点...

TDI安全事件

执行频率 固定时间间隔:1分钟 查询范围 过去2分钟 参数配置 告警参数说明如下所示:告警名称:告警实例的名称,支持创建多个告警实例。严重度:告警严重度,包括严重、高、中、低、报告。请求成功率阈值:请求成功率的阈值,默认值为90%。...

GTM如何实现异地容灾

概述 方案介绍 异地容灾是指应用服务部署在不同地域时,当其中一地出现故障时,全局流量管理(简称GTM)可以将出现故障地域的用户访问流量,调度至异地灾备中心,保障用户访问连续不间断。本文将以两地三中心灾备架构为读者讲解异地灾备的...

故障复盘

故障复盘规范 故障复盘作为故障体系中的重要一环,整体复盘流程包括故障处理过程、改进分析、故障定责,基于包含标准化的复盘SOP、对应预防action推荐、问责管理机制,全面地回溯线上故障的发生,产出故障复盘报告和改进措施,避免故障重复...
共有174条 < 1 2 3 4 ... 174 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 负载均衡 云数据库 OceanBase 版 应用高可用服务 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用