更新故障复盘改进详情

problemReason":"故障原因A","recentActivity":"2","injectionMode":"1","recoveryMode":"2","discoverSource":1,"userReport":10,"monitorSourceName":"Zabbix","relationChanges":"关联变更","dutyUserId":1231,"replayDutyUserId":1213...

如何解决MSE Nacos实例域名无法解析的问题?

如果使用的是ACK,请 提工单 联系ACK技术支持协助排查CoreDNS故障原因。方案二:使用ping命令 使用 ping${mse.nacos.host} 指令尝试解析。如果提示 unknown host,则无法解析域名。如果提示 PING${mse.nacos.host}(xxx.xx.xx.xx)56(84)...

故障止损恢复

故障初因定位 集成企业内部可利用的所有稳定性相关数据(变更事件,...通用垂直专项快恢能力:通过集成包括DB侧慢SQL限流、变更极速回滚、多活容灾切流快恢等通用的快恢能力,结合监控、日志等数据自动定位的故障原因进行对应的快恢方式推荐。

什么是故障

包括根因检查点(如故障原因、最近活动、注入方式、恢复方式等)、故障变更检查、监控检查,并需要对每一个故障明确责任人及团队;故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘后的故障都能对业务...

故障复盘改进详情

0c4840fd3812 幂等校验token 返回数据 名称 类型 示例值 描述 requestId String 4361a0e1-6747-4834-96ce-0c4840fd3811 Id of the request data Object data problemId String 231231 故障ID problemReason String 故障的原因 故障原因 ...

什么是消息演练

随着应用规模的扩大,系统变得越来越复杂,不可避免地会走向分布式化。各种中间组件会相继被引入系统,其中分布式消息服务更是系统中必不可少的一...需要注意的是演练场景仅是组件表象,其内部故障原因可能是多种多样的,需要进一步进行分析。

功能概述

数据库发生故障后,无法在发生故障时定位到原因,可以通过智能压测功能,在克隆库上复现故障场景,定位故障原因。功能架构 智能压测的功能架构如下图所示:源数据库:将要进行大促、将要业务变更或者已经发生故障,需要进行流量捕获的数据...

故障管理

包括根因检查点(如故障原因、最近活动、注入方式、恢复方式等)、故障变更检查、监控检查,并需要对每一个故障明确责任人及团队;故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘后的故障都能对业务...

托管节点池节点自动恢复

当发现节点故障时,ACK会根据故障原因触发对应恢复任务,并记录相应的事件。当恢复任务完成后,故障状态解除,节点恢复正常状态。当恢复任务完成后,故障状态依然存在,节点会被置为恢复失败状态。说明 如果集群中存在多个节点池,节点池...

EMR Kafka磁盘故障运维

当出现磁盘故障时,需要根据故障原因、故障影响程度、业务需求(是否接受数据丢失、是否允许服务较长时间不可用)、集群状态等综合考虑恢复采取的策略。如果业务优先保证服务可用,但允许丢失部分数据,则应考虑在可能会丢失数据的情况下,...

虚拟服务(Virtual Service)CRD说明

对于访问指定目标主机的流量,虚拟服务定义了一组流量路由规则,每个路由规则定义了特定的流量匹配条件。如果流量匹配,则将其转发到路由规则所指定的目标服务或者目标服务的版本(子集)。本文介绍虚拟服务CRD的配置示例和字段说明。配置...

故障隔离

搜索故障隔离规则 支持从两个维度模糊搜索:应用名称 规则名称 编辑故障隔离规则 您可以随时编辑已创建的故障隔离规则规则提交后实时生效。在 故障隔离 页签,单击目标故障隔离规则右侧的 编辑。按需求编辑故障隔离规则后,单击 提交。...

无法连接Windows实例

故障原因 可能是ECS实例安全组默认的公网规则被删除。解决方法 重新配置ECS实例的安全组公网规则,具体操作请参见 ECS实例安全组默认的公网规则被删除导致无法ping通。步骤六:检查远程访问端口配置是否异常 确认是否存在故障现象,如果...

功能概览

告警暂停/开启 由于某些暂定原因需对规则暂停告警,暂停期内将不会进行检测和产生告警。配置模版 配置模版 提供监控配置模板功能,支持将应用和自定义监控告警以配置模板(JSON 文件)导出,然后一键导入其他环境。如该环境已部署同名应用...

故障演练常见问题

故障不生效是否计费?计费。故障不生效的原因较多,可能是参数配置不正确或无对应的请求命中,但故障规则已成功下发,故需要计费。刚刚购买的资源包为什么会被扣减次数?因为购买前已产生欠费,购买资源包后会先扣减所欠的次数。子账号的...

Quick BI仪表板导出为PDF或图片较为模糊什么原因

问题描述 Quick BI仪表板导出为PDF或图片较为模糊什么原因。问题原因 目前Quick BI仪表板导出是根据报表高度调整的,如果高度小于9000px,会将报表放大两倍导出,然后缩小放入浏览器等宽高图片中。如果大于9000px,就不会将报表放大,清晰...

故障注入

单击 添加注入 规则,然后配置以下参数:参数 说明 规则名称 设置故障注入规则的名称。最多不超过 255 个字符。应用 选择或填写目标应用的名称。星号(*)表示所有应用。注入方向 设置故障注入的方向,可选值为:服务端注入:在应用的服务...

故障注入

功能简介 故障注入流程如下所示:在微服务中,其实现方式为:管控台 MS 拼接故障注入规则,将其发送到 DRM。MOSN 和 RPC 客户端订阅 DRM 的 Key 值。配置故障注入规则 登录 SOFAStack 控制台。在左侧菜单栏选择 中间件>微服务平台>服务网格...

诊断规则

通过故障诊断平台,运维人员可以将诊断过程、排查顺序进行图形化编排与设计,即故障诊断决策树。而后,在实际故障发生时,即可执行自动化、标准化的故障排查,并直接输出诊断报告,反馈诊断结果。故障诊断功能有效提升了故障排查效率,实现...

查看事件与监控信息

故障列表 故障列表显示当前应用分组正在报警的全部资源,如果正在报警的规则被禁用,则故障列表中不再显示被禁用规则故障信息。可用性监控 查看服务实例可用性的监控信息。组进程监控 查看组进行监控的进程ID、动态规则匹配和状态等信息...

API概览

故障演练 故障演练的相关API如下表。API 描述 CreateExperiment 调用CreateExperiment接口新建一个故障演练。UpdateExperiment 调用UpdateExperiment接口编辑故障演练基本信息及流程定义。ExecuteExperiment 调用ExecuteExperiment接口执行...

光模块故障

本文介绍光模块发生故障原因和处理方法。问题现象 光模块连接后,接口指示灯没有变为绿色。可能原因 光模块不兼容或损坏。智能接入网关设备支持的光模块型号请参见 光模块型号。说明 目前仅SAG-1000设备支持光模块插入。解决方案 通用多...

按量计费

(0-50]M/min 1.5元/小时(50-100]M/min 3元/小时(100-150]M/min 4.5元/小时 以此类推/流转规则故障应急)流转规则触发类型为启动故障应急时的费用,按此类型流转规则条数收费。3.5元/条/日/变更管理 自定义审批配置费用,按审批流条数收费...

设备和交换机之间的链路故障

本文介绍SAG-1000设备发生设备和交换机之间链路故障原因和处理方法。问题现象 设备和交换机接口之间ping不通。设备的Web端口配置页,端口前的状态灯为红色。动态路由OSPF接入时,Web端口配置页,端口前的状态灯为红色。设备的Web状态查询...

ListReminds

调用ListReminds获取或搜索自定义...Action=ListReminds&PageNumber=1&PageSize=10&Founder=9527952795*&NodeId=1234&RemindTypes=FINISHED,ERROR&AlertTarget=9527952795*&SearchText=模糊搜索规则名称&公共请求参数 正常返回示例 XML 格式 ...

创建及管理分布式训练任务

模糊查询规则 在聚合日志关键词查询时,可以使用星号(*)和半角问号?来实现模糊查询,其余特殊符号无效。具体规则如下:星号(*)代表多个任意字符的词,半角问号?代表单个字符的词。星号(*)和半角问号?需要加在关键词的中间或者末尾,...

故障协同处理(基于钉钉)

2.故障应急场景群:事件升级故障后,群内推出 故障处理中 消息卡片,如果满足自动生成故障场景群的需求(下文详细介绍创建故障场景群逻辑),故障场景群内同时推出 故障处理中 消息卡片。本群故障消息卡片包含按钮:签到、签到记录、应急...

配置实时监控报警规则

为了及时发现并处理任务运行过程中的异常,Dataphin支持批量为任务配置报警规则,便于您及时发现并处理异常,同时提高了为任务配置监控报警规则的效率。本文为您介绍如何为实时任务配置监控告警规则。背景信息 Dataphin支持批量配置监控...

配置实时监控报警规则

为了及时发现并处理任务运行过程中的异常,Dataphin支持批量为任务配置报警规则,便于您及时发现并处理异常,同时提高了为任务配置监控报警规则的效率。本文为您介绍如何为实时任务配置监控告警规则。背景信息 Dataphin支持批量配置监控...

微服务引擎MSE的审计事件

CreateFaultInjectionRule 创建故障注入规则。CreateGovernanceKubernetesCluster 注册已接入服务治理的集群信息。CreateMseServiceApplication 创建应用。CreateNacosConfig 创建Nacos配置。CreateNacosInstance 创建Nacos实例。...

错误编码:HSF-0024

可能原因 上述报错信息表明调用没有被路由到预期的机器上,可能原因规则配置错误,例如路由规则填写错误、路由规则里的IP没有提供服务等。路由规则的配置方式,请参见 Routing Rule Wiki。解决方案 您可以通过以下步骤,排查路由规则是否...

基于最后一次访问时间的生命周期规则

您可以通过基于最后一次访问时间(Last Access Time)策略的生命周期规则来自动监测数据的访问模式并识别冷数据,然后将识别出来的冷数据进行存储类型的转换,从而达到数据的冷热分层存储,最终降低存储成本。使用场景 多媒体场景 某网站的...

诊断网页加载过慢的问题

慢加载详情 页面顶部的 页面信息 区域展示了本次访问的客户端IP地址、浏览器、操作系统等信息,帮助您确认故障原因。慢加载详情 页面的 页面资源加载瀑布图 区域展示了页面静态资源加载的瀑布图,帮助您快速定位资源加载的性能瓶颈。慢加载...

事件告警概览

故障排查:通过审计日志和告警来分析系统故障或性能问题的原因。功能特性 实时检测事件:当您设置告警规则后,操作审计将实时检测云上异常事件,快速发现风险。支持设置告警规则:操作审计内置关于账号安全、权限管理、资源管理等多条告警...

功能特性

此外,在数据库实例发生故障且无法定位原因时,可以利用克隆库复现故障场景,以便更好地定位故障原因。智能压测 搜索分析 查询并导出SQL语句对应的日志信息。搜索 SQL洞察 SQL洞察聚类分析,用作深度异常的排查。SQL洞察 安全审计 内置了...

如何管理故障

可对故障根因进行原因检查并结构化录入,检查点包括:故障原因、最近活动、注入方式、恢复方式等;关联故障期间的故障变更,新增故障改进措施等操作。故障状态 处理中:处理中仍未恢复的故障;已恢复:故障对处理中的故障做 恢复 操作后是...

查看指定报警规则的报警历史

您可以查看指定报警规则中的所有故障资源的报警详情和报警图表,及时定位并处理资源故障。操作步骤 登录 云监控控制台。在左侧导航栏,选择 报警服务>报警规则。在 报警规则列表 页面,单击目标报警规则对应 操作 列的 报警历史。您可以...

应用故障自动诊断

在EDAS中进入应用总览页面时,会按照您自定义的时间段对该应用的运行情况做一个自动诊断。...数据支持:这一部分包含了得到推测结论的数据支持,不同故障原因的诊断报告中包含的分析数据将不一样。图 1.故障诊断报告示例图-RT诊断

故障复盘

复盘文档一般包含以下内容:故障简述:故障概述、影响面、处理人等 故障背景:故障发生时的业务链路 故障时间线:着重强调故障引入、故障发生、故障发现、业务响应、恢复执行、故障恢复几个时间点 故障原因分析:建议先一句话总结,再进行...

监控报警概述

故障预警 云电脑的故障信息、故障原因及故障时间等信息。使用场景 在日常业务运行的过程中,监控大盘帮助您及时了解账号下全部云电脑资源的全局情况,实时监控提供更详细的数据指标和故障预警信息,帮助您了解终端用户使用云电脑的情况,...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 物联网平台 NAT网关 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用