故障协同处理(基于钉钉)

(2)故障过程 H5界面:故障过程包含过程详情、故障影响面、故障状态和时间线四个子模块,点击 恢复 按钮前需校验四个模块的内容完成情况,全部完成后则可进行故障的复盘。恢复故障后可支持撤销恢复故障,此时 恢复 按钮变成 撤销恢复 按钮...

代码逻辑场景

受影响的请求占比(%)否 0 限制发生故障的请求数占所有应该发生故障请求数的百分比,也可代表每次请求发生故障的概率。填写小于或等于0,则表示100%发生故障。说明 仅填写百分比数字部分即可,即80%,填写80。请求过滤规则 否 无 通过脚本...

故障应急协同

每个故障建议设置单独的故障处理群,群内成员均为故障的相关人,为故障的协同处理提供了天然的协同环境。故障应急协同群贯穿整个故障处理过程:7*24故障启动->自动创建应急协同群->自动拉人/通知->定位信息/止损预案推送->一键电话会议->...

设计原则

面向风险的应急快恢原则 在一些场景下,即使设计了各种技术手段去提高系统的冗余、保持业务的高可用,但还是避免不了生产系统故障的发生,所以需要面对故障建立一个高效的故障应急流程机制和稳定的技术平台,实现故障风险实时发现、应急...

读多写少型业务场景多活实践

在杭州单元发生故障的情况下,可以使用MSHA切流功能将受影响的用户流量切换到另外的单元,进行快速业务恢复(这里区别于传统的思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦)。容灾切换预期:将...

什么是故障

“用户体验下降”说明故障的核心要关注用户感受,可通过客服渠道获知用户投诉,也可通过监控渠道推知用户端的使用情况;“服务中断、服务品质下降”说明即使用户没有投诉(甚至没有用户使用),但是如企业提供的服务出了问题,也是故障;...

故障隔离

配置示例 某应用有 A、B、C 三台服务器,三台服务的状态如下:A:正常 B:异常,异常率 20%C:异常,异常率 40%已配置的故障隔离规则如下:时间窗口大小:10 时间窗口内最少调用次数:20 异常比例阈值:20 异常比例倍数:1 最大隔离数量:1...

如何管理事件

故障状态:处理中(升级时故障还在处理中),输入发现故障的时间、已恢复(升级时故障已恢复),输入故障生成的时间和故障恢复的时间;所属服务:升级故障所属的 服务;影响服务:选择 影响服务(可多选);进展摘要:处理人将事件升级为...

流水单据型业务场景多活实践

复现故障 改造完成容灾架构后,还需验证容灾能力是否符合预期,接下来将历史故障进行复现,通过制造真实的故障来验证容灾恢复能力。演练准备。登录 AHAS控制台。在控制台左侧导航栏选择 多活容灾。在左侧导航栏选择 监控大盘,在顶部菜单栏...

故障基础数据管理

如评判各业务团队的故障发现能力的标准就是故障等级定义的监控发现率等。在定义故障等级的时候,需要从功能等级、业务体量、业务特性、量化影响4个维度进行设计,一个简要的通用故障等级定义参考模板如下:业务量级 功能分类 影响面 P1 P2 ...

电源故障定位

将有故障的电源适配器放到其它正常的设备中观察,或从其它设备中拿正常的电源适配器来交叉验证,识别故障。若交叉验证之后,故障跟随电源适配器,则将该电源适配器返修。若交叉验证之后,故障跟随设备,则请提交工单。icmsDocProps={'...

应用故障自动诊断

如果发现问题,则会在应用总览页面上方闪现一个红色盾牌图标,单击该图标即可弹出故障诊断报告,故障报告上的故障定界和根因分析可以帮助您更好地发现和解决问题。常见的故障自动诊断场景 RT突增 下游业务导致的本应用的RT突增,您可以联系...

同城多活架构实践

在杭州单元格B的商品应用发生故障的情况下,可使用MSHA切流功能将流量全部切换到另外的单元格,进行快速业务恢复(这里区别于传统的思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦)。容灾切换...

演练场景

故障演练是业务系统上线前必要的演练环节,旨在对应急预案的可行性,进一步完成应急预案,从而帮助提升产品、集群、机房的稳定性,减少故障的发生,提高故障应急效率,进而提升产品竞争力。一个完整的故障演练过程为 创建故障原子服务>创建...

设计方案

这样可以快速确定故障的范围和影响,并且能够帮助排查故障的根本原因。告警关联分析可以使用各种工具和算法,如事件关联分析、机器学习等。知识图谱:知识图谱是指通过将各种数据和知识进行关联和组织,建立一种知识库或知识图谱,以便在...

光模块故障

本文介绍光模块发生故障的原因和处理方法。问题现象 光模块连接后,接口指示灯没有变为绿色。可能原因 光模块不兼容或损坏。智能接入网关设备支持的光模块型号请参见 光模块型号。说明 目前仅SAG-1000设备支持光模块插入。解决方案 通用多...

故障复盘

故障复盘规范 故障复盘作为故障体系中的重要一环,整体复盘流程包括故障处理过程、改进分析、故障定责,基于包含标准化的复盘SOP、对应预防action推荐、问责管理机制,全面地回溯线上故障的发生,产出故障复盘报告和改进措施,避免故障重复...

单实例快速恢复

实例规模和允许故障的Worker数量如下表所示:计算资源数量 实例节点数量 允许故障的Worker数量 160CU实例计算资源实例节点数量实例计算资源 20实例节点数量 2 由于临时使用了其他正常的Worker快速加载故障Worker原始分配Shard的元数据,...

HTTPDNS的高可用性如何保证

HTTPDNS通过以下方式保证高可用:为客户端提供多组服务IP,个别...采用Anycast IP网络多地域部署,在单个地域节点出现故障的情况下,流量可无缝切换到其他地域节点。同地域多可用区独立部署,单机房的故障不会导致该地域节点的服务中断异常。

演练原子操作

故障演练原子操作指最小单元的故障。在 故障演练>演练原子操作 页面中,展示了平台上可用于故障演练的原子服务。可根据原子服务状态分类,查看当前环境中的故障原子操作信息,包括原子操作名称、操作编码、添加时间、状态、被引用次数等...

应用场景

体系化故障闭环管理 应用场景 基于阿里多年base ITIL实践经验沉淀的故障管理体系,满足企业重大故障的流程化、在线化管理需求,持续提升业务连续性。能够解决 故障应急:支持故障全局应急通告,电话、短信、邮件、IM多种通知渠道,加快信息...

JVM注入动态脚本

受影响的请求占比(%)否 0 限制发生故障的请求数占所有应该发生故障请求数的百分比,也可代表每次请求发生故障的概率。填写小于或等于0,则表示100%发生故障。说明 仅填写百分比数字部分即可,即80%,填写80。请求过滤规则 否 无 通过脚本...

强弱依赖治理概述

强弱依赖治理就是通过科学的手段持续稳定地得到应用间依赖关系、流量、强弱等数据,提前发现因为依赖问题可能导致的故障,避免依赖故障影响用户体验,积累数据持续推进系统稳定性提升。什么是强弱依赖?异常发生时,不影响核心业务流程,不...

如何排查Java场景下故障注入不生效的问题

开启Debug模式 在查看目标演练的故障注入日志前,您需要先确认该演练的故障执行步骤是否已开启Debug模式。若未开启,可按照以下步骤设置目标演练的故障执行步骤,开启Debug模式。登录 AHAS控制台,在左侧导航栏选择 故障演练>我的空间。在 ...

Quick BI登录提示The MySQL server is running with ...

问题描述 Quick BI登录提示“The MySQL server is running with the LOCK_WRITE_GROWTH option so it cannot execute this statement”...配置数据源对应指标项的监控项,提前进行对应故障的处理。适用于 Quick BI 当前环境:独立部署4.1.1.3

什么是故障演练

适用场景 故障演练可适用于以下典型场景:衡量微服务的容错能力 通过模拟调用延迟、服务不可用、机器资源满载等,查看发生故障的节点或实例是否被自动隔离、下线,流量调度是否正确,预案是否有效,同时观察系统整体的QPS或RT是否受影响。...

故障复盘改进详情

0c4840fd3812 幂等校验token 返回数据 名称 类型 示例值 描述 requestId String 4361a0e1-6747-4834-96ce-0c4840fd3811 Id of the request data Object data problemId String 231231 故障ID problemReason String 故障的原因 故障原因 ...

诊断规则

而后,在实际故障发生时,即可执行自动化、标准化的故障排查,并直接输出诊断报告,反馈诊断结果。故障诊断功能有效提升了故障排查效率,实现故障的快速定位与处理。本节将向您介绍诊断规则的相关操作。诊断规则是诊断节点的构成,诊断规则...

设备和交换机之间的链路故障

本文介绍SAG-1000设备发生设备和交换机之间链路故障的原因和处理方法。问题现象 设备和交换机接口之间ping不通。设备的Web端口配置页,端口前的状态灯为红色。动态路由OSPF接入时,Web端口配置页,端口前的状态灯为红色。设备的Web状态查询...

概述

分布式链路跟踪具备以下特点:全链追踪:能够深入应用,服务,数据库,消息,捕获性能异常,识别出现故障的组件及服务。易于使用:可以与 SOFAStack 上的应用进行无缝对接,用户的业务代码无需任何修改即可轻松接入,实现性能可视化与问题...

什么是服务组

创建的服务组可以被设置为报警、事件、故障的通知订阅对象;服务组以服务或组织架构为创建前提。核心功能 通知精准送达:服务组以服务或组织架构为创建前提,实现关键任务通知更精准送达;提升任务处理效:支持服务组通知,降低信息沟通...

ack-node-repairer

当Node Problem Detector(简称NPD)组件检测到节点上的故障并生成节点的事件(Event)或者Condition上报给集群时,ACK的自愈系统(ACK Node Repairer)会监听每个节点上的新故障事件,并根据配置对故障节点进行相应的修复操作。...

服务管控和治理

您可以对应用开启服务熔断功能,使有故障的服务端及时返回错误,并释放系统资源,提高用户体验和系统性能。更多信息,请参见 服务熔断。故障注入 您可以通过故障注入功能向测试应用注入故障,检测应用面对异常时的处理情况。您可以根据检测...

什么是移动应用

关于移动应用的定位:支撑运维事件中心的核心业务在移动端开展,如运维事件/故障的响应、转交与完结等事件运行生命周期内的重要节点和操作。打通PC端(阿里云控制台)与移动端(钉钉、企业微信、飞书)之间的信息互通的渠道,方便用户在多...

故障排查

本文介绍阿里云容器服务ACK集群在使用过程中常见问题的故障分析和排查流程。ACK集群异常 添加Kubernetes集群节点的常见问题 容器镜像仓库构建服务失败问题排查 容器镜像服务源码绑定失败问题排查 Kubernetes集群如何指定安全组 Kubernetes...

托管节点池节点自动恢复

由于故障的复杂性,自动恢复任务无法修复所有的故障场景。当节点自动恢复任务执行失败,或者恢复任务执行完毕后故障并未解除,ACK会将节点标记为恢复失败状态。如果托管节点池中恢复某个节点失败,在故障修复前,该节点池不会再触发自动...

为何Pod中仍存在已恢复故障的“僵尸进程”?

在K8s环境中,下发的故障已经被恢复了,但是Pod中仍存在该故障的“僵尸进程”。本文介绍该情况可能的原因以及解决方案。可能原因 这是因为容器中存在PID Namespace隔离。在容器中,故障演练进程的父进程是PID=1的进程,容器中的一号进程不...

产品正式商业化发布

体系化故障闭环管理:基于阿里多年base ITIL实践经验沉淀的故障管理体系,满足企业重大故障的流程化、在线化管理需求,持续提升业务连续性。云钉运维协同:基于钉钉,进行运维问题的协同处理,提升信息流转效率,加速问题解决。更多能力...

Quick BI中指标拆解树的子节点百分比是什么意思

概述 Quick BI中指标拆解树的子节点...默认条件下子节点百分占比的意思为:以子节点的所有数据中最大的一个数据作为分母,来计算其他各个数据所占的百分比。在样式-图表样式中可以自己设置拆分逻辑,选择百分比计算的分母。适用于 Quick BI

CRM-实例

其底层服务横跨阿里云地域的三个可用区,提供能够经受一整个可用区故障以及同时另一个可用区中一个以上的单独组件故障的高可用性和容灾能力。底层服务中的“核心服务”,提供了如销售云、服务云以及Salesforce平台(Platform)的主要功能。...
共有103条 < 1 2 3 4 ... 103 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 云数据库 OceanBase 版 负载均衡 应用高可用服务 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用