故障演练

在设计演练方案的过程中,可以考虑在模型中每个环节进行故障注入,验证故障应急方案。不同演练类型和目标 根据演练过程对线上业务的影响,演练可分为有损演练和无损演练。由于对业务的影响不同,两种演练可以进行的演练频次、可实现的业务...

产品架构

高可用管理平台 HAS 在蚂蚁 SOFA 中间件以及 Café 应用发布平台的基础上,为用户应用及蚂蚁应用提供日常巡检、风险管理、应急预案故障演练等技术风险管理能力,满足用户应用巡检、故障处置、应急管理、故障演练等多种应用运维场景。...

故障应急

故障管理体系是围绕故障全生命周期采取的一系列控制流程,包括故障基础数据管理(故障等级定义、应急场景监控覆盖、服务组&值班表管理、故障订阅管理),故障发现(7*24监控值班、智能基线告警),故障应急协同(故障通告及更新、故障应急...

故障应急协同

故障应急协同群贯穿整个故障处理过程:7*24故障启动->自动创建应急协同群->自动拉人/通知->定位信息/止损预案推送->一键电话会议->故障直播间->故障恢复应急结束指标汇总。故障应急过程中的重点角色和职责有:故障处理人(技术支持、监控...

故障协同处理(基于钉钉)

5.故障应急场景群:事件升级故障后自动创建故障应急场景群,在原有群聊和生成的故障场景群都支持操作故障,且故障关联数据和消息卡片实时同步推送。故障场景群包含以下三部分功能:(1)消息卡片自动推送:场景群创建成功后,群机器人自动...

故障管理

服务组和故障应急群 服务组是一组人员,可以跟一个或者多个故障场景绑定,当故障触发时,会自动外呼对应的服务组值班成员以及加服务组成员到故障应急群。同时服务组也支持排班。简而言之服务组就是在故障平台的一组值班人员。故障应急群是...

产品优势

自动化故障诊断和标准化应急预案快速定位并恢复故障,减少因故障引起的业务中断时间。故障演练主动检验应用高可用能力。支持蚂蚁产品双中心容灾切换,满足监管合规需求。技术风险防控内容库快速更新 阿里云、蚂蚁技术风险团队基于域内、...

产品简介

应用场景 故障应急:当云产品出现影响可用性的事件时,用户可以通过“阿里云健康看板”及时查看相关信息,帮助用户了解事件的影响和处理进展,及时实施相应的应急预案,最大程度的降低业务影响。异常排查:当用户使用云产品过程中遇到了...

故障止损恢复

建议在故障应急协同群中推荐输出常见的快速恢复能力,并提供PC、手机端的一键快速执行能力,减少研发在各自平台上查找快恢入口的时间,也解决研发在外无电脑应急的尴尬局面。快恢能力主要包含人工梳理快恢预案、通用垂直专项快恢能力:人工...

故障基础数据管理

在设计相应的管理方案时,需要考虑以下内容:服务组:提供服务的人员群体,服务包括故障处理,工单处理等 值班表:可以对服务组成员进行排班,让故障应急工作更有计划性、不易遗漏 升级组:服务组的一种,通过服务组和升级组,可表达组与组...

如何管理事件

主要处理人:故障应急处理的小组应急 主要处理人,默认为 事件默认分配人;应急协同组:故障应急 处理的小组(可多选)。手动新增事件 点击首页左侧的新增事件按钮;点击新增事件按钮后出现新增事件弹窗;在新增事件弹窗输入事件名称,选择...

移除故障应急协同组

移除故障应急协同组。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求头 该接口使用公共请求头,无特殊请求头。请参见公共请求参数文档。请求语法 POST...

新增故障应急协同组

新增故障应急协同组。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求头 该接口使用公共请求头,无特殊请求头。请参见公共请求参数文档。请求语法 POST...

按量计费

(0-50]M/min 1.5元/小时(50-100]M/min 3元/小时(100-150]M/min 4.5元/小时 以此类推/流转规则(故障应急)流转规则触发类型为启动故障应急时的费用,按此类型流转规则条数收费。3.5元/条/日/变更管理 自定义审批配置费用,按审批流条数收费...

应用场景

能够解决 故障应急:支持故障全局应急通告,电话、短信、邮件、IM多种通知渠道,加快信息流转。故障跟踪:支持对故障进展、故障影响面、舆情反馈、Timeline进行在线化管理、协同,提升故障处理效率。故障复盘:基于最佳实践经验,沉淀了对...

故障发现

故障应急争分夺秒,Oncall时效难以保障。7*24监控值班的主要考核指标有:通告及时率、通告准确率、快恢执行率。智能基线告警 智能基线告警是一套集成了统计学方法与机器学习算法,自动学习指标数据的历史规律,进而检测曲线异常突变的智能...

什么是高可用管理平台

高可用管理平台(High Availability Service,HAS...事中:通过故障诊断、应急预案、容灾切换实现风险事件快速定位和恢复。事后:通过风险定级、回溯,实现风险事件的闭环管理。有效提升 IT 技术风险防御水平,保证业务健康、持续、稳定运行。

预案管理

通过 预案管理 模块,您可以新建一个应急预案,直接执行或将其与风险事件进行关联执行。您还可以对所有的预案进行统一管理,包括查看、编辑、删除预案。应急预案 新建应急预案 登录 SOFAStack 控制台。在左侧导航栏选择 运维管理>高可用...

什么是故障

核心功能 故障应急:支持故障全局应急通告,电话、短信、邮件、IM多种通知渠道,确保故障关键进展及时通知至相关人员,加快信息流转;故障收敛:支持按时间/次数进行告警收敛,将告警收敛到一个故障中统一处理;故障追踪:支持对故障的最新...

无法连接到同一个云连接网内的本地客户端

目标PC环境的网络故障。运营商网络故障。解决方案 登录 智能接入网关控制台。单击智能接入网关实例ID,查看当前设备状态是否为 可用。如果离线,请参见 设备显示离线 处理。如果在线,请跳转至 步骤3。登录交换机控制台,查看设备和交换机...

演练场景说明

网络故障是系统运行过程中时常遇到的问题,所以需要提升系统在网络异常情况下的容错能力。Java 场景名称 特性 虚拟机场景 故障演练支持的虚拟机场景。代码逻辑场景 故障演练支持的代码逻辑场景。JVM注入动态脚本 向指定的Java方法注入一段...

产品优势

安全、稳定 提供7×24小时的运行维护,并以在线工单和电话报障等方式提供技术支持,具备完善的故障监控、自动告警、快速定位等一系列故障应急响应机制。基于阿里云的AccessKeyId和AccessKeySecret安全加密对,从访问接口上进行权限控制和...

AccessGatewayFailover

告警信息 事件名称 事件级别 状态码 状态描述 AccessGatewayFailover INFO agwfailover Access Gateway Failover 可能原因 IPsec链路网络故障。处理方法 无需处理。icmsDocProps={'productMethod':'created','language':'zh-CN',};

ConnectionDisconnect

告警信息 事件名称 事件级别 状态码 状态描述 ConnectionDisconnect CRITICAL disconnect Connection Disconnected 可能原因 主备IPsec链路均出现网络故障。处理方法 检查用户侧运营商网络接入是否正常。icmsDocProps={'productMethod':'...

附录 1 网络安全法简介

措施:制定网络安全事件应急预案,及时处理系统漏洞、计算机病毒、网络攻击、网络入侵等安全风险、并按照规定向有关部门报告。加强对用户发布信息的管理,及时消除法律、行政法规禁发的信息,建立网络信息投诉、举报制度、并及时受理。对...

高性能检索版介绍

安全、稳定 提供7×24小时的运行维护,并以在线工单和电话报障等方式提供技术支持,具备完善的故障监控、自动告警、快速定位等一系列故障应急响应机制。基于阿里云的AccessKeyId和AccessKeySecret安全加密对,从访问接口上进行权限控制和...

ping不通云服务(SAG-100WM)

运营商网络故障。解决方案 登录 智能接入网关控制台。单击智能接入网关实例ID,查看设备状态是否为 可用。如果离线,请参见 设备显示离线 处理。如果在线,请参见 3 处理。请观察设备的CLOUD LED灯是否点亮。如果CLOUD的LED灯是亮的,表示...

故障处理流程

当智能接入网关设备发生网络故障后,您可以先观察现象、收集信息,然后对现象和信息进行分析诊断,尝试修复问题。本文为您介绍智能接入网关设备故障处理流程。SAG-100WM故障处理流程说明 通过SAG-100WM访问阿里云,发现故障,请参见以下...

ping不通云服务ECS(SAG-1000)

运营商网络故障。解决方案 登录 智能接入网关控制台。单击智能接入网关实例ID,查看设备状态是否为 可用。如果离线,请参见 设备显示离线 处理。如果在线,请跳转至 步骤3。登录交换机控制台,查看设备和交换机的连通性。如果是静态路由接...

产品体系

高阶运维 TRaaS 技术风险防控平台,是以蚂蚁内部 SRE 长期实践方法论和内部工具沉淀为依托,形成的解决用户上云和分布式改造过程中,可观测、故障应急、容灾、混沌工程、资金安全、压测等运维问题的平台产品。研发效能 源于蚂蚁集团在...

行业算法版介绍

安全、稳定 提供7×24小时的运行维护,并以在线工单和电话报障等方式提供技术支持,具备完善的故障监控、自动告警、快速定位等一系列故障应急响应机制。基于阿里云的AccessKeyId和AccessKeySecret安全加密对,从访问接口上进行权限控制和...

故障复盘

故障过程分析:可从需求评估、代码发布、故障应急等环节进行分析 后续改进:后续改进措施,明确改进方和责任人 故障等级/责任:参考上述故障等级定义,定义本次故障等级,并明确责任团队和责任人。故障数据运营 基于基础故障数据,通过不同...

重启设备

网络故障时,重启设备可消除部分软件故障。背景信息 重启设备一般有两种方法:通过关闭或打开设备电源进行重启。通过智能接入网关控制台,远程重启设备。关闭或打开设备电源 警告 您通过关闭或打开设备电源进行重启时,请注意保存设备的...

预案执行

查看应急预案执行单 登录高可用管理控制台。在左侧导航栏上,单击 应急预案>预案执行。选择 应急预案 页签。应急预案总览页面展示了当前环境的预案执行单总量、各种状态的(未执行、执行中、执行成功、执行失败、参数待确认)执行单数量...

运维事件中心的审计事件

事件名称 事件含义 AddProblemServiceGroup 新增故障应急协同组。BillingStatistics 计费展示。CancelProblem 故障取消。CheckWebhook 校验Webhook。ConfirmIntegrationConfig 确认集成配置。Create 登录产品售卖页面进行的购买操作。...

支持计划

4.7大客户专属服务(顶级)故障应急:针对云上故障提供快速响应、组织应急及实时止血技术方案同步能力。关键时刻保障:针对重要业务上线、业务变更等关键场景提供应急保障服务。业务监控设计:在重要活动及日常保障过程中协助客户设计云上...

应用场景

​ 高可靠:在宕机、网络故障等情况下,严格保证数据一致性。节约成本:节省运维成本,避免了分布式场景下产生的数据异常。节省开发成本,像使用单机事务一样使用分布式事务。推荐搭配 ECS 和 MQ 使用。通用分布式事务管理 提供通用的分布...

应用场景

同时不断更新优化日常巡检、故障诊断、应急预案等内容的建设,不断丰富和完善应用技术风险防控体系,简化日常应用运维操作。故障演练 为不断提升产品高可用能力,通过高可用管理平台的故障演练模块,设计并规划演练计划和恢复方案,继而在...

常见问题FAQ

5.右上角无网络 故障示意图如下:如门店单台设备显示无网络,见下遥控器按键说明,按电源键启动广告机。如无法排除故障。如门店多台设备均显示无网络,请您联系所在公司的技术人员。6.登录失败 故障示意图如下:见下遥控器按键说明,按电源...

趋势分析

通过延时、丢包率、探测次数三个指标在不同维度、不同汇聚粒度的表现来判断网络趋势,可以用来定位网络故障发生的时间点以及业务的网络质量趋势。首页点击 详情分析 按钮,进入“趋势分析”页面。筛选条件:说明 筛选条件“统计时间段”,...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云服务器 ECS 共享流量包 弹性公网IP 负载均衡 短信服务 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用