如果发现问题,则会在应用总览页面上方闪现一个红色盾牌图标,单击该图标即可弹出故障诊断报告,故障报告上的故障定界和根因分析可以帮助您更好地发现和解决问题。常见的故障自动诊断场景 RT突增 下游业务导致的本应用的RT突增,您可以联系...
若ACK AI助手无法定位问题的根因并提供可用的解决方案,您可以发起进一步发起诊断,对异常的Pod、Node节点发起基于ACK技术专家诊断经验的深度故障诊断功能。更多信息,请参见 使用集群诊断。前提条件 已开通 容器服务 Kubernetes 版 并已...
调试 授权信息 下表是API对应的授权信息,可以在RAM权限策略语句的 Action 元素中使用,用来给RAM用户或RAM角色授予调用此API的权限。具体说明如下:操作:是指具体的权限点。访问级别:是指每个操作的访问级别,取值为写入(Write)、读取...
本文介绍如何使用OpenAPI诊断工具进行故障排查。您可以登录 OpenAPI使用诊断,输入完整的RequestID或SDK报错信息,然后单击 诊断,获取您的故障排查结果及对应的解决方案。如果诊断工具仍未能解决您的问题,您可以参考 故障排除、常见问题 ...
调试 授权信息 下表是API对应的授权信息,可以在RAM权限策略语句的 Action 元素中使用,用来给RAM用户或RAM角色授予调用此API的权限。具体说明如下:操作:是指具体的权限点。访问级别:是指每个操作的访问级别,取值为写入(Write)、读取...
流量精确匹配(可选)设置流量的匹配条件,满足匹配条件的流量才会使用故障注入规则。置空此项时表示匹配所有流量。您可以配置多条匹配条件,多个条件是与的关系,按顺序进行匹配。参数配置如下:字段:可选择系统字段和请求头。字段名:...
流量精确匹配(可选)设置流量的匹配条件,满足匹配条件的流量才会使用故障注入规则。置空此项时表示匹配所有流量。您可以配置多条匹配条件,多个条件是“与”的关系,按顺序进行匹配。参数配置如下:字段:可选择系统字段和请求头。字段名...
欢迎您反馈在使用故障演练过程中遇到的问题,目前提供以下常见问题供您参考。单个演练活动成功状态怎么判断?因为一个活动可能会有很多目标机器,当所有机器执行完毕之后,如果有机器没有执行成功,那么这个演练活动就会被系统判断为失败。...
故障演练能力是ADP基于阿里云故障演练产品AHAS提供的一项能力,在线上集成环节即可对线下交付中常见的各类故障场景下产品编排的容错性、可靠性和可恢复性进行演练,保障编排稳定可靠。在进行故障演练之前,需要进行以下步骤:创建产品;...
故障管理 故障管理是单独针对故障的一整套完成的应急相应流程机制,包括:故障应急、故障收敛、故障追踪、故障复盘、故障改进等核心功能。通过建立故障应急机制,可保证服务稳定运行、服务体验保证等。故障管理也可以理解为重大事件的升级...
故障复盘规范 故障复盘作为故障体系中的重要一环,整体复盘流程包括故障处理过程、改进分析、故障定责,基于包含标准化的复盘SOP、对应预防action推荐、问责管理机制,全面地回溯线上故障的发生,产出故障复盘报告和改进措施,避免故障重复...
故障管理体系是围绕故障全生命周期采取的一系列控制流程,包括故障基础数据管理(故障等级定义、应急场景监控覆盖、服务组&值班表管理、故障订阅管理),故障发现(7*24监控值班、智能基线告警),故障应急协同(故障通告及更新、故障应急...
高速通道故障演练功能是一种模拟故障场景的工具。例如,模拟在高速通道冗余链路中的一条链路发生故障时,网络流量会自动切换至其他冗余链路的场景。借助该工具,您可以测试和验证您与阿里云组建的混合云组网的可靠性。重要 故障演练会通过...
故障演练就是这个背景下诞生的,沉淀通用的故障场景,以可控成本在线上故障重放,以持续性的演练和回归方式的运营来暴露问题,不断验证和推动系统、工具、流程、人员能力的提升,从而提前发现并修复可避免的重大问题,或通过验证故障发现...
故障隔离是在服务实例出现故障时,实现实例级别的精细化摘流隔离,使故障影响范围更小,提高服务的可用性。添加故障隔离规则 登录 SOFAStack 控制台。在左侧菜单栏选择 中间件>微服务平台>服务网格>服务治理,然后单击 故障隔离 页签。单击...
PROBLEM_UPDATE 通告类型 PROBLEM_NOTIFY:故障通告 PROBLEM_UPDATE:故障更新 PROBLEM_UPGRADE:故障升级 PROBLEM_DEGRADE:故障降级 PROBLEM_RECOVER:故障恢复 PROBLEM_REISSUE:故障补发 PROBLEM_CANCEL:故障取消 返回数据 名称 类型 ...
请求头 该接口使用公共请求头,无特殊请求头。请参见公共请求参数文档。请求语法 POST/problem/cancel HTTP/1.1 请求参数 名称 类型 位置 是否必选 示例值 描述 Object Body 否 A short description of struct problemId Long Body 否 312 ...
故障演练是整体容灾流程中极其重要的一环。本文介绍ECS容灾中故障演练的操作流程。故障演练的意义 故障演练将被容灾保护的服务器在云上拉起并验证应用正确性,是容灾流程整体中及其重要的一环,它的核心意义在于:方便地验证被容灾保护的...
故障演练是整体容灾流程中极其重要的一环。本文介绍ECS容灾中故障演练的操作流程。故障演练的意义 故障演练将被容灾保护的服务器在云上拉起并验证应用正确性,是容灾流程整体中及其重要的一环,它的核心意义在于:方便地验证被容灾保护的...
7*24监控值班 对于有条件的企业,可以设立全球运行指挥中心(Global Operations Center,简称GOC),实现7*24监控值班,时刻关注核心业务线上异常与故障。对于完成监控覆盖的核心业务场景,在异常上报时,通过工具自动检测或值班人员人工...
本文介绍您在使用 ACK Serverless集群 时可能遇到的故障以及解决方案。如果您在使用 ACK Serverless集群 时出现故障,可根据以下故障分类匹配故障场景和解决方案,帮助您快速排查问题,提升运维效率。分类 相关文档 集群资源和集群组件异常...
PROBLEM_IN_REVIEW 完结 PROBLEM_REOPENED 取消 PROBLEM_CANCEL 更新故障通告 PROBLEM_UPDATE_NOTIFY 添加故障小计 PROBLEM_ADD_SUBTOTAL 更新故障 PROBLEM_UPDATE problemId Long 12312 故障Id problemName String 这是一个故障 故障名称 ...
请求头 该接口使用公共请求头,无特殊请求头。请参见公共请求参数文档。请求语法 POST/problem/upgrade HTTP/1.1 请求参数 名称 类型 位置 是否必选 示例值 描述 Object Body 否 body problemName String Body 否 故障A 故障名称 ...
请求头 该接口使用公共请求头,无特殊请求头。请参见公共请求参数文档。请求语法 POST/problem/finish HTTP/1.1 请求参数 名称 类型 位置 是否必选 示例值 描述 Object Body 否 A short description of struct problemId Long Body 否 3123...
请求头 该接口使用公共请求头,无特殊请求头。请参见公共请求参数文档。请求语法 POST/problem/replay HTTP/1.1 请求参数 名称 类型 位置 是否必选 示例值 描述 Object Body 否 A short description of struct problemId Long Body 否 123 ...
本文介绍阿里云容器服务ACK集群在使用过程中常见问题的故障分析和排查流程。ACK集群异常 添加Kubernetes集群节点的常见问题 容器镜像仓库构建服务失败问题排查 容器镜像服务源码绑定失败问题排查 Kubernetes集群如何指定安全组 Kubernetes...
本文介绍微服务引擎MSE在使用过程中常见问题的故障分析和排查流程。微服务注册配置中心问题排查 在浏览器中输入 XXX:8848/nacos,访问MSE的Nacos注册中心时返回404错误。具体操作,请参见 通过“XXX:8848/nacos”访问MSE的Nacos注册中心时...
请求头 该接口使用公共请求头,无特殊请求头。请参见公共请求参数文档。请求语法 POST/problem/delete HTTP/1.1 请求参数 名称 类型 位置 是否必选 示例值 描述 Object Body 否 A short description of struct problemId Long Body 否 1231...
抓取性能数据 功能,如下图所示:一般来说,如果涉及到内存泄漏的,可以抓取 堆快照,如果是 CPU 异常飙高的,可以抓取 CPU Profile 数据,下面我们以一个 CPU 异常飙高和内存泄漏的例子来看下如何使用 Node.js 性能平台提供的故障诊断功能...
功能概述 ADP底座提供的故障诊断引擎包含以下能力:对告警消息进行诊断并提供修复建议;对于组件整体提供诊断数据并分析根因;关联运维操作提供修复方案。接入流程 ADP-Local的故障诊断引擎,允许客户根据业务场景配置诊断规则,然后根据...
本文介绍您的本地IDC服务器和云上VPC的ECS无法连通时的故障排查方法。背景信息 故障排查步骤如下:排查路由问题。排查第3/4层(网络/传输)问题。排查第2层(数据链路)问题。排查第1层(物理)问题。排查路由问题 本地接入设备能ping通云...
CC API在调用时可能会遇到一些错误,遇到错误时以错误码为依据进行故障排除,本文为您介绍 常见错误码的解决方案。云产品运行时错误码 云产品API运行时返回的错误码。以下两个错误码为云产品运行时错误,如想获取云产品详细错误信息,需...
故障发生条件 当事件重要程度上升、整体影响面恶化、持续长时间未解决,综合评估已达到故障时(P1-P4),处理人可手动将事件升级为故障。当报警来源的指标持续恶化,触发故障产生规则,系统自动产生故障。故障过程 故障过程用于记录管理...
故障通告及更新 基于7x24监控值班工作特性,对于业务异常达到故障等级时,以用户定制的(语音、短信、IM)的方式在约定时间内将故障影响信息以及处理进展通知给对应的接收人/组,并持续更新直至故障结束。故障应急协同群 故障发生后,可以...
故障等级 每个故障以P1-P4级别来区分重要程度,以获得不同的处理方式和关注度。P1最高优,P4低优。定义故障等级的原则为:不同服务/业务可依据自身的特点为每一级别设定定义,定义可由企业技术支持角色召集开发、运维、测试、PD、客满、...
立即切换 该故障恢复会尝试停止保护组中被保护的实例,不会等待所有被保护的实例停止,也不会进行最后一轮数据同步,立即启动切换,会导致数据有部分丢失,主要用在故障容灾的场景。数据同步后切换 正向保护-故障切换 请参考以下步骤进行...
立即切换 该故障恢复会尝试停止保护组中被保护的实例,不会等待所有被保护的实例停止,也不会进行最后一轮数据同步,立即启动切换,会导致数据有部分丢失,主要用在故障容灾的场景。数据同步后切换 正向保护-故障切换 请参考以下步骤进行...
故障初因定位 集成企业内部可利用的所有稳定性相关数据(变更事件,数据库、MQ等中间件异常事件),以及集成各业务自建的定位工具能力,并在故障及风险预警的应急过程中进行可疑原因定位,帮助促进故障及风险预警初因定位的时长缩短。...
NOTIFY:故障通告 PROBLEM_UPDATE:故障更新 PROBLEM_UPGRADE:故障升级 PROBLEM_DEGRADE:故障降级 PROBLEM_RECOVER:故障恢复 PROBLEM_REISSUE:故障补发 PROBLEM_CANCEL:故障取消 clientToken String Body 否 FD200FAE-E98F-496E-BFE6-...
当智能接入网关设备发生网络故障后,您可以先观察现象、收集信息,然后对现象和信息进行分析诊断,尝试修复问题。本文为您介绍智能接入网关设备故障处理流程。SAG-100WM故障处理流程说明 通过SAG-100WM访问阿里云,发现故障,请参见以下...