故障复盘

复盘文档一般包含以下内容:故障简述:故障概述、影响面、处理人等 故障背景:故障发生时的业务链路 故障时间线:着重强调故障引入、故障发生、故障发现、业务响应、恢复执行、故障恢复几个时间故障原因分析:建议先一句话总结,再进行...

监控报警概述

故障预警 云电脑的故障信息、故障原因及故障时间等信息。使用场景 在日常业务运行的过程中,监控大盘帮助您及时了解账号下全部云电脑资源的全局情况,实时监控提供更详细的数据指标和故障预警信息,帮助您了解终端用户使用云电脑的情况,...

更新故障复盘改进详情

problemReason":"故障原因A","recentActivity":"2","injectionMode":"1","recoveryMode":"2","discoverSource":1,"userReport":10,"monitorSourceName":"Zabbix","relationChanges":"关联变更","dutyUserId":1231,"replayDutyUserId":1213...

如何解决MSE Nacos实例域名无法解析的问题?

如果使用的是ACK,请 提工单 联系ACK技术支持协助排查CoreDNS故障原因。方案二:使用ping命令 使用 ping${mse.nacos.host} 指令尝试解析。如果提示 unknown host,则无法解析域名。如果提示 PING${mse.nacos.host}(xxx.xx.xx.xx)56(84)...

访问策略

6.备用地址池是在默认地址池因故障原因不可用时,可以将用户的访问流量切换至备用地址池上。在 备用地址池 的下拉框中,选择已创建的地址池名称,最后单击 下一步。如果您还没有创建地址池,请参考 创建地址池 文档。注意:如未设置备用...

什么是用户体验监控

完整再现用户操作过程,从页面打开速度(测速)、请求服务调用(API)和故障分析(JS错误、网络错误等)稳定性(JS错误、崩溃、ANR 等)方面监测前端应用性能表现情况,并支持日志数据查询,帮助您快速跟踪定位故障原因,提升用户体验。...

什么是消息演练

随着应用规模的扩大,系统变得越来越复杂,不可避免地会走向分布式化。各种中间组件会相继被引入系统,其中分布式消息服务更是系统中必不可少的一...需要注意的是演练场景仅是组件表象,其内部故障原因可能是多种多样的,需要进一步进行分析。

云盘三副本技术

重要 如果ECS实例由于病毒感染、人为误删除或黑客入侵等软故障原因造成数据丢失,需要您采用备份或者快照等技术手段来解决。任何技术都不可能解决全部问题,因地制宜地选择合适的数据保护措施,才能为您的业务数据筑起一道坚实的防线。更多...

故障注入

超时时间 故障类型为 超时异常 时,设置异常的超时时间。异常比例 设置注入异常流量的比例。例如设置为 80,则只注入 80%的异常流量。流量精确匹配(可选)设置流量的匹配条件,满足匹配条件的流量才会使用故障注入规则。置空此项时表示...

如何设置开板和尾板

示例代码 例如一个 720P(1280×720)的正片视频,拼接上开板和尾板是 480P(640×480)的MP4视频,并且设置开板视频开始时间为2秒,设置尾板视频过渡时间3秒、背景色为黑色 Black。最后在播放输出视频时,开板视频在正片视频播放到第2秒时...

专线连接类

排查物理专线故障原因,具体操作,请参见 故障排查。本地数据中心到阿里云的线路中断,如何解决?请在本地数据中心的网关设备上测试物理专线的客户端侧IP到阿里云侧IP是否可达,即此物理专线的直连IP是否可以ping通。如果不通,则需您向...

API概览

UpdateProblemEffectionService 更新故障影响服务 GetProblem 查询故障详情 ListProblems 查询故障列表 ListProblemTimeLines 查询故障时间线列表 GenerateProblemPictureLink 获取故障图片链接 GenerateProblemPictureUploadSign 故障图片...

更新故障时间线

更新故障时间线。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求头 该接口使用公共请求头,无特殊请求头。请参见公共请求参数文档。请求语法 POST/...

运维事件中心的审计事件

运维事件中心已与操作审计...CreateProblemTimeline 创建故障时间线节点。CreateProblemTimelines 批量创建时间节点。CreateRichText 创建富文本。CreateRouteRule 创建流转规则。CreateService 创建服务。CreateServiceGroup 创建服务组。...

创建故障时间线节点

创建故障时间线节点。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求头 该接口使用公共请求头,无特殊请求头。请参见公共请求参数文档。请求语法 POST...

查询故障时间线列表

查询故障时间线列表 调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求头 该接口使用公共请求头,无特殊请求头。请参见公共请求参数文档。请求语法 POST/...

【通知】Lettuce客户端升级建议

修复与优化 Lettuce 6.3.0.RELEASE版本已修复客户端在多次请求超时后不再自动重连的问题,更多关于该问题的背景、复现方法与解决方案等信息,请参见 为什么Lettuce会带来更长的故障时间?版本建议 若依赖为Lettuce:请直接升级到6.3.0....

【通知】Lettuce客户端升级建议

修复与优化 Lettuce 6.3.0.RELEASE版本已修复客户端在多次请求超时后不再自动重连的问题,更多关于该问题的背景、复现方法与解决方案等信息,请参见 为什么Lettuce会带来更长的故障时间?版本建议 若依赖为Lettuce:请直接升级到6.3.0....

捷顺

本文介绍数据库自治服务DAS助力...客户感言“阿里云DAS服务帮助捷顺科技对数十个数据库实例进行异常监测、自动限流、自动优化、自动弹性扩缩容,大幅降低了数据库运维成本和故障时间,大幅提高了系统的可用性。——捷顺科技总工&运维负责人。

ARMS告警精细管理最佳实践

如下图所示,告警处理的飞轮中想要更短的故障时间就需要更短的故障发现时间和更快的响应速度,并且在每一次的告警处理过程中不断地对组织的处理机制进行复盘改进,从而提高告警的处理效率,缩短组织的MTTC。大规模系统告警管理的痛点 复杂...

用云成本需求分析

通常情况下,如果高可用性的成本超过了应用程序故障时间的成本,则说明你可能过度设计了高可用性策略。相反,如果高可用性的成本低于合理故障时间的成本,那么你可能需要做出更多投入。假设故障时间成本相对较低,那么你可以通过恢复备份的...

健康检查最佳实践

因此,可以根据计算公式(节点最大可容忍故障时间/3),来确定Liveness的检查周期。例如,单个故障实例最大可容忍30秒内不重启,则检查周期设置为10秒。因此,Readiness检查周期可设置为1秒,Liveness检查周期根据实际情况设置,如果没有...

性能监控最佳实践

提高故障排查效率:当系统或应用出现故障时,传统的性能监控方案通常需要IT运维人员手动分析监控数据来确定故障原因,这样会浪费大量的时间和精力。而一体化性能监控能够对多种关联的监控数据进行自动分析和处理,帮助IT运维人员快速定位...

附录:SOFAStack 产品目录

SOFAStack CAFE(Cloud Application Fabric Engine)云应用引擎,提供应用管理、发布部署、运维编排、监控分析、容灾应急等全生命周期管理的 PaaS 平台产品,满足金融场景中经典架构和云原生架构的运维需求,帮助传统架构平滑过渡,保障...

监控指标说明

该指标协助您进行作业诊断,排查作业Task级别的故障原因。次数 TM GC Time 每次TM GC时间。长时间GC会导致占用过大内存空间,从而影响作业性能。该指标协助您进行作业诊断,排查作业级别的故障原因。毫秒(ms)TM ClassLoader/...

配置任务常见错误码及排查方法

原因:通讯链路故障,JDBC驱动程序数据包成功发送到源数据库服务器,但未收到来自源数据库的数据包。解决方法:排查数据库的连接数是否过多。参考 communications link failure 处理。联系技术支持解决。DTS.Msg.SQLExecuteError....

基本概念

针对金融级场景下大规模分布式系统的特点,提供了丰富的发布策略以满足不同的场景,帮助传统架构平滑过渡,适应金融技术风险保障需求,实现大规模金融级运维场景下的容器服务落地。ALB 负载均衡(Ant Financial Load Balancer,ALB)是将...

查看运行分析

该指标协助您进行作业诊断,排查作业Task级别的故障原因。个 TM自JVM启动以来已加载的类总数(TM ClassLoader)TM自JVM启动以来已加载的类总数。JM所在的JVM创建后加载类的总数或卸载类的总数过大,会导致占用过大内存空间,从而影响作业...

Linux系统的ECS实例系统无响应,系统日志中出现“BUG:...

BUG:soft lockup-CPU#0 stuck for 61s 问题原因 该问题通常是由于ECS实例中,系统内核长时间占用CPU资源导致出现软死锁(soft lockup)故障,内核长时间占用CPU资源可能有以下原因:系统负载过高 内核死循环或死锁 内核调度问题 内核出现...

光模块故障

本文介绍光模块发生故障原因和处理方法。问题现象 光模块连接后,接口指示灯没有变为绿色。可能原因 光模块不兼容或损坏。智能接入网关设备支持的光模块型号请参见 光模块型号。说明 目前仅SAG-1000设备支持光模块插入。解决方案 通用多...

查看告警历史

您可以在告警历史页签查看历史触发的告警记录。操作步骤 登录 混合云容灾管理控制台。在左侧导航栏,单击 云盘异步复制容灾。在左侧导航栏,选择 告警服务>告警历史。您可以根据恢复时间故障实例ID等查询对应的告警。

设备和交换机之间的链路故障

本文介绍SAG-1000设备发生设备和交换机之间链路故障原因和处理方法。问题现象 设备和交换机接口之间ping不通。设备的Web端口配置页,端口前的状态灯为红色。动态路由OSPF接入时,Web端口配置页,端口前的状态灯为红色。设备的Web状态查询...

产品优势

故障演练主动检验应用高可用能力。支持蚂蚁产品双中心容灾切换,满足监管合规需求。技术风险防控内容库快速更新 阿里云、蚂蚁技术风险团队基于域内、域外技术风险防控经验,共建日常巡检、故障诊断、应急预案内容库,用户可享受最新的技术...

服务等级目标SLO概述

时间内的高故障率和低故障率且持续时间较长的故障才能触发告警,避免不必要的告警分散运维人员的精力从而错过真正关键的问题。多窗口能够在计算一段时间故障率时同时设置一个短时间窗口,当短时间窗口内的故障率低于阈值时结束告警。...

服务等级目标SLO概述

时间内的高故障率和低故障率且持续时间较长的故障才能触发告警,避免不必要的告警分散运维人员的精力从而错过真正关键的问题。多窗口能够在计算一段时间故障率时同时设置一个短时间窗口,当短时间窗口内的故障率低于阈值时结束告警。...

应用故障自动诊断

在EDAS中进入应用总览页面时,会按照您自定义的时间段对该应用的运行情况做一个自动诊断。...数据支持:这一部分包含了得到推测结论的数据支持,不同故障原因的诊断报告中包含的分析数据将不一样。图 1.故障诊断报告示例图-RT诊断

诊断网页加载过慢的问题

慢加载详情 页面顶部的 页面信息 区域展示了本次访问的客户端IP地址、浏览器、操作系统等信息,帮助您确认故障原因。慢加载详情 页面的 页面资源加载瀑布图 区域展示了页面静态资源加载的瀑布图,帮助您快速定位资源加载的性能瓶颈。慢加载...

动态与公告

功能/版本 历史版本GTM标准版 新版GTM标准版 新版GTM旗舰版 全网故障恢复时间=故障切换时间+全网生效时间 在健康检查间隔设置为1分钟,TTL60秒,连续失败次数3次的配置下,GTM能在4分钟左右准确发现故障并切换,故障切换后理论上60秒左右...

产品价格

版本配置 功能项 标准版 旗舰版 全网故障恢复时间=故障切换时间+全网生效时间 在健康检查间隔设置为1分钟,TTL60秒,连续失败次数3次的配置下,GTM能在4分钟左右准确发现故障并切换,故障切换后理论上60秒左右可以全网生效,但实际情况取决...

产品优势

故障定位时,服务商和用户之间沟通时间长,且故障排查前,服务商需要先熟悉用户的云平台和应用平台,再排查故障,排查过程耗时长,导致业务长时间处于受损状态。服务流程可审计、可追溯,打造可信任的企业服务。操作过程难以记录和追溯,...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 云数据库 MongoDB 版 时间序列数据库 TSDB 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用