设计原则

但还是避免不了生产系统故障的发生,所以需要面对故障建立一个高效的故障应急流程机制和稳定的技术平台,实现故障风险实时发现、应急团队有效协同、处理过程准确记录故障快速止损和恢复以及后续故障复盘,旨在提高故障应急效率,减小故障...

无法连接Windows实例

故障原因 可能是网卡驱动未开启或网卡配置有问题。解决方法 使用管理终端 登录实例,检查网卡驱动,如果存在异常,则重新安装。步骤三:检查重置实例密码后是否未重启实例 确认是否存在故障现象,如果存在,则参考本步骤解决问题,如果不...

跟踪概览

故障诊断与运维 服务故障分析:在出现服务中断或性能下降时,可以使用跟踪日志来分析事件前后的操作,以帮助确定故障原因。配置变更追踪:记录对云资源配置的所有更改,帮助识别可能导致服务中断的配置错误。基本概念 概念 说明 跟踪 跟踪...

诊断网页加载过慢的问题

慢加载详情 页面顶部的 页面信息 区域展示了本次访问的客户端IP地址、浏览、操作系统等信息,帮助您确认故障原因。慢加载详情 页面的 页面资源加载瀑布图 区域展示了页面静态资源加载的瀑布图,帮助您快速定位资源加载的性能瓶颈。慢加载...

托管节点池节点自动恢复

当发现节点故障时,ACK会根据故障原因触发对应恢复任务,并记录相应的事件。当恢复任务完成后,故障状态解除,节点恢复正常状态。当恢复任务完成后,故障状态依然存在,节点会被置为恢复失败状态。说明 如果集群中存在多个节点池,节点池...

查看ECS实例的操作记录

如果您在使用ECS实例的过程中遇到故障,可以通过查看ECS实例的操作记录识别可能的故障原因。背景信息 操作记录 以ECS实例为入口,对实例及其关联资源的所有操作进行操作审计,并且对操作记录的影响等级进行标注,在众多操作记录中高亮出...

故障管理

包括根因检查点(如故障原因、最近活动、注入方式、恢复方式等)、故障变更检查、监控检查,并需要对每一个故障明确责任人及团队;故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘后的故障都能对业务...

什么是用户体验监控

完整再现用户操作过程,从页面打开速度(测速)、请求服务调用(API)和故障分析(JS错误、网络错误等)稳定性(JS错误、崩溃、ANR 等)方面监测前端应用性能表现情况,并支持日志数据查询,帮助您快速跟踪定位故障原因,提升用户体验。...

单实例快速恢复

为了能够快速恢复系统故障,Hologres提供了单实例快速恢复的机制。本文为您介绍单实例快速恢复的触发条件和行为。实例快速恢复逻辑说明 Hologres在 V2.0版本之前,Hologres计算节点均为容器调度(即下图中的Worker Node),资源管理...

故障应急协同

故障通告及更新 基于7x24监控值班工作特性,对于业务异常达到故障等级时,以用户定制的(语音、短信、IM)的方式在约定时间内将故障影响信息以及处理进展通知给对应的接收人/组,并持续更新直至故障结束。故障应急协同群 故障发生后,可以...

使用前须知

阿里云全球加速服务联合日志服务提供访问日志功能,用于记录所有访问终端节点的流量信息,帮助您检查访问控制规则、排查网络故障等。本文介绍全球加速访问日志功能相关的资产、费用以及使用限制等信息。简介 您可以为全球加速实例的一个...

设计方案

故障恢复 定位故障原因后,按照应急预案快速恢复业务,并在事后进行复盘总结。预案执行:在故障响应的过程中,需要按照事先制定的应急预案进行执行。应急预案包括了应急响应流程、各个岗位的职责、处理流程等。预案执行能够保证故障恢复和...

消费-通过消费组实现高可靠消费

从这个例子可以看到,存取款是一个严格有序的操作,需要同一个柜员(处理)来处理同一个用户的操作,这样才能保持状态一致性。实现保序的方法很简单:排队,创建一个Shard,终端只有一个柜员A来处理。用户请求先进先出,一点问题都没有。...

更新故障复盘改进详情

problemReason":"故障原因A","recentActivity":"2","injectionMode":"1","recoveryMode":"2","discoverSource":1,"userReport":10,"monitorSourceName":"Zabbix","relationChanges":"关联变更","dutyUserId":1231,"replayDutyUserId":1213...

查看运行分析

该指标协助您进行作业诊断,排查作业Task级别的故障原因。个 TM自JVM启动以来已加载的类总数(TM ClassLoader)TM自JVM启动以来已加载的类总数。JM所在的JVM创建后加载类的总数或卸载类的总数过大,会导致占用过大内存空间,从而影响作业...

事件列表

事件信息 说明 Created container 创建容器 Successfully pulled image 拉取镜像成功 Pulling image 正在拉取镜像 Started container 启动容器 事件原因 事件原因是从事件具体信息中抽象出来的,方便您快速获取该事件的概要。具体说明如下...

故障协同处理(基于钉钉)

云钉运维故障协同效果 功能概述 移动应用端(目前仅支持“钉钉”,以下功能说明均基于钉钉场景)支持接收故障消息提示和进行故障操作,且支持移动端操作管理故障,操作记录实时同步到 运维事件中心 控制台。故障协同处理使用条件 成功开通...

上下文查询

通过查看指定日志的上下文信息,您可以在业务故障排查中快速查找相关故障信息,方便定位问题。应用场景 例如,O2O外卖网站在服务器上的程序日志里会记录一次订单成交的轨迹:用户登录>浏览商品>选择物品>加入购物车>下单>订单支付>支付扣款...

什么是应用实时监控服务ARMS?

完整再现用户操作过程,从页面打开速度(测速)、请求服务调用(API)和故障分析(JS错误、网络错误等)稳定性(JS错误、崩溃、ANR 等)方面监测前端应用性能表现情况,并支持日志数据查询,帮助您快速跟踪定位故障原因,提升用户体验。...

监控报警概述

故障预警 云电脑的故障信息、故障原因及故障时间等信息。使用场景 在日常业务运行的过程中,监控大盘帮助您及时了解账号下全部云电脑资源的全局情况,实时监控提供更详细的数据指标和故障预警信息,帮助您了解终端用户使用云电脑的情况,...

使用访问日志

全球加速提供访问日志功能,可以记录所有访问终端节点的流量信息,帮助您检查访问控制规则、排查网络故障等。访问日志介绍 您可以选择为全球加速实例的一个或者多个终端节点组创建访问日志,采集到的访问日志将会投递到终端节点组所在地域...

使用访问日志

全球加速提供访问日志功能,可以记录所有访问终端节点的流量信息,帮助您检查访问控制规则、排查网络故障等。访问日志介绍 您可以选择为全球加速实例的一个或者多个终端节点组创建访问日志,采集到的访问日志将会投递到终端节点组所在地域...

监控指标说明

该指标协助您进行作业诊断,排查作业Task级别的故障原因。次数 TM GC Time 每次TM GC时间。长时间GC会导致占用过大内存空间,从而影响作业性能。该指标协助您进行作业诊断,排查作业级别的故障原因。毫秒(ms)TM ClassLoader/...

故障复盘

复盘文档一般包含以下内容:故障简述:故障概述、影响面、处理人等 故障背景:故障发生时的业务链路 故障时间线:着重强调故障引入、故障发生、故障发现、业务响应、恢复执行、故障恢复几个时间点 故障原因分析:建议先一句话总结,再进行...

时延洞察

在排查Redis数据库实例的故障和性能降低的原因时,您可以通过时延洞察功能,对数据库所有命令以及自定义特殊事件进行时延统计,得到精确到微秒级别的延迟时间,从事件、时间、时延三个维度对实例进行分析,快速定位和修复故障。前提条件 ...

如何管理故障

可对故障根因进行原因检查并结构化录入,检查点包括:故障原因、最近活动、注入方式、恢复方式等;关联故障期间的故障变更,新增故障改进措施等操作。故障状态 处理中:处理中仍未恢复的故障;已恢复:故障对处理中的故障做 恢复 操作后是...

功能特性

当风险事件发生时,风险事件中心会推荐可执行的应急预案,供运维快速选择并自动化执行,从而通过标准化处理流程,实现故障快速恢复。故障演练 故障演练 提供了故障注入能力,通过演练平台主动触发故障,以此观测应用软件的高可用性。故障...

ECS灾备解决方案

同时云备份基于 云盘异步复制功能,还提供ECS跨地域、跨可用区容灾方案,具备多机一致性、多机编排能力,可快速实现应用级别的故障切换、故障恢复等操作,保障用户业务的连续性。更多信息,请参见 ECS容灾(云盘异步复制型)。通过高可用...

设备无法上电

问题现象 设备的系统指示灯(SYS或RUN)和电源指示灯都不亮。可能原因 未打开设备电源开关。...如果是可插拔电源适配,可通过更换其它可以正常供电的电源适配,更换之后如果设备可以正常上电,则可以确认是设备的可插拔电源适配故障

应用故障自动诊断

在EDAS中进入应用总览页面时,会按照您自定义的时间段对该应用的运行情况做一个自动诊断。...数据支持:这一部分包含了得到推测结论的数据支持,不同故障原因的诊断报告中包含的分析数据将不一样。图 1.故障诊断报告示例图-RT诊断

归档存储服务等级协议

故障恢复能力 阿里云为付费用户的云服务提供7×24小时的运行维护,并以在线工单和电话报障等方式提供技术支持,具备完善的故障监控、自动告警、快速定位、快速恢复等一系列故障应急响应机制。2.11.网络接入性能 阿里云归档存储对用户不限制...

访问策略

6.备用地址池是在默认地址池因故障原因不可用时,可以将用户的访问流量切换至备用地址池上。在 备用地址池 的下拉框中,选择已创建的地址池名称,最后单击 下一步。如果您还没有创建地址池,请参考 创建地址池 文档。注意:如未设置备用...

功能介绍

本文为您介绍蓝图编辑在使用过程中常用的功能详情,可以帮助您快速上手蓝图编辑。导出到蓝图编辑 只有当组资产导入到蓝图编辑后,才可以为该资产配置交互。在画布编辑内,右键单击左侧图层栏或中间画布区的资产,选择 导出到蓝图...

故障复盘改进详情

0c4840fd3812 幂等校验token 返回数据 名称 类型 示例值 描述 requestId String 4361a0e1-6747-4834-96ce-0c4840fd3811 Id of the request data Object data problemId String 231231 故障ID problemReason String 故障的原因 故障原因 ...

什么是消息演练

随着应用规模的扩大,系统变得越来越复杂,不可避免地会走向分布式化。各种中间组件会相继被引入系统,其中分布式消息服务更是系统中必不可少的一...需要注意的是演练场景仅是组件表象,其内部故障原因可能是多种多样的,需要进一步进行分析。

功能概述

数据库发生故障后,无法在发生故障时定位到原因,可以通过智能压测功能,在克隆库上复现故障场景,定位故障原因。功能架构 智能压测的功能架构如下图所示:源数据库:将要进行大促、将要业务变更或者已经发生故障,需要进行流量捕获的数据...

主从实例读写分离部署(共享存储)

当出现1分钟容器响应超时(可能是内存溢出、硬件故障、软件Bug等原因导致),Resource Manager会自动拉起新的计算节点,并迁移Shard职责到新的节点上(例如Worker Node3响应超时,Resource Manager拉起Worker Node4取代Worker Node3),...

查看应用分组

创建应用分组后,您可以查看应用分组的组内资源、监控视图、故障列表、可用性监控等数据,并执行相关操作。通过应用分组集中管理资源,便于您及时接收故障资源的报警通知,并及时处理故障。操作步骤 登录 云监控控制台。在左侧导航栏,选择...

概述

在企业数字化转型过程中,基于云计算平台服务,可以让企业快速构建新业务、减少业务故障率、持续观测业务指标、提升业务稳定性,使企业更加专注于业务本身。总体而言,主要包括以下几个关键领域:卓越运营第一个关键领域是确定组织的运营...

如何解决MSE Nacos实例域名无法解析的问题?

请 提工单 联系网络技术支持协助排查DNS服务器或NameServer故障原因。如果使用的是ACK,请 提工单 联系ACK技术支持协助排查CoreDNS故障原因。方案二:使用ping命令 使用 ping${mse.nacos.host} 指令尝试解析。如果提示 unknown host,则...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库审计 数据库自治服务 运维安全中心(堡垒机) 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用