监控指标说明

该指标协助您进行作业诊断,排查作业Task级别的故障原因。次数 TM GC Time 每次TM GC时间。长时间GC会导致占用过大内存空间,从而影响作业性能。该指标协助您进行作业诊断,排查作业级别的故障原因。毫秒(ms)TM ClassLoader/...

更新故障复盘改进详情

problemReason":"故障原因A","recentActivity":"2","injectionMode":"1","recoveryMode":"2","discoverSource":1,"userReport":10,"monitorSourceName":"Zabbix","relationChanges":"关联变更","dutyUserId":1231,"replayDutyUserId":1213...

如何解决MSE Nacos实例域名无法解析的问题?

如果使用的是ACK,请 提工单 联系ACK技术支持协助排查CoreDNS故障原因。方案二:使用ping命令 使用 ping${mse.nacos.host} 指令尝试解析。如果提示 unknown host,则无法解析域名。如果提示 PING${mse.nacos.host}(xxx.xx.xx.xx)56(84)...

诊断网页加载过慢的问题

慢加载详情 页面顶部的 页面信息 区域展示了本次访问的客户端IP地址、浏览器、操作系统等信息,帮助您确认故障原因。慢加载详情 页面的 页面资源加载瀑布图 区域展示了页面静态资源加载的瀑布图,帮助您快速定位资源加载的性能瓶颈。慢加载...

操作日志

MSHA控制台提供查看操作日志功能,出现切流故障时,您可以通过查看操作日志来排查故障。操作步骤 登录 AHAS控制台。在控制台左侧导航栏中单击 多活容灾。在控制台左侧导航栏选择 监控中心>操作日志。在 操作日志 页面,可以通过设置过滤...

无法连接Windows实例

故障原因 可能是网卡驱动未开启或网卡配置有问题。解决方法 使用管理终端 登录实例,检查网卡驱动,如果存在异常,则重新安装。步骤三:检查重置实例密码后是否未重启实例 确认是否存在故障现象,如果存在,则参考本步骤解决问题,如果不...

应用故障自动诊断

在EDAS中进入应用总览页面时,会按照您自定义的时间段对该应用的运行情况做一个自动诊断。...数据支持:这一部分包含了得到推测结论的数据支持,不同故障原因的诊断报告中包含的分析数据将不一样。图 1.故障诊断报告示例图-RT诊断

一键诊断

相关文档 通过一键诊断了解数据库性能情况的全貌后,您可以使用如下功能对数据库进行全面细致的诊断,准确定位故障原因,并解决故障。会话管理 性能趋势 锁分析 慢SQL 空间分析 常见问题 Q:一键诊断中,如何计算会话的线程使用率、连接数...

什么是故障

包括根因检查点(如故障原因、最近活动、注入方式、恢复方式等)、故障变更检查、监控检查,并需要对每一个故障明确责任人及团队;故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘后的故障都能对业务...

访问策略

6.备用地址池是在默认地址池因故障原因不可用时,可以将用户的访问流量切换至备用地址池上。在 备用地址池 的下拉框中,选择已创建的地址池名称,最后单击 下一步。如果您还没有创建地址池,请参考 创建地址池 文档。注意:如未设置备用...

故障复盘改进详情

0c4840fd3812 幂等校验token 返回数据 名称 类型 示例值 描述 requestId String 4361a0e1-6747-4834-96ce-0c4840fd3811 Id of the request data Object data problemId String 231231 故障ID problemReason String 故障的原因 故障原因 ...

故障管理

包括根因检查点(如故障原因、最近活动、注入方式、恢复方式等)、故障变更检查、监控检查,并需要对每一个故障明确责任人及团队;故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘后的故障都能对业务...

设计方案

故障恢复 定位故障原因后,按照应急预案快速恢复业务,并在事后进行复盘总结。预案执行:在故障响应的过程中,需要按照事先制定的应急预案进行执行。应急预案包括了应急响应流程、各个岗位的职责、处理流程等。预案执行能够保证故障恢复和...

监控报警概述

故障预警 云电脑的故障信息、故障原因及故障时间等信息。使用场景 在日常业务运行的过程中,监控大盘帮助您及时了解账号下全部云电脑资源的全局情况,实时监控提供更详细的数据指标和故障预警信息,帮助您了解终端用户使用云电脑的情况,...

托管节点池节点自动恢复

当发现节点故障时,ACK会根据故障原因触发对应恢复任务,并记录相应的事件。当恢复任务完成后,故障状态解除,节点恢复正常状态。当恢复任务完成后,故障状态依然存在,节点会被置为恢复失败状态。说明 如果集群中存在多个节点池,节点池...

故障止损恢复

故障初因定位 集成企业内部可利用的所有稳定性相关数据(变更事件,...通用垂直专项快恢能力:通过集成包括DB侧慢SQL限、变更极速回滚、多活容灾切快恢等通用的快恢能力,结合监控、日志等数据自动定位的故障原因进行对应的快恢方式推荐。

光模块故障

本文介绍光模块发生故障原因和处理方法。问题现象 光模块连接后,接口指示灯没有变为绿色。可能原因 光模块不兼容或损坏。智能接入网关设备支持的光模块型号请参见 光模块型号。说明 目前仅SAG-1000设备支持光模块插入。解决方案 通用多...

设备和交换机之间的链路故障

本文介绍SAG-1000设备发生设备和交换机之间链路故障原因和处理方法。问题现象 设备和交换机接口之间ping不通。设备的Web端口配置页,端口前的状态灯为红色。动态路由OSPF接入时,Web端口配置页,端口前的状态灯为红色。设备的Web状态查询...

Redis客户端重连指南

引发暂时性故障原因 原因 说明 故障触发了高可用机制 云数据库Redis支持节点健康状态监测,当监测到实例中的主节点不可用时,会自动触发主备切换,例如将主节点和从节点进行互换,保障实例的高可用性。此时,客户端可能会遇到下列暂时性...

管理工作定义

(工作图)以树结构展示任务节点的类型及任务状态。(导出)导出工作(.json文件)到本地。(版本信息)查看当前工作定义的版本信息。运行工作 每运行一次工作,在 工作实例 页面都会产生一个工作实例。在 工作定义 ...

过滤VPC日志公网流量

在专有网络VPC控制台上开通日志功能后,日志将被采集到日志服务中,您可以通过日志服务对流日志进行查询、分析和排查网络故障。本文介绍通过日志服务数据加工对流日志进行公网流量过滤的操作方法。前提条件 已开通VPC日志功能。具体...

采集客户端数据的高可用方案

但是在一些相对极端的场景下,单集群可能由于一些预期外原因存在故障停服风险。针对该单集群故障风险,日志服务提供两种异地多活的客户端数据采集方案。方案比较 对比项 方案1:双写 方案2:数据加工复制+写入切换 部署复杂度 低 需要额外...

功能特性

此外,在数据库实例发生故障且无法定位原因时,可以利用克隆库复现故障场景,以便更好地定位故障原因。智能压测 搜索分析 查询并导出SQL语句对应的日志信息。搜索 SQL洞察 SQL洞察聚类分析,用作深度异常的排查。SQL洞察 安全审计 内置了...

修改工作状态

本文介绍逻辑中修改工作状态操作的主要使用方法。简介 修改工作状态操作可用于在当前逻辑执行环境中修改已执行的工作状态。配置属性 修改工作状态操作属性由以下部分组成,逻辑流通用属性部分请参考 逻辑操作通用属性:基础...

直播延时高的常见原因及解决方法

RTS直播延时产生的常见原因 产生位置 常见原因侧 源流关键帧间隔过大、含有B帧。视频采集设备CPU过载。Native SDK配置非最佳配置。网络传输侧 推侧网络环境不佳。播放侧网络环境不佳。阿里云节点、内部链路网络环境不佳。转码侧 ...

直播延迟

造成直播延迟的原因端 GOP(Group Of Picture)帧是视频的关键帧,是视频图像编码器和解码器存取的基本单位。直播会将每一帧数据打上时序标签,并进行网络传输。视频的关键帧数量过大会造成直播延迟。多数第三方推软件为解决卡顿...

如何降低延时?

造成直播延迟的原因端 GOP(Group Of Picture)帧是视频的关键帧,是视频图像编码器和解码器存取的基本单位。直播会将每一帧数据打上时序标签,并进行网络传输。视频的关键帧数量过大会造成直播延迟。多数第三方推软件为解决卡顿...

EMR Kafka磁盘故障运维

当出现磁盘故障时,需要根据故障原因、故障影响程度、业务需求(是否接受数据丢失、是否允许服务较长时间不可用)、集群状态等综合考虑恢复采取的策略。如果业务优先保证服务可用,但允许丢失部分数据,则应考虑在可能会丢失数据的情况下,...

消息发送重试和流控机制

消息发送重试机制 重试基本概念 云消息队列 RocketMQ 版 客户端连接服务端发起消息发送请求时,可能会因为网络故障、服务异常等原因导致调用失败。为保证消息的可靠性,云消息队列 RocketMQ 版 在客户端SDK中内置请求重试逻辑,尝试通过重...

什么是消息演练

随着应用规模的扩大,系统变得越来越复杂,不可避免地会走向分布式化。各种中间组件会相继被引入系统,其中分布式消息服务更是系统中必不可少的一...需要注意的是演练场景仅是组件表象,其内部故障原因可能是多种多样的,需要进一步进行分析。

故障复盘

复盘文档一般包含以下内容:故障简述:故障概述、影响面、处理人等 故障背景:故障发生时的业务链路 故障时间线:着重强调故障引入、故障发生、故障发现、业务响应、恢复执行、故障恢复几个时间点 故障原因分析:建议先一句话总结,再进行...

服务管控和治理

服务治理 服务治理包含服务限、服务路由、服务鉴权、服务熔断、故障注入、故障隔离、透明劫持、服务拓扑和实时监控相关服务治理。服务限 在高并发场景下,为保证在现有资源条件下服务正常运行,您可以使用服务限让请求和并发在应用可...

Cromwell Server 运维

在 Cromwell Server 配置完成后,如何快捷的进行提交、停止工作、流程失败后如何快速定位问题以及工作完成后如何快速查看运行日志、查看工作的 Metrics 信息、工作产生的费用等手段,这些问题就变成了 server 运维工作的基本诉求。...

常见问题

运维管理 容器应用服务常见问题 经典应用服务常见问题 中间件 SOFABoot 常见问题 微服务常见问题 微服务故障排查之 DRM 微服务故障排查之限 微服务故障排查之 RPC 服务网格-故障排查 消息队列常见问题 任务调度常见问题 分布式链路跟踪...

Control Center设置告警

暂停和恢复所有警报操作 出于维护或故障排除原因,必要时暂停所有启用的警报。在暂停和恢复期间会遵守启用或禁用的单个操作的现有设置。暂停时会忽略满足和触发的任何触发条件,并抑制与触发器关联的所有已启用操作。准备好后,再次恢复...

流水单据型业务场景多活实践

说明 这里区别于传统的解决思路,不是去排查、处理和修复故障,而是立即使用切进行恢复,将业务恢复和故障恢复解耦。容灾切换预期:将UserID为7000的用户切到杭州单元,切后该用户将路由到杭州单元,不受北京单元故障的影响。登录 ...

源为PolarDB-X的功能规范和约束说明

在出现故障(如网络中断、机房批量设备故障或互联网数据中心IDC故障),且DTS任务存在延迟的情况下,此时如更新至目标库的最后一条数据的时间与故障发生时的时间之差小于RPO(如5分钟),则可以业务优先恢复为准则切。切后可能有5分钟...

源为PolarDB-X的功能规范和约束说明

在出现故障(如网络中断、机房批量设备故障或互联网数据中心IDC故障),且DTS任务存在延迟的情况下,此时如更新至目标库的最后一条数据的时间与故障发生时的时间之差小于RPO(如5分钟),则可以业务优先恢复为准则切。切后可能有5分钟...

开启健康检查

开启健康检查是指对地址池中的地址配置健康检查策略,开启后可监测应用服务的可用性状态,并最终帮助企业实现自动故障隔离和自动故障切换的功效。健康检查的类型包括:Ping监控、TCP监控、HTTP(S)监控。前提条件 已完成 创建实例、创建...

配置消息监控告警实现风险预警

提前配置实例规格水位告警可以提前发现规格超限风险并及时升配,避免因限导致的业务故障。业务逻辑错误监控预警 您在消息收发时可能会收到异常报错,配置调用错误告警可以提前在业务反馈前发现异常,帮助您提前判断异常来源并及时修复。...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据传输服务 数据库自治服务 云工作流 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用