更新故障复盘改进详情

problemReason":"故障原因A","recentActivity":"2","injectionMode":"1","recoveryMode":"2","discoverSource":1,"userReport":10,"monitorSourceName":"Zabbix","relationChanges":"关联变更","dutyUserId":1231,"replayDutyUserId":1213...

如何解决MSE Nacos实例域名无法解析的问题?

如果使用的是ACK,请 提工单 联系ACK技术支持协助排查CoreDNS故障原因。方案二:使用ping命令 使用 ping${mse.nacos.host} 指令尝试解析。如果提示 unknown host,则无法解析域名。如果提示 PING${mse.nacos.host}(xxx.xx.xx.xx)56(84)...

诊断网页加载过慢的问题

慢加载详情 页面顶部的 页面信息 区域展示了本次访问的客户端IP地址、浏览器、操作系统等信息,帮助您确认故障原因。慢加载详情 页面的 页面资源加载瀑布图 区域展示了页面静态资源加载的瀑布图,帮助您快速定位资源加载的性能瓶颈。慢加载...

一键诊断

相关文档 通过一键诊断了解数据库性能情况的全貌后,您可以使用如下功能对数据库进行全面细致的诊断,准确定位故障原因,并解决故障。会话管理 性能趋势 锁分析 慢SQL 空间分析 常见问题 Q:一键诊断中,如何计算会话的线程使用率、连接数...

什么是故障

包括根因检查点(如故障原因、最近活动、注入方式、恢复方式等)、故障变更检查、监控检查,并需要对每一个故障明确责任人及团队;故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘后的故障都能对业务...

如何管理故障

可对故障根因进行原因检查并结构化录入,检查点包括:故障原因、最近活动、注入方式、恢复方式等;关联故障期间的故障变更,新增故障改进措施等操作。故障状态 处理中:处理中仍未恢复的故障;已恢复:故障对处理中的故障做 恢复 操作后是...

访问策略

6.备用地址池是在默认地址池因故障原因不可用时,可以将用户的访问流量切换至备用地址池上。在 备用地址池 的下拉框中,选择已创建的地址池名称,最后单击 下一步。如果您还没有创建地址池,请参考 创建地址池 文档。注意:如未设置备用...

故障复盘改进详情

0c4840fd3812 幂等校验token 返回数据 名称 类型 示例值 描述 requestId String 4361a0e1-6747-4834-96ce-0c4840fd3811 Id of the request data Object data problemId String 231231 故障ID problemReason String 故障的原因 故障原因 ...

什么是消息演练

随着应用规模的扩大,系统变得越来越复杂,不可避免地会走向分布式化。各种中间组件会相继被引入系统,其中分布式消息服务更是系统中必不可少的一...需要注意的是演练场景仅是组件表象,其内部故障原因可能是多种多样的,需要进一步进行分析。

故障管理

包括根因检查点(如故障原因、最近活动、注入方式、恢复方式等)、故障变更检查、监控检查,并需要对每一个故障明确责任人及团队;故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘后的故障都能对业务...

监控报警概述

故障预警 云电脑的故障信息、故障原因及故障时间等信息。使用场景 在日常业务运行的过程中,监控大盘帮助您及时了解账号下全部云电脑资源的全局情况,实时监控提供更详细的数据指标和故障预警信息,帮助您了解终端用户使用云电脑的情况,...

托管节点池节点自动恢复

当发现节点故障时,ACK会根据故障原因触发对应恢复任务,并记录相应的事件。当恢复任务完成后,故障状态解除,节点恢复正常状态。当恢复任务完成后,故障状态依然存在,节点会被置为恢复失败状态。说明 如果集群中存在多个节点池,节点池...

EMR Kafka磁盘故障运维

当出现磁盘故障时,需要根据故障原因、故障影响程度、业务需求(是否接受数据丢失、是否允许服务较长时间不可用)、集群状态等综合考虑恢复采取的策略。如果业务优先保证服务可用,但允许丢失部分数据,则应考虑在可能会丢失数据的情况下,...

功能特性

此外,在数据库实例发生故障且无法定位原因时,可以利用克隆库复现故障场景,以便更好地定位故障原因。智能测 搜索分析 查询并导出SQL语句对应的日志信息。搜索 SQL洞察 SQL洞察聚类分析,用作深度异常的排查。SQL洞察 安全审计 内置了...

功能概述

数据库发生故障后,无法在发生故障时定位到原因,可以通过智能测功能,在克隆库上复现故障场景,定位故障原因。功能架构 智能测的功能架构如下图所示:源数据库:将要进行大促、将要业务变更或者已经发生故障,需要进行流量捕获的数据...

智能压测

数据库发生故障后,无法在发生故障时定位到原因,可以通过智能测功能,在克隆库上复现故障场景,定位故障原因。注意事项 为减少网络延迟对测的影响,测客户端和目标实例需要在同一个地域。说明 建议将测客户端和目标实例放入同一个...

流量回放和压测

数据库发生故障后,无法在发生故障时定位到原因,可以通过智能测功能,在克隆库上复现故障场景,定位故障原因。注意事项 为减少网络延迟对测的影响,测客户端和目标实例需要在同一个地域。说明 建议将测客户端和目标实例放入同一个...

诊断项与诊断结果说明

如果文件系统未成功调整,表示云盘容量因资源不足或其他原因导致容失败,新容的磁盘无法使用。请重新发起容操作。不同操作系统的容方法与限制,请参见 云盘容指引。实例配置管理诊断 诊断项(控制台)描述 诊断范围及建议操作 ...

附录:SOFAStack 产品目录

同时满足异地容灾、低成本快速容的需求,能够解决传统集中式架构转型的困难,并通过打造大规模高可用分布式系统架构,来支撑金融业务创新。SOFAStack 由四大领域模块组成:分布式中间件、运维管理(应用 PaaS)、高阶运维保障、研发效能...

节点弹性大盘

容失败原因:通过上文 弹性活动列表 搜索FailedToScaleUpGroup事件,查看 reason 可定位到cluster-autoscaler触发的容活动失败的具体原因。节点缩容时间点:通过上文 弹性活动列表 搜索Node Name和ScaleDown事件,查看具体触发缩容的...

DAS Auto Scaling弹性能力

如果用户的磁盘数据快速增长,算法预测到其短时间内将会可用空间不足时,也会给出磁盘容建议及相应的原因说明。计算规格变配的方案如图3所示,其具体流程为:首先,异常检测模块将针对业务突发流量从多个维度(qps、tps、active ...

应用场景

在线业务弹性容 根据业务流量自动对业务进行容(基于Kubernetes HPA),无需人工干预,避免流量激增容不及时导致系统故障,以及平时大量闲置资源造成的浪费。在使用阿里云容器服务ACK场景下,支持将一个应用按比例部署到ECS或ECI上,...

功能架构

基于系统丰富数据和强大功能,可以支撑容灾巡检、故障重放、弹性缩、微服务治理和全链路测等场景。应用监控 系统能同时监控容器应用和经典应用,并通过 LDC、IDC 和单机实例等多视角、多维度逐层下钻分析,实时展现服务实例、依赖的...

Tair选型指南

3 选择容灾方案 云原生内存数据库Tair 实例若因不可预料的原因(例如设备故障、机房断电等)发生故障,容灾机制保障数据的一致性和业务可用性。云原生内存数据库Tair 提供多种灾备方案供您选择,可满足不同的业务场景。4 预估内存规格 提前...

云数据库Redis版产品选型必读

选择容灾方案 当云数据库Redis实例因不可预料的原因(例如设备故障、机房断电等)发生故障,容灾机制可用于保障数据的一致性和业务可用性。云数据库Redis提供多种灾备方案供您选择,可满足不同的业务场景。选择大版本 推荐使用更新的大版本...

集群高可用架构推荐配置

如果由于库存不足等原因导致可用区之间资源不平衡,您可以再进行均衡操作来平衡资源的可用区分布。关于如何配置自动伸缩策略,请参见 节点自动伸缩。启用拓扑分布约束 基于节点的弹性伸缩、部署集、多AZ分布等手段,结合K8s调度中的拓扑...

集群管理常见问题

问题现象:容集群时失败,失败原因显示“ECS库存不足_OutofStock”或“ECS库存不足_OperationDenied.NoStock”。问题分析:该错误表示您需要容的节点组的ECS机型库存不足,无法满足您的容需求。解决方法:您可以等待需要容的ECS...

K8s应用运维管理最佳实践

建议用 性能测试PTS 对应用做全链路测,根据测水位提前预估好所需Pod和Node数量,在高并发前完成容;还需要评估存储和网络带宽,提升存储空间和负载均衡的规格或网络带宽;如果还需要用到应用路由,请注意查看Ingress Controller的...

块存储FAQ

当监控到硬件故障或争用发生时,阿里云会进行资源调度或维修(根据基础设施损坏程度)。SSD云盘具备怎样的I/O性能?请参见 块存储性能。SSD云盘适用于哪些应用场景?SSD云盘具有高性能、高可靠性等特点,适合数据可靠性要求高的I/O密集型...

监控、诊断和故障排除

相对于传统应用程序,开发云端应用虽然降低了用户在基础设施搭建、运维等方面的成本,但却增大了监控、诊断和故障排查的难度。OSS存储服务为您提供了丰富的监控和日志信息,帮助您深刻洞察程序行为,及时发现并快速定位问题。本文主要描述...

自治服务(CloudDBA)

您可以通过该功能排查Redis数据库的故障和性能降低的原因。开启自动容 当内存平均使用率达到阈值后会自动升级Redis实例的规格,帮助您快速弹性适配业务高峰,避免内存溢出的风险,有效保障线上业务稳定性。基于预测自动弹性伸缩 以实例...

光模块故障

本文介绍光模块发生故障原因和处理方法。问题现象 光模块连接后,接口指示灯没有变为绿色。可能原因 光模块不兼容或损坏。智能接入网关设备支持的光模块型号请参见 光模块型号。说明 目前仅SAG-1000设备支持光模块插入。解决方案 通用多...

平滑

本文将介绍 PolarDB-X 1.0 平滑容的基本原理。当逻辑库对应的底层存储已经达到物理瓶颈时,需要对底层存储进行水平扩展。例如当磁盘余量接近30%时,您可以在控制台上通过平滑容来改善。平滑容是一种在线水平容方式,通过把原有的分...

设备和交换机之间的链路故障

本文介绍SAG-1000设备发生设备和交换机之间链路故障原因和处理方法。问题现象 设备和交换机接口之间ping不通。设备的Web端口配置页,端口前的状态灯为红色。动态路由OSPF接入时,Web端口配置页,端口前的状态灯为红色。设备的Web状态查询...

故障止损恢复

故障初因定位 集成企业内部可利用的所有稳定性相关数据(变更事件,...通用垂直专项快恢能力:通过集成包括DB侧慢SQL限流、变更极速回滚、多活容灾切流快恢等通用的快恢能力,结合监控、日志等数据自动定位的故障原因进行对应的快恢方式推荐。

故障协同处理(基于钉钉)

2.故障应急场景群:事件升级故障后,群内推出 故障处理中 消息卡片,如果满足自动生成故障场景群的需求(下文详细介绍创建故障场景群逻辑),故障场景群内同时推出 故障处理中 消息卡片。本群故障消息卡片包含按钮:签到、签到记录、应急...

Redis客户端重连指南

引发暂时性故障原因 原因 说明 故障触发了高可用机制 云数据库Redis支持节点健康状态监测,当监测到实例中的主节点不可用时,会自动触发主备切换,例如将主节点和从节点进行互换,保障实例的高可用性。此时,客户端可能会遇到下列暂时性...

缩容节点池

缩容失败错误码及解决方法 在缩容节点池过程中,可能会由于库存等原因造成缩容失败。您可以在 集群列表 页面单击目标集群名称,在 集群任务 页签查看集群任务列表,单击 查看原因 查看节点池容失败原因。常见的容失败错误码如下...

容分区和文件系统(Linux)

在ECS控制台上容云盘容量后,对应分区和文件系统并未容,您还需要进入ECS实例内部继续容云盘的分区和文件系统,将容部分的容量划分至已有分区及文件系统内,使云盘容生效。本文为您介绍如何通过两个步骤完成Linux实例云盘的分区...

常见报错

本文介绍在使用PTS过程中出现异常报错的可能原因以及解决方案。常见报错信息 class java.net.ConnectException:null 表示请求在与远端(被测端)建立TCP连接时出现失败或者被远端拒绝。请检查后端服务器的健康状况,或者网络连接层是否...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云数据库 ClickHouse 数据库自治服务 云原生数据仓库 AnalyticDB PostgreSQL版 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用