更新故障复盘改进详情

problemReason":"故障原因A","recentActivity":"2","injectionMode":"1","recoveryMode":"2","discoverSource":1,"userReport":10,"monitorSourceName":"Zabbix","relationChanges":"关联变更","dutyUserId":1231,"replayDutyUserId":1213...

如何解决MSE Nacos实例域名无法解析的问题?

如果使用的是ACK,请 提工单 联系ACK技术支持协助排查CoreDNS故障原因。方案二:使用ping命令 使用 ping${mse.nacos.host} 指令尝试解析。如果提示 unknown host,则无法解析域名。如果提示 PING${mse.nacos.host}(xxx.xx.xx.xx)56(84)...

诊断网页加载过慢的问题

慢加载详情 页面顶部的 页面信息 区域展示了本次访问的客户端IP地址、浏览器、操作系统等信息,帮助您确认故障原因。慢加载详情 页面的 页面资源加载瀑布图 区域展示了页面静态资源加载的瀑布图,帮助您快速定位资源加载的性能瓶颈。慢加载...

故障止损恢复

故障初因定位 集成企业内部可利用的所有稳定性相关数据(变更事件,...通用垂直专项快恢能力:通过集成包括DB侧慢SQL限流、变更极速回滚、多活容灾切流快恢等通用的快恢能力,结合监控、日志等数据自动定位的故障原因进行对应的快恢方式推荐。

一键诊断

相关文档 通过一键诊断了解数据库性能情况的全貌后,您可以使用如下功能对数据库进行全面细致的诊断,准确定位故障原因,并解决故障。会话管理 性能趋势 锁分析 慢SQL 空间分析 常见问题 Q:一键诊断中,如何计算会话的线程使用率、连接数...

什么是故障

包括根因检查点(如故障原因、最近活动、注入方式、恢复方式等)、故障变更检查、监控检查,并需要对每一个故障明确责任人及团队;故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘后的故障都能对业务...

访问策略

6.备用地址池是在默认地址池因故障原因不可用时,可以将用户的访问流量切换至备用地址池上。在 备用地址池 的下拉框中,选择已创建的地址池名称,最后单击 下一步。如果您还没有创建地址池,请参考 创建地址池 文档。注意:如未设置备用...

如何管理故障

可对故障根因进行原因检查并结构化录入,检查点包括:故障原因、最近活动、注入方式、恢复方式等;关联故障期间的故障变更,新增故障改进措施等操作。故障状态 处理中:处理中仍未恢复的故障;已恢复:故障对处理中的故障做 恢复 操作后是...

设置宕机自动迁移

为了降低物理故障对业务的影响,阿里云为您提供专有宿主机DDH宕机自动迁移的功能。本章节介绍在创建DDH后如何开启或者关闭宕机自动迁移。背景信息 宕机自动迁移开启后,当DDH因故障停机时,会自动迁移至健康的DDH。若您未开启宕机自动迁移...

故障复盘改进详情

0c4840fd3812 幂等校验token 返回数据 名称 类型 示例值 描述 requestId String 4361a0e1-6747-4834-96ce-0c4840fd3811 Id of the request data Object data problemId String 231231 故障ID problemReason String 故障的原因 故障原因 ...

表管理

概念介绍 概念 功能描述 表层级 数仓分层 是结合对业务场景、实际数据、使用系统的综合分析,对数据模型进行的整体架构设计及物理层的详细划分。通常,您可基于数仓分层将表层级划分为如下层级:数据引入层ODS(Operational Data Store)...

什么是消息演练

随着应用规模的扩大,系统变得越来越复杂,不可避免地会走向分布式化。各种中间组件会相继被引入系统,其中分布式消息服务更是系统中必不可少的一...需要注意的是演练场景仅是组件表象,其内部故障原因可能是多种多样的,需要进一步进行分析。

功能概述

数据库发生故障后,无法在发生故障时定位到原因,可以通过智能压测功能,在克隆库上复现故障场景,定位故障原因。功能架构 智能压测的功能架构如下图所示:源数据库:将要进行大促、将要业务变更或者已经发生故障,需要进行流量捕获的数据...

故障管理

包括根因检查点(如故障原因、最近活动、注入方式、恢复方式等)、故障变更检查、监控检查,并需要对每一个故障明确责任人及团队;故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘后的故障都能对业务...

功能特性

此外,在数据库实例发生故障且无法定位原因时,可以利用克隆库复现故障场景,以便更好地定位故障原因。智能压测 搜索分析 查询并导出SQL语句对应的日志信息。搜索 SQL洞察 SQL洞察聚类分析,用作深度异常的排查。SQL洞察 安全审计 内置了...

监控报警概述

故障预警 云电脑的故障信息、故障原因及故障时间等信息。使用场景 在日常业务运行的过程中,监控大盘帮助您及时了解账号下全部云电脑资源的全局情况,实时监控提供更详细的数据指标和故障预警信息,帮助您了解终端用户使用云电脑的情况,...

托管节点池节点自动恢复

当发现节点故障时,ACK会根据故障原因触发对应恢复任务,并记录相应的事件。当恢复任务完成后,故障状态解除,节点恢复正常状态。当恢复任务完成后,故障状态依然存在,节点会被置为恢复失败状态。说明 如果集群中存在多个节点池,节点池...

流量回放和压测

此外,在数据库发生故障且无法定位原因时,可以利用克隆库复现故障场景,以便更好地定位故障原因。前提条件 源数据库支持:RDS MySQL PolarDB MySQL版 说明 不支持 PolarDB MySQL版 的 企业版 单节点 实例。PolarDB-X 2.0。目标数据库实例...

智能压测

此外,在数据库发生故障且无法定位原因时,可以利用克隆库复现故障场景,以便更好地定位故障原因。前提条件 源数据库支持:RDS MySQL PolarDB MySQL版 说明 不支持 PolarDB MySQL版 的 企业版 单节点 实例。PolarDB-X 2.0。目标数据库实例...

参数设置

数据库级 MAX_POOL_SIZE PolarDB-X 1.0 计算节点和单个存储层物理分片的最大链接数。所有版本 MIN_POOL_SIZE PolarDB-X 1.0 计算节点和单个存储层物理分片的最小链接数。所有版本 IDLE_TIMEOUT PolarDB-X 1.0 计算节点和存储节点的...

专线连接类

排查物理专线故障原因,具体操作,请参见 故障排查。本地数据中心到阿里云的线路中断,如何解决?请在本地数据中心的网关设备上测试物理专线的客户端侧IP到阿里云侧IP是否可达,即此物理专线的直连IP是否可以ping通。如果不通,则需您向...

诊断项与诊断结果说明

如果底层物理机存在故障,则可能会影响实例的运行状态或性能。您可以尝试通过重启实例进行恢复。网络服务健康诊断 网络服务健康诊断项具体如下表所示。诊断项 描述 诊断范围及建议操作 网络会话异常 网卡会话无法正常建立,或会话数超过...

节点诊断

ECS实例网卡链路状态 检查ECS实例网卡链路是否出现异常。ECS实例未正常启动或网络配置有问题,您可以尝试通过重启实例进行恢复。ECS实例启动状态 检查ECS实例的boot操作是否能正常执行加载。ECS实例无法正常启动,您需要创建一个新的...

Pod诊断

容器智能运维平台 构建了基于专家经验的故障诊断系统,并基于海量数据训练了AI智能故障诊断模型。Pod诊断融合了基于专家经验和AI智能诊断两种诊断模式,进一步深入定位问题根因。Pod诊断包括诊断检查项和诊断根因。诊断检查项:包括Pod检查...

I-V曲线诊断

造成并联电阻的老化原因有很多,例如:长期工作导致的性能下降、不良生产工艺、模组脱、焊接处细小裂纹、高湿度环境导致的脱、机械应力导致的破坏等。并联电阻降低后的老化影响如下:会降低太阳电池开路电压。光生电流从Rsh支路流过,...

混合云应用双活容灾最佳实践

容灾切换数据质量保障难 容灾切换过程中,可能因数据同步延迟导致读到旧数据,以及切换规则推送到分布式应用节点时间不一致等原因可能造成云上云下数据库同时读写而出现脏写的问题,整个切换过程数据质量保障是关键点及难点。无业务代码...

蚂蚁 PaaS 平台核心领域模型介绍

IaaS 核心领域模型与概念 地域(Region)与可用区(Availability Zone,AZ)阿里云上的基础物理拓扑包括地域(Region)和可用区(Availability Zone),它们是阿里云的两个核心领域模型。地域 Region:物理的数据中心。地域通常以城市为...

功能架构

以此来支撑产品的应用监控、业务监控、平台监控、基础设施监控、告警管理和分布式链路等能力。作为一个企业级产品,系统提供资源租户隔离、访问鉴权控制和监控配置模板等企业级特性。并且提供数据高可用、服务高可靠、双机房容灾部署等...

集群高可用架构推荐配置

配置节点弹性伸缩 每个节点池背后是一个弹性伸缩组(ESS),支持在负载调度或集群资源对节点进行手动扩缩容与自动化弹性伸缩,以更低成本、更灵活地调整弹性计算资源。关于ACK提供的弹性伸缩方案,请参见 弹性伸缩概述、节点自动伸缩。...

消息存储和清理机制

消息在队列中的存储情况如下:消息存储管理粒度说明 云消息队列 RocketMQ 版 按照服务端节点粒度管理存储时长而非队列或主题,原因如下:消息存储优势权衡:云消息队列 RocketMQ 版 基于统一的物理日志队列和轻量化逻辑队列的二级组织方式...

附录:SOFAStack 产品目录

兼容性保障:分布式事务是一个抽象的基于 Service 的概念,与底层事务实现无关,也就是说在分布式事务的范围内,无论是关系型数据库 MySQL、Oracle,还是 KV 存储 MemCache,或是列存数据库 HBase,只要将对它们的操作包装成分布式事务的...

物理端口监控及预警

通过阿里云的云监控服务,高速通道的物理端口监控和预警功能可以实时监测连接状态,并可以根据您配置的报警规则发送报警通知,使您能够迅速识别并应对专线故障,确保业务的稳定运行。前提条件 您已经完成物理专线连接。具体操作,请参见 ...

产品功能

支持数据持久化及备份恢复策略,有效的保证数据可靠性,可避免物理节点故障缓存失效对后端数据库造成的巨大压力冲击。多层安全防护体系,为您抵御90%以上的网络攻击 DDoS 防护:在网络入口实时监测,当发现超大流量攻击时,对源IP进行清洗...

配置健康检查

健康检查探测到物理专线链路故障后并不会向您发送通知,推荐您为物理专线配置报警规则,物理专线触发报警规则后,系统会向您发送报警通知,方便您及时处理问题。警告 健康检查目标IP地址必须保证能正常回应ping的探测,本地数据中心不能对...

产品优势

与共享宿主机(多租户环境)相比,DDH为您...高可用 DDH提供自动宕机迁移能力,在物理故障时自动迁移,您无需准备备机,故障迁移自动完成。同时支持在不停机的情况下将ECS实例在不同宿主机间迁移,在需要时进行负载均衡,保障业务的高可用。

新功能发布记录

物理端口监控及告警 新增 结合阿里云的云监控服务,高速通道提供的物理端口监控及预警功能可以探测物理端口的实时连接状态,并且支持根据您配置的报警规则发送报警通知,帮助您更加快捷有效地监控端口连接状态,避免物理专线故障影响业务。...

高性能版实例

高可用 AnalyticDB PostgreSQL版 高性能版由于减少了一个副本,在高可用方面出现了一些下降,在物理故障等极端情况下,集群恢复的时间会变长(8小时以内)。高性能版通过ESSD多副本技术,保留了完整的数据可靠性,并且阿里云团队通过更改...

光模块故障

本文介绍光模块发生故障原因和处理方法。问题现象 光模块连接后,接口指示灯没有变为绿色。可能原因 光模块不兼容或损坏。智能接入网关设备支持的光模块型号请参见 光模块型号。说明 目前仅SAG-1000设备支持光模块插入。解决方案 通用多...

设备和交换机之间的链路故障

本文介绍SAG-1000设备发生设备和交换机之间链路故障原因和处理方法。问题现象 设备和交换机接口之间ping不通。设备的Web端口配置页,端口前的状态灯为红色。动态路由OSPF接入时,Web端口配置页,端口前的状态灯为红色。设备的Web状态查询...

【Fault Injection】故障注入

您可以使用虚拟服务在应用进行故障注入测试。本文介绍如何配置故障注入。前提条件 已完成准备工作,并部署httpbin服务和sleep服务。具体操作,请参见 准备工作。操作步骤 验证服务配置。在ACK集群对应的KubeConfig环境下,执行以下命令,...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 专有宿主机 Serverless 应用引擎 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用