稳定系统故障排除-稳定系统故障排除文档介绍内容-阿里云

DT-PID V2.1.0

减小积分时间常数使系统消除稳态误差能力增强，但过小的积分时间常数会使得积分作用过强，导致系统闭环稳定性下降。微分时间常数Td 微分具有相位超前作用，直接影响系统的动态响应超调量，即影响系统稳定性余量；微分控制在比例控制或比例...

版本选型

热点参数防护为应用配置热点规则后，MSE将分析统计参数，即资源调用过程中的调用次数较高的参数，并根据配置的热点规则对包含热点参数的资源调用进行限流，保护系统稳定性。熔断熔断规则可以监控应用内部或者下游依赖的响应时间或异常...

常用功能配置（精简版）

具体规则如下：防护目录：全部目录（排除系统目录）排除指定目录：显示排除目录的列表防护文件类型：全部文件类型数据备份开始时间：00:00~03:00的任意时刻备份策略执行间隔：1天备份数据保留时间：7天备份网络带宽限制：0 MByte/s ...

控制台首页

运维监控场景：快速定位解决异常为用户提供阿里云平台级的稳定性监控和资源级别的运维监控，提升日常运维排查问题的效率：系统稳定性：通过云监控等事件指标反映用户在阿里云上搭建的业务系统的稳定性，主要反映云产品资源对业务稳定性的...

ECS实例操作系统内部（GuestOS）常见问题与修复方案

Linux操作系统（GuestOS）常见问题与解决方案无法正常启动检查fstab文件中的块设备信息是否存在如果实例中存在有块设备，但块设备信息在fstab文件中不存在，重启系统时可能导致系统无法正常启动。您必须移除/etc/fstab 文件中不存在的块...

什么是云消息队列 RocketMQ 版？

高性能可提供单实例集群最高100万TPS稳定消息收发的能力，无需担心大促等峰值流量场景的系统稳定性。安全可靠同城冗余：服务端多可用区高可用，数据采用三副本存储。当某个可用区不可用时，仍然能够保障服务的正常访问。数据复制：支持跨...

支持计划

配置指导以及故障排除 配置指导以及故障排除 配置指导以及故障排除 专属技术服务经理不支持不支持专属技术服务经理（TAM）健康检查可免费使用智能顾问Advisor 可免费使用智能顾问Advisor 可免费使用智能顾问Advisor。专属技术服务经理...

增量迁移源服务器

常见错误及修复方案，请参见 故障排除 和常见问题。相关操作在增量迁移的过程中，您可以执行下列操作：暂停增量迁移任务。具体操作步骤如下：说明仅当增量迁移任务状态为同步中或等待中时，您才可以暂停该任务。在迁移任务页面，...

操作系统迁移（Windows）

常见错误及修复方案的更多信息，请参见 SMC FAQ 和 故障排除。如果需要回滚源系统云盘数据，您可以在快照列表使用自动备份的快照进行恢复数据。操作步骤如下：登录 ECS管理控制台。在左侧导航栏，选择存储与快照>快照。在云盘快照页签下...

进入Linux系统的单用户模式

您可以在单用户模式下，查看系统日志文件、检查服务状态、测试网络连接等，以进行故障排除和问题修复。以排查Linux系统启动问题为例，您可以进行如下操作：如果系统配置文件出现问题，导致系统无法正常启动，您可以在单用户模式下修改相应...

各源环境迁移至阿里云

SMC支持多种Windows以及Linux操作系统版本，您可以将自建IDC机房、本地虚拟机或者其他云厂商等环境中的源服务器迁移至阿里云。本文介绍迁移源服务器前的准备工作，以及如何使用SMC迁移源服务器至阿里云。背景信息 SMC支持多种迁移源环境，...

故障复盘

故障复盘规范故障复盘作为故障体系中的重要一环，整体复盘流程包括故障处理过程、改进分析、故障定责，基于包含标准化的复盘SOP、对应预防action推荐、问责管理机制，全面地回溯线上故障的发生，产出故障复盘报告和改进措施，避免故障重复...

实时分析链路数据

如果异常请求分散在多台机器，那么大概率可以排除单机故障因素，可以重点分析下游依赖服务或程序逻辑是否异常。在调用链分析页面筛选错误调用或慢调用，并设置按IP进行分组统计，如果异常调用集中出现在特定机器，则有较大概率是机器故障...

识货电商引入Tair构建在线业务平台，轻松应对百万QPS...

提供了一站式全链路的实例诊断功能，从性能水位、访问倾斜情况、慢日志等多方面评估实例的健康状况，并给出改善建议，极大程度地提高了 Tair 实例的自动化运维能力，降低使用成本，帮助客户快速定位问题，轻松排除系统稳定性隐患。...

强弱依赖治理概述

强弱依赖治理就是通过科学的手段持续稳定地得到应用间依赖关系、流量、强弱等数据，提前发现因为依赖问题可能导致的故障，避免依赖故障影响用户体验，积累数据持续推进系统稳定性提升。什么是强弱依赖？异常发生时，不影响核心业务流程，不...

Pod诊断

容器智能运维平台构建了基于专家经验的故障诊断系统，并基于海量数据训练了AI智能故障诊断模型。Pod诊断融合了基于专家经验和AI智能诊断两种诊断模式，进一步深入定位问题根因。Pod诊断包括诊断检查项和诊断根因。诊断检查项：包括Pod检查...

无法远程连接Windows实例的排查方法

排除本地网络故障后进行下一步检查。在本地客户端使用 ping 命令测试与实例的网络连通性。网络异常时，请参见网络异常时如何抓取数据包进行排查。当出现ping丢包或ping不通时，请参见使用ping命令丢包或不通时的链路测试方法进行排查。...

错误码

常见 PolarDB-X 数据节点连接失败的原因如下：后端数据节点连接数已满计算节点到数据节点的连接超时数据节点拒绝连接如果排除后端数据节点问题后仍然出现该错误，请联系技术支持。PXC-4103 ERR_ATOM_CONNECTION_POOL_FULL 描述：PolarDB...

应用场景

系统稳定性差，任何一个下游发生故障，将直接影响整个业务系统的可用性。为提升核心应用用户体验和稳定性，您可以通过DTS提供的数据订阅，将深耦合业务优化为通过实时消息通知实现的异步耦合，让核心业务逻辑更简单可靠，具体调整为：该...

概述

优势容灾备份，降低业务中断风险主DNS系统故障，辅助DNS可继续提供域名解析服务，保障业务可用性。稳定可靠，保障业务稳定运行云解析DNS提供100%SLA服务，全球DNS集群互相备份，服务永不宕机。全球节点，提升域名解析效率节点遍布全球...

设计原则

面向风险的应急快恢原则在一些场景下，即使设计了各种技术手段去提高系统的冗余、保持业务的高可用，但还是避免不了生产系统故障的发生，所以需要面对故障建立一个高效的故障应急流程机制和稳定的技术平台，实现故障风险实时发现、应急...

极氪汽车云成本精细化治理实践

团队面临集群环境配置不一致，发布脚本缺乏标准，应用发布上线变得越来越困难，线上系统稳定性风险极大增加。应用工作负载难以预估，缺乏数据可见性 Kubernetes为容器资源管理提供了资源请求（Request）的语义描述。容器的Request一般基于...

监控服务概览

OpenAPI访问监控数据 OSS服务的相关监控指标数据可以通过云监控提供的OpenAPI访问，使用方法请参见：云监控SDK参考访问监控数据监控、诊断和故障排除 监控诊断和故障排除 通过详细介绍以下各个方面的内容帮助您更好地了解OSS服务的运行...

应用场景

Node.js 提供的精确到虚拟机级别的深度监控，能够如实的反应应用运行状态，通过配置报警规则，用户可以在发现系统出现故障（内存泄露或者 CPU 热点等）趋势时，通过诊断接口迅速定位故障点。Node.js 性能平台特别适合业务发展迅速、应用...

自动/手动主备切换

当系统发生故障时，PolarDB 集群会自动进行主备切换。您也可以手动进行主备切换，指定一个只读节点为新的主节点。注意事项不论是自动切换还是手动切换，切换过程中，都可能会出现30秒左右的闪断，因此切换前请务必确保应用具备重连机制。...

自动/手动主备切换

当系统发生故障时，PolarDB 集群会自动进行主备切换。您也可以手动进行主备切换，指定一个只读节点为新的主节点。注意事项不论是自动切换还是手动切换，切换过程中，都可能会出现30秒左右的闪断，因此切换前请务必确保应用具备重连机制。...

设备显示离线

如果是静态路由接入，尝试通过交换机，能否 ping 通设备的每个接口IP，如果其中有无法 ping 通的接口，请参见设备和交换机之间的链路故障，排除接口互联问题。如果是单机设备，观察设备机身的状态指示灯，确认右侧第二个和第三个灯是否为...

无法连接到同一个云连接网内的本地客户端

如果是静态路由接入，尝试通过交换机，能否 ping 通设备的每个接口IP，如果其中有无法 ping 通的接口，请参见设备和交换机之间的链路故障，排除接口互联问题。如果是单机设备，观察设备机身的状态指示灯，确认右侧第2和第3个灯是否为黄色...

什么是故障演练

故障演练是一款遵循混沌工程实验原理并融合了阿里巴巴内部实践的产品，提供丰富故障场景，能够帮助分布式系统提升容错性和可恢复性。流程故障演练建立了一套标准的演练流程，包含准备阶段、执行阶段、检查阶段和恢复阶段。通过四阶段的...

ping不通云服务ECS（SAG-1000）

如果是静态路由接入，尝试通过交换机，能否ping通设备的每个接口IP，如果其中有无法ping通的接口，请参见设备和交换机之间的链路故障，排除接口互联问题。如果是单机设备，观察设备机身的状态指示灯，确认右侧第2和第3个灯是否有红色的。...

查看实例的系统日志和屏幕截图

系统通过串口打印输出的日志会包含两种类型的信息，一类是系统启动开机时的日志内容，另一类是系统内核故障或异常时的日志内容。更多详情，请参见《云栖社区》博客操作系统有异常？诊断日志来帮忙。使用限制使用该功能时您需要注意如下...

自动/手动主备切换

当系统发生故障时，PolarDB 集群会自动进行主备切换。您也可以手动进行主备切换，指定一个只读节点为新的主节点。注意事项不论是自动切换还是手动切换，当只读节点未开启热备时，主备切换过程中可能会出现20~30秒左右的闪断，因此切换前请...

创建操作系统迁移任务

导入迁移源信息后，SMC控制台会自动生成迁移源记录，您需要在控制台为迁移源创建操作系统迁移任务，并完成操作系统的迁移。说明关于操作系统迁移的更多信息，请参见操作系统迁移（Linux）和操作系统迁移（Windows）。前提条件已导入...

系统类故障排查

概述本文主要介绍使用阿里云服务器ECS时的系统类故障排查，包含CPU、磁盘I/O、内存、硬盘、带宽资源占用异常的问题排查与定位。详细信息说明阿里云提醒您：如果您对实例或数据有修改、变更等风险操作，务必注意实例的容灾、容错能力，...

通用性能

系统指标指标详细维度能力说明系统部署 Agent自动注册按规模可选择Agent集群式入网，高可用执行分钟级故障切换系统性能自动化峰值调用性能：100/分钟自动化任务下发并发调用性能：100台设备并行配置系统稳定系统动态扩容能力：...

演练场景说明

网络故障是系统运行过程中时常遇到的问题，所以需要提升系统在网络异常情况下的容错能力。Java 场景名称特性虚拟机场景故障演练支持的虚拟机场景。代码逻辑场景故障演练支持的代码逻辑场景。JVM注入动态脚本向指定的Java方法注入一段...

同城容灾架构概述

非机房级故障（某个机房的单产品故障，例如其中一个机房的ECS服务器损坏），可以通过对单产品的灾备设计来保障发生故障时系统及时切换。应用设计相关参考标准应用设计相关参考标准如下：无状态化。分布式集群设计、避免单点逻辑出现。幂等...

查看和运行SMC客户端

具体操作，请参见 故障排除。说明如果您需要停止客户端迁移或修改客户端配置，可参考以下操作步骤退出SMC客户端。Linux Linux版本客户端默认在后台运行，可执行以下命令退出后台进程：./go2aliyun_client-abort Windows Windows版本客户端...

关键技术竞争力

基于混沌工程的红蓝攻防能力 TRaaS 基于混沌工程、建立演练机制，提供故障注入、演练编排体系能力，支持在不同环境、不同阶段，主动对业务系统进行故障注入，从而在主动观测单应用健壮性的同时，验证整个体系的故障发现能力、应急响应能力...

使用快照（公测）

在执行可能影响云电脑稳定性的关键操作之前，例如修改注册表、修改关键系统文件等，建议您提前创建快照，一旦出现系统故障，就可以使用快照恢复数据。本文介绍如何使用快照。背景信息快照是某一时间点某一块云盘的数据状态文件，可用于...

稳定系统故障排除

新品推荐