反应式编程故障排除-反应式编程故障排除文档介绍内容-阿里云

什么是故障演练

故障演练是一款遵循混沌工程实验原理并融合了阿里巴巴内部实践的产品，提供丰富故障场景，能够帮助分布式系统提升容错性和可恢复性。流程故障演练建立了一套标准的演练流程，包含准备阶段、执行阶段、检查阶段和恢复阶段。通过四阶段的...

产品正式商业化发布

产品适用场景一站式运维事件管理：满足各类监控场景下报警统一事件化管理需求，支持集成对接各监控系统，支持服务器自定义推送异常事件，对报警、事件、故障进行全流程一站式管理，提升企业运维效率。体系化故障闭环管理：基于阿里多年...

智能负载均衡

能力未启用智能负载均衡启用智能负载均衡容灾能力多节点单活的接入防护能力统一容灾切换基于多节点负载均衡的接入防护能力基于智能DNS的自动网络故障容灾切换访问加速无就近接入防护及就近回源的最短链路智能负载均衡的价值 ...

智能负载均衡

功能项未启用智能负载均衡启用智能负载均衡容灾能力多节点单活的接入防护能力统一容灾切换基于多节点负载均衡的接入防护能力基于智能DNS的自动网络故障容灾切换访问加速无就近接入防护及就近回源的最短链路业务价值对于各类...

网络类场景

排除端口无需注入网络延迟调用故障的端口，与本地服务端口和远程服务端口功能互斥。可以指定多个，使用逗号分隔，使用连接符表示范围。例如80,8000-8080。远端服务IP 指定演练对象访问的远端服务IP。可以通过子网掩码来指定一个网段的IP...

什么是应用高可用服务AHAS

故障演练故障演练是一款遵循混沌工程实验原理并融合了阿里巴巴内部实践的产品，提供丰富故障场景实现，能够帮助分布式系统提升容错性和可恢复性。流程故障演练建立了一套标准的演练流程，包含准备阶段、执行阶段、检查阶段和恢复阶段。...

产品简介

一站式管理、多端协同，帮助企业实现更实时的数字化管理、更快的故障响应、更短的故障恢复时长、更连续的业务运营体验。产品架构功能概况您可以在运维事件中心获得以下功能的入口：模块能力概述功能描述服务管理企业的各个服务...

云产品事件触发器概述

数据库云原生数据库PolarDB事件云原生数据库PolarDB事件类型包括实例主备切换（故障切换）、实例故障结束和实例故障开始等。云原生分布式数据库事件云原生分布式数据库事件类型包括阿里云平台对资源执行的操作事件、API调用和控制台的...

云产品事件触发器概述

数据库云原生数据库PolarDB事件云原生数据库PolarDB事件类型包括实例主备切换（故障切换）、实例故障结束和实例故障开始等。云原生分布式数据库事件云原生分布式数据库事件类型包括阿里云平台对资源执行的操作事件、API调用和控制台的...

阿里云官方事件源

数据库云原生关系型数据库PolarDB事件云原生数据库PolarDB事件类型包括实例主备切换（故障切换）、实例故障结束和实例故障开始等。云原生分布式数据库PolarDB-X事件云原生分布式数据库事件类型包括阿里云平台对资源执行的操作事件、API...

附录：SOFAStack 产品目录

SOFAStack 源于自蚂蚁内部沉淀十多年的金融级分布式中间件技术体系，吸收了支付宝自创立以来在关键金融交易系统锤炼出来的架构实践。SOFAStack 所有的产品技术均经过蚂蚁集团自身严苛的金融场景验证，为金融交易技术保证风险安全的同时，...

产品体系

高阶运维 TRaaS 技术风险防控平台，是以蚂蚁内部 SRE 长期实践方法论和内部工具沉淀为依托，形成的解决用户上云和分布式改造过程中，可观测、故障应急、容灾、混沌工程、资金安全、压测等运维问题的平台产品。研发效能源于蚂蚁集团在...

概述

TRaaS 技术风险防控平台，是以蚂蚁内部 SRE 长期实践方法论和内部工具沉淀为依托，形成的解决用户上云和分布式改造过程中，可观测、故障应急、容灾、混沌工程、资金安全、压测等运维问题的平台产品。高可用管理平台高可用管理平台（High ...

可用性与可靠性

主备多副本与云盘三副本 AnalyticDB PostgreSQL版是基于MPP架构的分布式数据库，对于所有的分布式系统来说，在通过分布式来增强性能的同时，也带来了节点故障率增高的问题，通常分布式系统会通过多副本的方式来保证系统在某些节点异常情况...

无法连接Windows实例

故障现象无法ping通ECS实例，在排除Iptables和网卡IP配置问题且回滚系统后，仍然无法ping通。故障原因可能是ECS实例安全组默认的公网规则被删除。解决方法重新配置ECS实例的安全组公网规则，具体操作请参见 ECS实例安全组默认的公网规则...

功能特性

继而在风险事件发生时，将例行化、程式化、标准化的排查过程，通过故障决策树自动执行，并直接反馈诊断结果。通过故障诊断平台，能够极大地缩短故障排查时间。同时，屏蔽了不同运维人员在故障排查时的经验和技能差异，实现故障的快速定位。...

本地盘最佳实践

但云盘采用分布式三副本机制，能防止意外硬件故障导致的数据不可用。如果应用没有多节点数据冗余架构，强烈建议您选择云盘。最佳实践选型对于大数据、重型数据库应用，带本地盘的实例（例如i2、d1等）在成本、存储访问时延上有着较大的...

常见问题

运维管理容器应用服务常见问题经典应用服务常见问题中间件 SOFABoot 常见问题微服务常见问题微服务故障排查之 DRM 微服务故障排查之限流微服务故障排查之 RPC 服务网格-故障排查消息队列常见问题任务调度常见问题分布式链路跟踪...

开源ChaosBlade与商业化AHAS CHAOS故障演练对比

商业化AHAS CHAOS故障演练是阿里巴巴内部广泛使用的演练平台云上版本，具有灵活的流程编排、丰富的故障场景等特点，可以帮助企业提升分布式系统的容错能力，保障在企业上云或往云原生系统迁移过程中业务的连续性。AHAS CHAOS故障演练在...

概述

通过分布式链路跟踪，运维人员、开发人员和架构师能看清楚复杂的大规模微服务架构下的应用及服务之间的复杂调用关系、性能指标、出错信息与关联日志，从而实现故障根因分析、服务治理、应用开发调试、性能管理、性能调优、架构管控、故障...

同城多活常见问题

基本概念逻辑集群概念可用区概念同可用区多个逻辑集群优先支持不支持故障场景RPC切零支持不支持支持的服务微服务消息分布式任务微服务消息是基于Shutdown机制实现多活么？不是。因为这样会涉及业务重启恢复，如果每次容灾...

拉勾教育

客户痛点在拉勾教育众多的课程中，有一块领域是编程教育，会以图、文、音、视频的方式教授互联网热门领域的编程课程，同时课程中最大特色的就是交互式学习，做到了对知识的接收、理解、动手实操及掌握的闭环，编程教育的核心是在线编程...

拉勾教育

客户痛点在拉勾教育众多的课程中，有一块领域是编程教育，会以图、文、音、视频的方式教授互联网热门领域的编程课程，同时课程中最大特色的就是交互式学习，做到了对知识的接收、理解、动手实操及掌握的闭环，编程教育的核心是在线编程...

组件中心

中间件分布式链路跟踪一款实时监控并管理企业应用性能和故障的云服务，其提供数字化性能管理解决方案，帮助企业在分布式架构下快速发现并准确定位应用全生命周期的性能问题。任务调度提供分布式任务调度框架，实现任务的分布式处理，并...

电源故障定位

您可以参考以下方法定位电源故障并进行处理流程。诊断流程电源故障详细处理流程，如下图所示。处理步骤测量输入电压。使用万用表测量输入电压，根据电源适配器的工作电压范围判断输入电压是否异常。插拔电源适配器。把电源适配器以及电源...

EasyCkpt：AI大模型高性能状态保存恢复

功能介绍针对频繁故障的情况，PAI通过之前的故障失败场景总结出以下GPU和深度学习场景故障的功能特点：特点1：任务的故障是部分的。通常，故障的根因是一到两台机器的故障，这只会影响部分Worker。对于大规模分布式训练任务而言，不会所有...

源为PolarDB-X的任务配置方案

DTS支持将源 PolarDB分布式版实例同步或迁移至目标库。但是由于直接使用 PolarDB分布式版作为源实例配置DTS任务，当该实例下挂载的RDS MySQL数量超过2个时，可能会产生性能瓶颈，稳定性风险，最终可能会对业务造成影响。为了更好保障任务...

源为PolarDB-X的任务配置方案

DTS支持将源 PolarDB分布式版实例同步或迁移至目标库。但是由于直接使用 PolarDB分布式版作为源实例配置DTS任务，当该实例下挂载的RDS MySQL数量超过2个时，可能会产生性能瓶颈，稳定性风险，最终可能会对业务造成影响。为了更好保障任务...

出错提示S2磁盘分区文件数据同步出错

大量小文件，如分布式文件系统海量数据、文件服务器等。使用过滤配置排除相关目录后再试，具体操作，请参见如何过滤、排除不需要迁移的文件或目录？对于未迁移的文件或目录，后续可考虑用其他方案迁移。问题排查解决后，运行SMC客户端再试...

产品优势

作为行业领先的区块链数字身份管理服务，蚂蚁链分布式身份服务 DIS 具备以下优势：分布式基于区块链构建分布式数字身份系统，摆脱了对单一中心企业的依赖，抵御故障和篡改。各生态参与方平权参与，易于生态合作。身份自主控制打通用户...

高可用版

图数据库GDB支持高可用版和单节点版两个系列。高可用版采用一主一备的经典高可用架构（主备节点均为独立的图数据库节点），计算与存储分离，...基于超大规模的阿里云飞天分布式存储，保证数据多副本的可靠性。适用场景企业级的生产图数据库。

强弱依赖治理概述

随着分布式微服务的发展，系统正在变得越来越复杂，一个普通的应用也可能依赖了很多其他的服务。在没有明确强弱依赖关系的前提下，系统很难进行限流降级、优化改造等操作。强弱依赖治理就是通过科学的手段持续稳定地得到应用间依赖关系、...

应用场景

Node.js 提供的精确到虚拟机级别的深度监控，能够如实的反应应用运行状态，通过配置报警规则，用户可以在发现系统出现故障（内存泄露或者 CPU 热点等）趋势时，通过诊断接口迅速定位故障点。Node.js 性能平台特别适合业务发展迅速、应用...

产品架构

计算节点故障恢复快：计算节点发生Failover之后，数据可以按需从分布式的共享存储异步拉取。因此Failover的速度非常快。Hologres采用的是第三种存储计算分离架构，Hologres的存储使用的是阿里自研的Pangu分布式文件系统（类似HDFS）。用户...

正则表达式检查

本文介绍正则表达式检查如何进行配置。功能介绍：检测文本内容，是否符合正则表达式配置的规则内容。配置方法：将正则表达式输入即可。在“命中”中输入期望命中的规则内容，在“排除”中输入期望过滤不命中的规则内容。其中，“命中”为必...

分区剪枝

如下可以看到，同样的 measurement 表，同样的SQL查询，但是查询条件的表达式值从静态值变成了 now()，这是一个稳定的表达式，它不能在优化阶段计算，但是可以在执行器初始阶段计算。假设今天是2023年7月，因此可以看到前两个季度分区被...

设计原则

面向风险的应急快恢原则在一些场景下，即使设计了各种技术手段去提高系统的冗余、保持业务的高可用，但还是避免不了生产系统故障的发生，所以需要面对故障建立一个高效的故障应急流程机制和稳定的技术平台，实现故障风险实时发现、应急...

演练场景说明

故障演练场景是演练任务的核心。AHAS提供基础资源类场景和Kubernetes类场景，帮助分布式系统提升容错性和可恢复性。每一个执行阶段的演练场景都对应一个恢复阶段的演练任务。恢复阶段的演练任务目的是清除故障演练的影响，使应用或服务恢复...

概述

分布式系统将计算任务和数据分布在多个节点上以实现更高的性能、可靠性和可扩展性，当一个节点发生故障或错误时，其他节点可以继续工作，相比于单机系统，架构本身就有较高的节点容错性。但随着服务拆分，更多组件的引入，分布式系统的复杂...

故障排查

Service无法正常工作在排除网络插件自身的问题外，最可能的是 label 配置有问题，您可以通过查看 endpoints 进行故障排查。具体操作，请参见检查Service。如何升级集群？升级集群的Kubernetes版本，具体操作，请参见手动升级ACK集群。从...

反应式编程故障排除

新品推荐