双向式故障排除-双向式故障排除文档介绍内容-阿里云

概述

分布式链路跟踪系统（Distributed System Tracing，简称 DST）是面向分布式架构、微服务（Spring Cloud、SOFAStack、Service Mesh 等）架构等云原生架构的一种具有应用可观察性（Observability）的金融级解决方案。通过 DST，运维人员、...

无法连接Windows实例

故障现象无法ping通ECS实例，在排除Iptables和网卡IP配置问题且回滚系统后，仍然无法ping通。故障原因可能是ECS实例安全组默认的公网规则被删除。解决方法重新配置ECS实例的安全组公网规则，具体操作请参见 ECS实例安全组默认的公网规则...

功能特性

继而在风险事件发生时，将例行化、程式化、标准化的排查过程，通过故障决策树自动执行，并直接反馈诊断结果。通过故障诊断平台，能够极大地缩短故障排查时间。同时，屏蔽了不同运维人员在故障排查时的经验和技能差异，实现故障的快速定位。...

主备容灾

云HBase通过master节点自动切换、数据两副本、快速自动failover等手段最大程度的保证了HBase实例服务和数据可用性，但是面对可用区级别的断电、断网及其他极端故障单个HBase集群无法满足用户的高可用要求，针对跨可用区灾备需求我们提供了...

本地盘最佳实践

但云盘采用分布式三副本机制，能防止意外硬件故障导致的数据不可用。如果应用没有多节点数据冗余架构，强烈建议您选择云盘。最佳实践选型对于大数据、重型数据库应用，带本地盘的实例（例如i2、d1等）在成本、存储访问时延上有着较大的...

常见问题

运维管理容器应用服务常见问题经典应用服务常见问题中间件 SOFABoot 常见问题微服务常见问题微服务故障排查之 DRM 微服务故障排查之限流微服务故障排查之 RPC 服务网格-故障排查消息队列常见问题任务调度常见问题分布式链路跟踪...

开源ChaosBlade与商业化AHAS CHAOS故障演练对比

商业化AHAS CHAOS故障演练是阿里巴巴内部广泛使用的演练平台云上版本，具有灵活的流程编排、丰富的故障场景等特点，可以帮助企业提升分布式系统的容错能力，保障在企业上云或往云原生系统迁移过程中业务的连续性。AHAS CHAOS故障演练在...

关键技术竞争力

生产运维智能化：技术风险体系保障业务连续性 TRaaS（Tech Riskdefend as a Service）技术风险防控平台，以蚂蚁内部 SRE 长期实践方法论和内部工具沉淀为依托，解决用户上云和分布式改造过程中所面临的可观测、故障应急、容灾、混沌工程、...

概述

通过分布式链路跟踪，运维人员、开发人员和架构师能看清楚复杂的大规模微服务架构下的应用及服务之间的复杂调用关系、性能指标、出错信息与关联日志，从而实现故障根因分析、服务治理、应用开发调试、性能管理、性能调优、架构管控、故障...

同城多活常见问题

基本概念逻辑集群概念可用区概念同可用区多个逻辑集群优先支持不支持故障场景RPC切零支持不支持支持的服务微服务消息分布式任务微服务消息是基于Shutdown机制实现多活么？不是。因为这样会涉及业务重启恢复，如果每次容灾...

组件中心

中间件分布式链路跟踪一款实时监控并管理企业应用性能和故障的云服务，其提供数字化性能管理解决方案，帮助企业在分布式架构下快速发现并准确定位应用全生命周期的性能问题。任务调度提供分布式任务调度框架，实现任务的分布式处理，并...

EasyCkpt：AI大模型高性能状态保存恢复

对于大规模分布式训练任务而言，不会所有的Worker都出现故障。特点2：机器的故障是部分的。通过对众多故障失败案例的分析，对于训练集群而言：GPU易损坏，但机器的CPU和内存通常仍可正常使用。以节点为单位，内存的闲置空间很大（通常远...

电源故障定位

您可以参考以下方法定位电源故障并进行处理流程。诊断流程电源故障详细处理流程，如下图所示。处理步骤测量输入电压。使用万用表测量输入电压，根据电源适配器的工作电压范围判断输入电压是否异常。插拔电源适配器。把电源适配器以及电源...

调转双向同步任务方向

调用ReverseTwoWayDirection接口，调转双向同步任务的方向。DTS双向同步任务中的反向任务会自动过滤DDL，当业务场景要求主备数据库切换或者双云切换时，需要调转双向同步任务的方向。使用该接口需注意：操作前请仔细阅读双向同步文档，以...

源为PolarDB-X的任务配置方案

配置 PolarDB分布式版下多个RDS MySQL至目标库的DTS任务，如其中一个DTS任务发生故障，则不影响其他DTS任务的运行，且只需恢复发生故障的DTS任务即可。稳定性一般。仅配置一个以 PolarDB分布式版为源的DTS任务，如该DTS任务发生故障，则...

源为PolarDB-X的任务配置方案

配置 PolarDB分布式版下多个RDS MySQL至目标库的DTS任务，如其中一个DTS任务发生故障，则不影响其他DTS任务的运行，且只需恢复发生故障的DTS任务即可。稳定性一般。仅配置一个以 PolarDB分布式版为源的DTS任务，如该DTS任务发生故障，则...

出错提示S2磁盘分区文件数据同步出错

大量小文件，如分布式文件系统海量数据、文件服务器等。使用过滤配置排除相关目录后再试，具体操作，请参见如何过滤、排除不需要迁移的文件或目录？对于未迁移的文件或目录，后续可考虑用其他方案迁移。问题排查解决后，运行SMC客户端再试...

CREATE CAST

如果想要能够双向转换类型，你需要在两个方向上都显式声明造型。通常没有必要创建用户定义类型和标准字符串类型（text、varchar 和 char(n)，以及被定义在字符串分类中的用户定义类型）之间的造型。PolarDB会为它们提供自动的 I/O 转换造型...

产品优势

作为行业领先的区块链数字身份管理服务，蚂蚁链分布式身份服务 DIS 具备以下优势：分布式基于区块链构建分布式数字身份系统，摆脱了对单一中心企业的依赖，抵御故障和篡改。各生态参与方平权参与，易于生态合作。身份自主控制打通用户...

高可用版

图数据库GDB支持高可用版和单节点版两个系列。高可用版采用一主一备的经典高可用架构（主备节点均为独立的图数据库节点），计算与存储分离，...基于超大规模的阿里云飞天分布式存储，保证数据多副本的可靠性。适用场景企业级的生产图数据库。

强弱依赖治理概述

强弱依赖治理的应用强弱依赖治理主要可以被应用到以下场景：系统改造验收：对于分布式系统，至少在运行态中，不会因为依赖的系统后台出现故障，引起当前应用出现系统级可用性的故障，例如进程挂掉、频繁FullGC、负载飙高等，何时何地都应...

什么是云原生数据库PolarDB分布式版

本文介绍什么是云原生数据库PolarDB分布式版，也称为 PolarDB分布式版，本手册中简称为 PolarDB-X。产品简介 PolarDB分布式版（PolarDB for Xscale，简称“PolarDB-X”）。PolarDB-X 是阿里云面向高吞吐、大存储、低延时、易扩展和超高...

围绕混沌工程的平台实践

本文主要介绍AHAS Chaos是如何围绕混沌工程来打造故障演练服务，您可以了解到混沌工程的基本知识和AHAS Chaos的优势。混沌工程和故障演练首先您需要了解混沌工程和故障演练的关系。以下是混沌工程官方定义：混沌工程是在分布式系统上进行...

产品架构

计算节点故障恢复快：计算节点发生Failover之后，数据可以按需从分布式的共享存储异步拉取。因此Failover的速度非常快。Hologres采用的是第三种存储计算分离架构，Hologres的存储使用的是阿里自研的Pangu分布式文件系统（类似HDFS）。用户...

正则表达式检查

本文介绍正则表达式检查如何进行配置。功能介绍：检测文本内容，是否符合正则表达式配置的规则内容。配置方法：将正则表达式输入即可。在“命中”中输入期望命中的规则内容，在“排除”中输入期望过滤不命中的规则内容。其中，“命中”为必...

构建运营模型

4.提高业务的稳定性和可靠性：基于云平台提供的监测和专业技术能力，可以协助企业提升故障响应速度，缩短故障诊断时间，提高业务的稳定性和可靠性。运营模型定义分散式运营模型应用，是一个可独立交付的对外提供服务的单元，是开发、部署...

分区剪枝

如下可以看到，同样的 measurement 表，同样的SQL查询，但是查询条件的表达式值从静态值变成了 now()，这是一个稳定的表达式，它不能在优化阶段计算，但是可以在执行器初始阶段计算。假设今天是2023年7月，因此可以看到前两个季度分区被...

设计原则

面向风险的应急快恢原则在一些场景下，即使设计了各种技术手段去提高系统的冗余、保持业务的高可用，但还是避免不了生产系统故障的发生，所以需要面对故障建立一个高效的故障应急流程机制和稳定的技术平台，实现故障风险实时发现、应急...

演练场景说明

AHAS提供基础资源类场景和Kubernetes类场景，帮助分布式系统提升容错性和可恢复性。每一个执行阶段的演练场景都对应一个恢复阶段的演练任务。恢复阶段的演练任务目的是清除故障演练的影响，使应用或服务恢复正常，通常不需要配置参数。本文...

故障排查

Service无法正常工作在排除网络插件自身的问题外，最可能的是 label 配置有问题，您可以通过查看 endpoints 进行故障排查。具体操作，请参见检查Service。如何升级集群？升级集群的Kubernetes版本，具体操作，请参见手动升级ACK集群。从...

概述

分布式系统将计算任务和数据分布在多个节点上以实现更高的性能、可靠性和可扩展性，当一个节点发生故障或错误时，其他节点可以继续工作，相比于单机系统，架构本身就有较高的节点容错性。但随着服务拆分，更多组件的引入，分布式系统的复杂...

单实例快速恢复

数据状态保存在盘古分布式存储系统中，无需从计算节点迁移，计算节点轻量无状态，系统可以快速从故障中恢复。该方案为当前每个实例内部默认启用，当系统发生故障时，无需手工运维介入，系统可以自动恢复。在恢复期间，如果查询算子需要访问...

设计原则

数据容灾是指在数据中心或服务器发生故障、灾难或意外情况时，能够保证数据的安全性和可用性的一系列措施和策略。数据容灾的目标是确保在不可避免的情况下，数据的完整性、可恢复性和可用性不受到严重影响，以保障业务的持续运行和数据的...

产品架构

本文介绍故障演练的产品架构，以下简称故障演练为AHAS Chaos。产品架构图 AHAS Agent AHAS Agent安装在指定的目标机器上，用来执行服务端下发的故障注入命令以及采集演练相关的必要信息，例如CPU、内存占用等。主要有以下特点：快捷高效：...

【邀测】同步备份

本文介绍同步备份功能，同步备份是一项方便、高效的云存储功能，支持云与本地数据双向实时同步，实现多终端设备数据保持最终一致。功能特点云-端数据双向同步：在本地存储和编辑的最新文件/文件夹实时同步至云端，云端已上传及更新的文件...

应用场景

SOA 和分布式事务提供跨库、跨服务的分布式事务支持，实现业务链路级别的分布式事务。开发简单，只需要在客户端声明一个注解，用以界定事务边界。业务链路：为服务链调用提供一致性保证。多框架兼容：目前兼容 Spring Cloud、Dubbo 和 HSF...

同城容灾架构概述

本文介绍公共云同城容灾架构的基本原理和接入标准。基本原理同城容灾是在相隔较远的两地（同城）建立两套功能相同的IT系统，当一处系统因...分布式集群设计、避免单点逻辑出现。幂等。异步化、松耦合、可中断、可重试。面向失败的架构设计。

故障排查与常见问题

控制台访问集群异常问题排查组件异常问题排查 ACK Serverless集群故障排查常见问题索引集群类型相关文档托管版与专有版容器集群ACK 常见问题 ACK Serverless集群常见问题分布式云容器平台ACK One 常见问题容器服务ACK发行版常见...

分区剪枝

如下可以看到，同样的 measurement 表，同样的SQL查询，但是查询条件的表达式值从静态值变成了 now()，这是一个稳定的表达式，它不能在优化阶段计算，但是可以在执行器初始阶段计算。假设今天是2023年7月，因此可以看到前两个季度分区被...

分区剪枝

如下可以看到，同样的 measurement 表，同样的SQL查询，但是查询条件的表达式值从静态值变成了 now()，这是一个稳定的表达式，它不能在优化阶段计算，但是可以在执行器初始阶段计算。假设今天是2023年7月，因此可以看到前两个季度分区被...

双向式故障排除

新品推荐