重言式故障原因-重言式故障原因文档介绍内容-阿里云

数据库代理常见问题

数据库代理采用双主节点的高可用架构，流量连接按照1:1比例分发到两个节点当中，如果其中一个节点发生故障，将由另一个节点承担全部流量，并会自动触发故障节点重搭恢复任务，以确保数据库服务的高可用性。数据库代理的性能会随着代理连接...

2019年

分布式任务，根任务失败，无法看到失败原因。并行任务子任务列表不能重试子任务。无 1.0.6-compatible，2019-07-02 变更类型功能描述相关文档优化兼容 schedulerx1.0(DTS)接口的兼容版本。不支持同时依赖 schedulerx-client 和 ...

Redis客户端重连指南

引发暂时性故障的原因原因说明故障触发了高可用机制云数据库Redis支持节点健康状态监测，当监测到实例中的主节点不可用时，会自动触发主备切换，例如将主节点和从节点进行互换，保障实例的高可用性。此时，客户端可能会遇到下列暂时性...

Tair客户端重连指南

引发暂时性故障的原因原因说明故障触发了高可用机制云原生内存数据库Tair 支持节点健康状态监测，当监测到实例中的主节点不可用时，会自动触发主备切换，例如将主节点和从节点进行互换，保障实例的高可用性。此时，客户端可能会遇到...

应用场景

故障恢复通过ASM，可以轻松实现开箱即用的故障恢复功能：分布式系统存在高度复杂性，在基础设施、应用逻辑、运维流程等环节都可能存在稳定性风险导致业务系统的失效。提供了基于Istio的混沌工程能力，包括如何使用连接池配置和异常检测...

历史记录

分布式任务，根任务失败，无法看到失败原因。并行任务子任务列表不能重试子任务。1.0.6-compatible，2019-07-02 优化：兼容 schedulerx1.0(DTS)接口的兼容版本。不支持同时依赖 schedulerx-client 和 schedulerx-worker 两个包，只能依赖 ...

常见问题

RPC Tracer 打印不出 rpc-client-digest.log 应用正常运行却无法在控制台被展示现象如题原因分布式链路跟踪服务底层依赖于日志服务进行应用日志信息的收集，日志服务未开通或未按照日志采集客户端均可导致跟踪信息无法显示。...

什么是消息演练

随着应用规模的扩大，系统变得越来越复杂，不可避免地会走向分布式化。各种中间组件会相继被引入系统，其中分布式消息服务更是系统中必不可少的一...需要注意的是演练场景仅是组件表象，其内部故障原因可能是多种多样的，需要进一步进行分析。

故障演练

故障隶属于单机或是分布式系统之一，分布式故障包含单机故障。对于单机或同机型的故障，以系统为视角，故障可能是当前进程内的故障，比如：如FullGC，CPU飙高；进程外的故障，比如其他进程突然抢占了内存，导致当前系统异常等。对于大多数...

设计方案

故障恢复定位故障原因后，按照应急预案快速恢复业务，并在事后进行复盘总结。预案执行：在故障响应的过程中，需要按照事先制定的应急预案进行执行。应急预案包括了应急响应流程、各个岗位的职责、处理流程等。预案执行能够保证故障恢复和...

任务触发与执行问题

问题原因仅当任务处于“启用”状态时重试策略才会生效，“禁用”时执行失败不会进行重试。解决方案登录任务调度控制台。单击任务配置，然后在任务列表中启用该任务。任务触发时间间隔过短问题现象出现 the interval for tasks of ...

NVMe协议介绍

NVMe共享盘可以帮助应用实现高可用、高并发、可扩展的业务，可以帮助基于传统SAN的业务无缝上云，共享盘常见的应用场景包括数据共享、高可用故障转移、分布式缓存加速、机器模型训练等。数据共享 NVMe最简单的应用场景为数据共享，当数据被...

使用ASM构建分布式系统的容错能力

本文介绍如何通过ASM设置超时、重试、隔板和熔断机制构建分布式系统的容错能力。背景信息容错能力是指系统在部分故障期间，仍然能够继续运行的能力。创建一个可靠的弹性系统会对其中的所有服务提出容错要求。云环境的动态性质要求服务能...

使用ASM构建分布式系统的容错能力

本文介绍如何通过ASM设置超时、重试、隔板和熔断机制构建分布式系统的容错能力。背景信息容错能力是指系统在部分故障期间，仍然能够继续运行的能力。创建一个可靠的弹性系统会对其中的所有服务提出容错要求。云环境的动态性质要求服务能...

消息发送重试和流控机制

消息发送重试机制重试基本概念云消息队列 RocketMQ 版客户端连接服务端发起消息发送请求时，可能会因为网络故障、服务异常等原因导致调用失败。为保证消息的可靠性，云消息队列 RocketMQ 版在客户端SDK中内置请求重试逻辑，尝试通过重...

设置Pod故障处理策略

配置说明在虚拟节点上创建ECI Pod时，可能会因为库存不足等原因导致Pod创建失败，默认情况下，系统会自动进行重调度，尝试重新创建Pod。您可以通过添加 k8s.aliyun.com/eci-fail-strategy 的Annotation来修改Pod故障处理策略，设置Pod创建...

附录：强制重跑下游

强制重跑下游原因输入需要进行强制重跑下游的原因。单击确定，系统将根据您的设置，将选中节点的状态全部置为未运行，并重新开始调度。场景示例场景描述：假设对A节点发起强制重跑下游的操作，选择重跑A工作空间，不重跑B工作空间的节点...

单实例快速恢复

当出现1分钟容器响应超时（可能是内存溢出、硬件故障、软件Bug等原因导致），Resource Manager会自动拉起新的计算节点，并迁移数据分片（Shard）职责到新的节点上（例如Worker Node3响应超时，Resource Manager拉起Worker Node4取代Worker ...

监控、诊断和故障排除

客户端请求出现多次重试，如果遇到这种情况，需要根据重试信息具体调查重试的原因再解决。可以通过下面方式确定客户端是否出现重试：检查客户端日志，详细日志记录会指示重试已发生过。以OSS的Java SDK为例，可以搜索如下日志提示，warn...

EDAS直播公告

企业级分布式应用服务EDAS 3.0重磅发布安利的企业微服务架构转型之路云途时代数字化转型实践 EDAS 3.0核心功能演示 2020-05-15 微服务治理实践之金丝雀发布应用的有些故障是因为发布直接或间接引起的，因此提升发布的质量，减少错误的...

本地盘最佳实践

但云盘采用分布式三副本机制，能防止意外硬件故障导致的数据不可用。如果应用没有多节点数据冗余架构，强烈建议您选择云盘。最佳实践选型对于大数据、重型数据库应用，带本地盘的实例（例如i2、d1等）在成本、存储访问时延上有着较大的...

同城容灾架构概述

非机房级故障（某个机房的单产品故障，例如其中一个机房的ECS服务器损坏），可以通过对单产品的灾备设计来保障发生故障时系统及时切换。应用设计相关参考标准应用设计相关参考标准如下：无状态化。分布式集群设计、避免单点逻辑出现。幂等...

主从实例读写分离部署（共享存储）

当出现1分钟容器响应超时（可能是内存溢出、硬件故障、软件Bug等原因导致），Resource Manager会自动拉起新的计算节点，并迁移Shard职责到新的节点上（例如Worker Node3响应超时，Resource Manager拉起Worker Node4取代Worker Node3），...

应用场景

此场景方案支持异构环境，也使得用户能以低成本、开放式平台分担昂贵库或遗留库的压力。同时可以集中/合并多个应用的数据，从而实现统一查询/统一报表。场景四：异地容灾由于地区断电、断网等客观原因，产品可用性并不能达到 100%。当出现...

网站耗资源（客户程序故障）常见问题

网站耗资源（客户程序故障）对站点运行影响较重时，会使云虚拟主机宕机，云虚拟主机上的所有网站无法访问。处理方法：关闭整个站点。重要云虚拟主机每月为您提供至多三次因耗资源导致站点关停后重启站点的机会，如果本月重启站点超过三次...

重开任务单

OrderId String 是 E21111796147LE 任务单EID ResetContent String 否重开补充说明原因重开说明 OpenGroupId String 否 cidXcezGVQJjiWy2PzXylGwvg=场景群ID ResetType String 否枚举值：6:解决方案无效；7:当前问题仍有疑问需要咨询；8...

产品相关问题

任务监控：支持实时查看任务的执行状态及执行进度，执行时长，执行的客户端 IP、执行是否成功、执行失败原因等信息。更多信息，请参见任务调度概述。任务调度适用于什么场景？解决大规模分布式任务统一调度的问题，助力企业能够更加迅速地...

产品功能

子任务失败自动重试如果是分布式任务（分片模型或MapReduce模型），子任务也支持失败自动重试和重试间隔，同样支持通过任务管理的高级配置进行配置。多种流控手段实例并发数任务级别流控，表示一个任务同时最多运行多少个实例，默认为1...

错误码说明

表达式名由数字、26个英文字母或下划线组成，长度不超过30位 2105 表达式名称没有设定 2106 新表达式名称没有设定 2107 表达式备注不超过300字 2108 表达式备注格式错误 2109 表达式格式错误 2110 表达式长度超过限制 2111 表达式ID未指定 ...

错误码说明

表达式名由数字、26个英文字母或下划线组成，长度不超过30位 2105 表达式名称没有设定 2106 新表达式名称没有设定 2107 表达式备注不超过300字 2108 表达式备注格式错误 2109 表达式格式错误 2110 表达式长度超过限制 2111 表达式ID未指定 ...

混合云应用双活容灾最佳实践

容灾切换数据质量保障难容灾切换过程中，可能因数据同步延迟导致读到旧数据，以及切换规则推送到分布式应用节点时间不一致等原因可能造成云上云下数据库同时读写而出现脏写的问题，整个切换过程数据质量保障是关键点及难点。无业务代码...

采集客户端数据的高可用方案

但是在一些相对极端的场景下，单集群可能由于一些预期外原因存在故障停服风险。针对该单集群故障风险，日志服务提供两种异地多活的客户端数据采集方案。方案比较对比项方案1：双写方案2：数据加工复制+写入切换部署复杂度低需要额外...

消费重试

消费者出现异常，云消息队列 RocketMQ 版会根据消费重试策略重新投递该消息进行故障恢复。本文介绍消费重试的应用场景、原理机制、版本兼容性和使用建议。应用场景云消息队列 RocketMQ 版的消费重试主要解决的是业务处理逻辑失败导致的...

TSDBConfig.Builder

对于多值数据而言，去重标准精确到field。如果上报的一个MultiFieldPoint对象中有一个field满足上述去重条件，其余field不满足。则只有满足条件的field会参与到去重逻辑的判定中，其余field不会被执行去重逻辑。httpConnectionLiveTime ...

功能特性

服务高可用支持客户端限流、集群容错（失败重试）、服务熔断（故障剔除）、故障注入、服务降级等保障服务高可用。服务安全支持 CRC 校验，调用加解密，黑白名单等保障服务的安全。服务的监控支持 Metrics 2.0 规范的日志埋点，支持成功率、...

功能特性

服务高可用支持客户端限流，集群容错（失败重试），服务熔断（故障剔除），故障注入，服务降级等保障服务高可用。服务安全支持 CRC 校验，调用加解密，黑白名单等保障服务的安全。服务的监控支持 Metrics 2.0 规范的日志埋点，支持成功...

产品功能

子任务失败自动重试如果是分布式任务（分片模型或MapReduce模型），子任务也支持失败自动重试和重试间隔，同样支持通过任务管理的高级配置进行配置。多种流控手段实例并发数任务级别流控，表示一个任务同时最多运行多少个实例，默认为1...

常见问题旧版索引

排查故障的经典步骤与常见原因如何通过查看日志排查故障？产品FAQ 授权管理FAQ 集群管理FAQ 节点与节点池FAQ 容器网络FAQ Service FAQ Ingress FAQ DNS FAQ 应用FAQ 存储FAQ-CSI 存储FAQ-Flexvolume 容器安全FAQ 为什么可观测监控 ...

基本概念

发起方 Initiator，分布式事务的发起方负责启动分布式事务，通过调用参与者的服务，将参与者纳入到分布式事务当中，并决定整个分布式事务是提交还是回滚。一个分布式事务有且只能有一个发起方。分组标识用于在网关上做全局的唯一标识，...

BITMAP精准去重

传统数据仓库中的Bitmap去重功能，对亿级别以上Bitmap大基数的交并集计算性能较差，有两个主要原因：一是当Bitmap基数较大（超过1GB）时，网络和磁盘IO处理时间比较长；二是集群在扫描数据后，会全部传输到顶层节点进行并集运算，给顶层单...

重言式故障原因

新品推荐