附录:消息格式

事件类型 事件描述 对应的消息实体格式(data)应用范围 dataworks:InstanceStatusChanges:InstanceStatusChanges 调度任务状态变更 消息实体格式:调度任务状态变更事件 空间级 dataworks:InstanceChange:UnfreezeInstance 解冻实例 消息...

故障止损恢复

故障初因定位 集成企业内部可利用的所有稳定性相关数据(变更事件,...通用垂直专项快恢能力:通过集成包括DB侧慢SQL限流、变更极速回滚、多活容灾切流快恢等通用的快恢能力,结合监控、日志等数据自动定位的故障原因进行对应的快恢方式推荐。

应用故障自动诊断

在EDAS中进入应用总览页面时,会按照您自定义的时间段对该应用的运行情况做一个自动诊断。...数据支持:这一部分包含了得到推测结论的数据支持,不同故障原因的诊断报告中包含的分析数据将不一样。图 1.故障诊断报告示例图-RT诊断

什么是故障

包括根因检查点(如故障原因、最近活动、注入方式、恢复方式等)、故障变更检查、监控检查,并需要对每一个故障明确责任人及团队;故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘后的故障都能对业务...

故障管理

包括根因检查点(如故障原因、最近活动、注入方式、恢复方式等)、故障变更检查、监控检查,并需要对每一个故障明确责任人及团队;故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘后的故障都能对业务...

故障复盘

复盘文档一般包含以下内容:故障简述:故障概述、影响面、处理人等 故障背景:故障发生时的业务链路 故障时间线:着重强调故障引入、故障发生、故障发现、业务响应、恢复执行、故障恢复几个时间点 故障原因分析:建议先一句话总结,再进行...

为什么消息已经过期还未被删除?

问题现象 您发送的消息在服务端保存的时间已经超过了 消息保留时长,但依然可以查询到消息。说明 消息保留时长 指在磁盘容量充足的情况下,消息的最长保留时间。默认值为72小时,取值范围为24小时~480小时。磁盘容量不足(即磁盘水位达到85...

EMR Kafka磁盘故障运维

当出现磁盘故障时,需要根据故障原因、故障影响程度、业务需求(是否接受数据丢失、是否允许服务较长时间不可用)、集群状态等综合考虑恢复采取的策略。如果业务优先保证服务可用,但允许丢失部分数据,则应考虑在可能会丢失数据的情况下,...

消息发送重试和流控机制

消息发送重试机制 重试基本概念 云消息队列 RocketMQ 版 客户端连接服务端发起消息发送请求时,可能会因为网络故障、服务异常等原因导致调用失败。为保证消息的可靠性,云消息队列 RocketMQ 版 在客户端SDK中内置请求重试逻辑,尝试通过重...

生产者(Producer)

预绑定主题列表 定义:云消息队列 RocketMQ 版 的生产者需要将消息发送到的目标主题列表,主要作用如下:事务消息(必须设置):事务消息场景下,生产者在故障、重启恢复时,需要检查事务消息的主题中是否有未提交的事务消息。避免生产者...

什么是消息演练

随着应用规模的扩大,系统变得越来越复杂,不可避免地会走向分布式化。各种中间组件会相继被引入系统,其中分布式消息服务更是系统中必不可少的一...需要注意的是演练场景仅是组件表象,其内部故障原因可能是多种多样的,需要进一步进行分析。

如何处理消息堆积

问题现象 在使用 云消息队列 RocketMQ 版 实例时收到消息堆积告警,登录 云消息队列 RocketMQ 版 控制台 后发现了下列现象:在 Group 详情 页面,看到Group ID的 实时消息堆积量 的值高于预期。导航栏中选择 消息轨迹,单击 创建查询任务,...

为什么发送给Topic的消息在分区中分布不均衡

问题现象 发送消息到某个Topic后,该Topic下部分分区消息比较多,部分分区消息少,甚至没有。分区中消息量可以在 Topic详情 页面的 分区状态 页签查看,位点数即是消息数。以下图为例,分区 2 消息比较多,其他分区消息少甚至没有,消息...

迁移上云操作

消息保存时长:最24小时。最长720小时。定时消息最大延迟时间:默认值:24小时。取值范围:不支持自定义修改。更多参数约束,请参见 配额与限制。SDK版本约束:迁移方案秉承最小变更原则,一般场景下支持客户端SDK版本直接升级,若是大...

7.数据加载

数据容器的类型 上面的例子中,我们说数据上下文是实体对象(实体1)实体对象(实体2)实体对象(实体3),但是 List 组件加载的是实体对象列表,理论上真实的数据链关系应该是实体对象(实体1)实体对象列表(实体2)实体对象(实体3)。...

消息队列Kafka版删除Group后仍然收到消息堆积的告警...

问题原因 发生消息堆积告警信息的原因如下:2.2.0以前的Kafka服务端版本,开源Kafka未提供删除Group和消费位点的OpenAPI,因此删除Group,只是从控制台逻辑删除,并不会实际删除服务端消费位点等信息。堆积告警是根据消息位点判断处理的,...

删除Group后仍然收到消息堆积的告警信息

可能原因 发生消息堆积告警信息的原因如下:2.0.0以前的Kafka服务端版本,开源Kafka未提供删除 Group 和消费位点的OpenAPI,因此删除 Group,只是从控制台逻辑删除,并不会实际删除服务端消费位点等信息。堆积告警是根据消息位点判断处理的...

消费端从服务端拉取不到消息或拉取消息缓慢

可能的原因包括消息流量达到网络带宽、单个消息大小超过网络带宽或者Consumer每次拉取的消息量超过网络带宽。问题现象 Topic中有消息并且Consumer未消费到最新的位置,出现消费端从服务端拉取不到消息或拉取消息缓慢的情况(特别是公网消费...

注意要点

mandatory 设置为true时,如果消息因为路由原因,未到达Queue,客户端添加的 ReturnListener 接口将会被调用。发送消息时,强烈建议自定义msgId,即消息的唯一标识。可用于消息查询、轨迹查询、以及故障排查时后台信息定位。消息发送时,...

客户端连接常见问题

本文介绍 云消息队列 MQTT 版 客户端连接服务端时的常见问题。使用安卓的Demo,返回连接失败报错。问题描述 资源填写正确,且网络可以连通。AK(AccessKey ID)、SK(AccessKey Secret)填写正确且已授权。可能原因 接入点格式不正确,正确...

为什么Group不存在但能消费消息

可能原因 如果客户端使用 assign 方式消费消息,那么即使不创建Group,也可能消费消息。如果客户端使用 subscribe 方式消费消息,删除Group后,消费线程未停止或者未发生Rebalance,那么消费线程还可以继续正常消费。如果 云消息队列 Kafka...

消费重试

消费者出现异常,云消息队列 RocketMQ 版 会根据消费重试策略重新投递该消息进行故障恢复。本文介绍消费重试的应用场景、原理机制、版本兼容性和使用建议。应用场景 云消息队列 RocketMQ 版 的消费重试主要解决的是业务处理逻辑失败导致的...

名词解释

消息变成死信消息的可能原因如下:requeue 参数被设置为 false,消费者使用 basic.reject 或 basic.nack 否定应答(NACK)消息消息重试次数超过16次,消息重试失败。具体信息,请参见 消息重试。消息过期,即消息在Queue中存在的时间超过...

设计方案

故障恢复 定位故障原因后,按照应急预案快速恢复业务,并在事后进行复盘总结。预案执行:在故障响应的过程中,需要按照事先制定的应急预案进行执行。应急预案包括了应急响应流程、各个岗位的职责、处理流程等。预案执行能够保证故障恢复和...

【已解决】WhatsApp 消息发送异常公告

2024 年 3 月 27 日【更新】针对影响消息发送的故障的修复程序已部署完毕,截至新加坡标准时间(SGT)2024 年 3 月 27 日上午 11:48 此问题已得到缓解。感谢您的耐心等待。WhatsApp Message Delivery Disruption Notice Due to an ...

死信Exchange

消息变成死信消息的可能原因如下:requeue 参数被设置为 false,消费者使用 basic.reject 或 basic.nack 否定应答(NACK)消息消息重试次数超过16次,消息重试失败。具体信息,请参见 消息超时和重试机制。消息过期,即消息在Queue中存在...

故障协同处理(基于钉钉)

2.故障应急场景群:事件升级故障后,群内推出 故障处理中 消息卡片,如果满足自动生成故障场景群的需求(下文详细介绍创建故障场景群逻辑),故障场景群内同时推出 故障处理中 消息卡片。本群故障消息卡片包含按钮:签到、签到记录、应急...

生产者负载均衡

异常处理 当发送某条消息发送失败时,云消息队列 RocketMQ 版 会根据失败原因决定在接下来一段时间内,选择队列目标时跳过本地失败队列所在的节点,快速实现自适应的故障隔离。策略特点 RoundRobin模式的生产者负载均衡策略仅适用于无顺序...

消息存储和清理机制

消息在队列中的存储情况如下:消息存储管理粒度说明 云消息队列 RocketMQ 版 按照服务端节点粒度管理存储时长而非队列或主题,原因如下:消息存储优势权衡:云消息队列 RocketMQ 版 基于统一的物理日志队列和轻量化逻辑队列的二级组织方式...

查看消费者状态

应用场景 消费者状态信息包括在线状态、订阅关系、消费TPS、消息堆积量和线程堆栈信息等,经常被应用于以下故障排查场景:故障场景 现象 处理建议 订阅关系不一致 在 Group 详情 页面,看到Group ID的 订阅关系 显示 订阅关系不一致,请...

配置消息监控告警实现风险预警

背景信息 云消息队列 RocketMQ 版 提供全托管的消息服务,对于每个规格的实例都有明确的 SLA保障,您购买实例后即可保证消息收发TPS、消息存储等指标达到规格规定的能力。您无需担心实例性能问题,但实际生产环境中仍需要关注实际的业务...

基本概念

消息堆积 生产者已经将消息发送到 云消息队列 RocketMQ 版 的服务端,但由于消费者的消费能力有限,未能在时间内将所有消息正确消费掉,此时在 云消息队列 RocketMQ 版 的服务端保存着未被消费的消息,该状态即消息堆积。事务消息 事务...

通过可观测性能力进行故障处理最佳实践

本文为您介绍如何将 云消息队列 RocketMQ 版 可观测性功能应用于 云消息队列 RocketMQ 版 的故障管理场景中,为您的日常运维和故障处理提供实践方案。设计思路 核心问题 运维场景下,故障处理的核心问题如下:服务出现异常如何预警并上报 ...

概述

概念介绍—消息流出(Sink)消息流出的主要能力是将消息产品的数据流出到各类数据目标,消息集成模块对消息产品的消息进行可靠分发,同时在分发时对消息数据进行清洗和过滤。概念介绍—数据处理(Transform)数据处理是消息集成的重要功能...

概述

概念介绍—消息流出(Sink)消息流出的主要能力是将消息产品的数据流出到各类数据目标,消息集成模块对消息产品的消息进行可靠分发,同时在分发时对消息数据进行清洗和过滤。概念介绍—数据处理(Transform)数据处理是消息集成的重要功能...

概述

概念介绍—消息流出(Sink)消息流出的主要能力是将消息产品的数据流出到各类数据目标,消息集成模块对消息产品的消息进行可靠分发,同时在分发时对消息数据进行清洗和过滤。概念介绍—数据处理(Transform)数据处理是消息集成的重要功能...

消费者(Consumer)

定义 消费者是 云消息队列 RocketMQ 版 中用来接收并处理消息的运行实体。消费者通常被集成在业务系统中,从 云消息队列 RocketMQ 版 服务端获取消息,并将消息转化成业务可理解的信息,供业务逻辑处理。在消息消费端,可以定义如下传输...

消息堆积和延迟问题

通过了解 云消息队列 RocketMQ 版 客户端的消费原理和消息堆积的主要原因,帮助您可以在业务部署前更好的规划资源和配置,或在运维过程中及时调整业务逻辑,避免因消息堆积和延迟影响业务运行。背景信息 消息处理流程中,如果客户端的消费...

服务等级目标SLO概述

时间内的高故障率和低故障率且持续时间较长的故障才能触发告警,避免不必要的告警分散运维人员的精力从而错过真正关键的问题。多窗口能够在计算一段时间的故障率时同时设置一个时间窗口,当时间窗口内的故障率低于阈值时结束告警。...

服务等级目标SLO概述

时间内的高故障率和低故障率且持续时间较长的故障才能触发告警,避免不必要的告警分散运维人员的精力从而错过真正关键的问题。多窗口能够在计算一段时间的故障率时同时设置一个时间窗口,当时间窗口内的故障率低于阈值时结束告警。...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
消息服务 云消息队列 RocketMQ 版 云消息队列 Kafka 版 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用