什么是通知订阅

定义 通知订阅是报警、事件、故障统一消息任务通知订阅规则入口;支持根据报警、事件、故障的优先级、影响程度等订阅条件配置差异化的通知策略;聚焦核心通知,提升问题处理效率,降低通知干扰,实现更可靠、更精准的通知送达。核心功能 ...

典型使用场景

而接合LindormStreams+Blink/Spark,可以构建出一套完整的实时数据系统:应用解耦-实时同步到消息队列 通常业务发生之后,应用系统产生的数据需要被其他应用使用或根据这个事件驱动其他应用的业务逻辑,应用之间一般通过消息队列进行消息...

故障复盘

复盘文档一般包含以下内容:故障简述:故障概述、影响面、处理人等 故障背景:故障发生时的业务链路 故障时间线:着重强调故障引入、故障发生故障发现、业务响应、恢复执行、故障恢复几个时间点 故障原因分析:建议先一句话总结,再进行...

功能概览

当主系统发生故障时,业务系统切换到容灾系统,有效避免了地域性灾害导致的系统故障,保障业务的可用性,满足业务的RTO、RPO核心指标。云盘异步复制是一种基于块存储数据复制能力实现跨地域或者跨可用区数据保护的功能。更多信息,请参见 ...

功能概览

当主系统发生故障时,业务系统切换到容灾系统,有效避免了地域性灾害导致的系统故障,保障业务的可用性,满足业务的RTO/RPO核心指标。云盘异步复制是一种基于块存储数据复制能力实现跨地域或者跨可用区数据保护的功能。更多信息,请参见 云...

故障协同处理(基于钉钉)

时间线:展示故障的时间线记录,其中有7个节点必须完善详细内容,节点已用红星标注,包含:故障发生故障发现、故障通告、业务响应、初因定位、恢复执行和故障恢复。节点记录和PC端故障时间线保持一致。复盘 按钮:故障恢复后,需进行故障...

代码逻辑场景

受影响的请求数 否 0 限制最多发生故障的请求总数,每生效一次故障计数加1,累计发生故障请求数超出设定值后,请求则不再发生故障。填写数值小于等于0时,则表示不限制。受影响的请求占比(%)否 0 限制发生故障的请求数占所有应该发生故障...

应用容灾

消息业务流量在机房内部和跨机房的异步调用方式,基于消息削峰填谷,一般有 Producer、Consumer、Broker 等角色。数据层涵盖业务应用数据读写、数据存储和数据同步,其具备流量路由、数据一致性保护、数据同步三个核心能力。云平台是支撑...

测试指标

在验证集群可靠性的同时,需根据具体情况使用压力工具模拟实际业务发生相关情况,对应用保持一定的性能压力,确保测试结果符合生产实际情况。备份和恢复 本指标为了验证系统的备份、恢复机制是否有效可靠,包括系统的备份和恢复、数据库的...

事件中心

消息通知模板 消息通知模板会作为当指定消息发生时通知给您的内容(如果通知对象为钉钉机器人Webhook,请注意在消息模板中包含创建钉钉机器人Webhook时的关键字)。在 选择联系人 页面选择联系人,然后单击 提交。如果 选择联系人 的列表中...

功能概述

功能架构 智能压测的功能架构如下图所示:源数据库:将要进行大促、将要业务变更或者已经发生故障,需要进行流量捕获的数据库。目标数据库:源数据库的克隆数据库,和源数据库拥有同样的表结构和数据,将源数据库捕获的流量回放的数据库。...

内核统一异常框架(UKFEF)

Alibaba Cloud Linux 3(内核版本 5.10.60-9.al8.x86_64 开始)增加了内核统一异常框架UKFEF(Unified Kernel Fault Event Framework),用于统计可能导致风险的系统异常事件,并以统一格式输出事件报告。本文主要介绍UKFEF所统计的事件、...

应用场景

当可用区A发生故障时会造成业务中断,因为备可用区没有ECS实例来接收请求。这样的部署方式很明显是以牺牲高可用性为代价来获取低延时。跨地域容灾 您可以在不同地域下部署 CLB 实例,并分别挂载相应地域内不同可用区的ECS。上层利用云解析...

事件中心

事件中心将云产品所生成的事件数据进行统一管理、存储、分析和展示,已接入EDAS的变更事件、ARMS的报警事件、0-1事件(如死锁、OOM和应用启动等)、MSE的微服务管控事件和K8s集群事件。当您的应用使用了相关的产品,对应的事件会自动接入...

基于Kubernetes容器集群的容灾架构与方案

备份与恢复(Backup-Restore)如上图所示,在备份与恢复模式下,系统运行时会备份应用和数据,故障或灾难发生时,系统会将备份的应用和数据在另一地点进行恢复,并切换业务流量。由于数据无法实时备份,在恢复数据时会有一定的数据丢失,...

附录:SOFAStack 产品目录

传统实现方式是在系统代码里指定任务的执行顺序,当业务发生变化时需要修改代码才可以正常工作,可维护性很差。使用 SOFAStack 任务调度中的任务编排功能,可以轻松完成任务之间的依赖调整,大大提高了可维护性,并可以直观地看到任务的...

MNS相对于自主研发、商用或开源的消息队列系统有什么...

本文介绍与自行构建系统来管理消息队列或使用商用、开源...缺省提供消息冗余存储,以便在硬件发生故障时不会丢失消息,相应的系统投入、开发、配置和部署将更为简单。无需为消息服务后期投入部署和维护的资源,只需简单配置即可用于生产环境。

概览

以及不同Group和Topic消息消费情况同样差异显著,使您难以设定一个通用的阈值适配不同业务下的消息队列监控,容易引发故障漏报或发现不及时等问题。智能阈值可以凭借自动化报警能力简化报警规则配置和维护成本,2分钟~3分钟快速发现异常,...

解决方案与客户案例

业务连续性保障 异地多活架构下各个数据中心常态承接业务流量,故障发生时只需调拨入口流量即可实现容灾切换,实现分钟级的容灾切换。同时随着参与多活建设的数据中心数量增加,参与调拨流量的比例会相应减少,未参与调拨的业务流量可以...

变更管理简介

有计划、受管控的变更操作降低故障发生率、业务连续性异常。规范变更准备及变更方案,提高变更成功率与可靠性。变更有记录,所有变更可回溯。核心功能 针对变更操作的审批管控以及所有变更记录 基础配置:支持自定义配置变更系统、变更类型...

解决方案与客户案例

业务连续性保障:异地多活架构下各个数据中心常态承接业务流量,故障发生时只需调拨入口流量即可实现容灾切换,实现分钟级的容灾切换。同时随着参与多活建设的数据中心数量增加,参与调拨流量的比例会相应减少,未参与调拨的业务流量可以...

DeviceLinkDown

DeviceLinkDown事件提示您线下机构侧动态路由邻居发生故障或者静态接入链路发生故障。告警信息 事件名称 事件级别 状态码 状态描述 DeviceLinkDown CRITICAL linkdown Device Link State Change 可能原因 用户侧交换机设备故障。用户侧交换...

基本概念

定时消息 Scheduled message,Producer 将消息发送到消息队列服务端,但并不期望这条消息立马投递,而是推迟到在当前时间点之后的某一个时间投递到 Consumer 进行消费,该消息即定时消息。详情请参见 消息类型>定时和延时消息。地址配置...

性能监控最佳实践

通过将多个性能监控工具整合在一起,形成一个统一的监控平台,可以提高监控效率、监控精度、故障排查效率和可视化程度,从而帮助企业更好地了解其业务系统的运行情况,提高业务系统的稳定性和可靠性。建设一体化性能监控平台步骤 一体化...

日志管理

如果发生故障,您可以下载日志或提供日志上传路径给阿里云工程师定位问题。下载日志 在浏览器中,输入 https://<块网关IP地址>访问本地块网关控制台。输入用户名和密码,单击 确认。单击 关于,进入 关于系统 页面。找到 日志信息 区域,...

日志管理

如果发生故障,您可以下载日志或提供日志上传路径给阿里云工程师定位问题。下载日志 在浏览器中,输入 https://<文件网关IP地址>访问本地文件网关控制台。输入用户名和密码,单击 确认。单击 关于,进入 关于系统 页面。找到 日志信息 区域...

基本概念

RPO Recovery Point Objective(数据恢复点目标),指应用发生故障时预期的数据丢失量。例如,RPO=15 分钟,表示在应用发生故障时,最近 15 分钟的数据无法在云上恢复。RTO Recovery Time Objective(恢复时间目标),指故障发生时,在云...

JVM注入动态脚本

受影响的请求数 否 0 限制最多发生故障的请求总数,每生效一次故障计数加1,累计发生故障请求数超出设定值后,请求则不再发生故障。填写数值小于等于0时,则表示不限制。受影响的请求占比(%)否 0 限制发生故障的请求数占所有应该发生故障...

替换主机

当主机发生故障后,如果您创建 专属集群MyBase 时 主机故障处理策略 选择的是 手动替换主机,则您可以通过手动替换主机来解除故障。前提条件 专属集群MyBase 引擎的为MySQL,且主机存储类型为本地SSD盘。背景信息 当主机发生故障时,系统会...

自动/手动主备切换

当系统发生故障时,PolarDB 集群会自动进行主备切换。您也可以手动进行主备切换,指定一个只读节点为新的主节点。注意事项 不论是自动切换还是手动切换,切换过程中,都可能会出现30秒左右的闪断,因此切换前请务必确保应用具备重连机制。...

自动/手动主备切换

当系统发生故障时,PolarDB 集群会自动进行主备切换。您也可以手动进行主备切换,指定一个只读节点为新的主节点。注意事项 不论是自动切换还是手动切换,切换过程中,都可能会出现30秒左右的闪断,因此切换前请务必确保应用具备重连机制。...

光模块故障

本文介绍光模块发生故障的原因和处理方法。问题现象 光模块连接后,接口指示灯没有变为绿色。可能原因 光模块不兼容或损坏。智能接入网关设备支持的光模块型号请参见 光模块型号。说明 目前仅SAG-1000设备支持光模块插入。解决方案 通用多...

容灾管理服务介绍

针对有高可用需求的用户,CADT容灾管理服务提供规划、优化、部署、演练高可用业务的能力,在业务上线前及业务上线后定期进行容灾演练,验证系统是否能够抵御资源故障或者AZ故障,保障系统健壮性。主要功能 容灾规划 在用户部署资源前,通过...

概述

分布式系统将计算任务和数据分布在多个节点上以实现更高的性能、可靠性和可扩展性,当一个节点发生故障或错误时,其他节点可以继续工作,相比于单机系统,架构本身就有较高的节点容错性。但随着服务拆分,更多组件的引入,分布式系统的复杂...

发现并处理大Key和热Key

业务发生变化时,您仅需通过变配的方式调整实例架构来轻松应对,例如将主从架构转变为读写分离架构、将读写分构架构转变为集群架构,更多信息,请参见 变更实例配置。说明 读写分离架构同样存在缺点,在请求量极大的场景下,读写分离架构...

AI助手使用说明

安装AI助手并开启PAI的作业监控和恢复功能后,当训练任务发生故障或异常时,能自动上报故障信息、隔离问题节点,无需人工干预即可快速恢复任务。本文为您介绍AI助手的具体配置方法。前提条件 已创建带有ACK灵骏托管版的集群。具体操作,请...

如何通过 mPaaS 框架解决 App 线上问题

如果真的在线上发生故障,开发者就可以通过服务器推送开关,及时将故障代码关闭。这种推拉结合的方式,即时到达率 100%。发布 H5 离线包更新如果某些故障是发生在离线包内,在定位到问题后,可以直接通过实时发布控制台发布新的版本即可。...

通过异步复制功能实现容灾恢复

当您创建并启动云盘异步复制关系后,如果主盘发生故障,您可以通过异步复制功能对主盘进行容灾恢复。本文主要介绍如何进行容灾恢复操作。前提条件 反向复制前,请确保源云盘(主盘)已经从对应的ECS实例上卸载,即主盘处于未挂载状态。具体...

产品简介

事件中心 统一的报警、事件、故障任务流转处理 事件中心是统一的任务流转中心,统一管理整个企业业务系统运行过程中的所有报警、事件、故障。管理系统历史的所有报警记录、报警消息及时通知订阅对象,帮助企业实时发现问题,规避风险;管理...

什么是全球多活数据库集群

应用场景 异地容灾 当一个数据中心发生故障,只需做流量切换,其他数据中心即可正常运行并接管关键业务或全部业务。灾备资源充分利用 集群中所有灾备节点均对外提供读写服务,避免造成服务器资源浪费。业务系统多地域部署 业务系统部署全球...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云数据库 Redis 版 云服务器 ECS 数字证书管理服务(原SSL证书) 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用