故障协同处理(基于钉钉)

时间线:展示故障的时间线记录,其中有7个节点必须完善详细内容,节点已用红星标注,包含:故障发生故障发现、故障通告、业务响应、初因定位、恢复执行和故障恢复。节点记录和PC端故障时间线保持一致。复盘 按钮:故障恢复后,需进行故障...

如何管理故障

更新故障通知:在故障处理的过程中,当故障进展发生变化,包括进度更新、影响恶化、故障等级变化、原因明确、根因定位等场景下,可更新故障过程中的内容,并在 故障详情 页点击更新故障通知,选择需要的故障通告类型,并最终确认发出故障...

故障应急协同

故障通告及更新 基于7x24监控值班工作特性,对于业务异常达到故障等级时,以用户定制的(语音、短信、IM)的方式在约定时间内将故障影响信息以及处理进展通知给对应的接收人/组,并持续更新直至故障结束。故障应急协同群 故障发生后,可以...

应用场景

以此,降低产品使用过程中故障发生概率,提高故障恢复效率,进而实现产品高可用性的有效提升。机房级容灾 同城双活 同一个城市,建设两个机房环境,两地距离 50 km 以内,万兆光纤专线互连,业务应用层面可以两个机房同时提供业务服务,当...

诊断决策树

对于已知的明确故障,可以根据诊断现象,编排诊断决策树,进而故障发生时执行,完成故障定位。对于未知的故障,您可以依据运维经验,编排出常见的排查路径,辅助快速故障定位。新建诊断决策树 登录高可用管理控制台。在左侧导航栏上,单击 ...

诊断规则

而后,在实际故障发生时,即可执行自动化、标准化的故障排查,并直接输出诊断报告,反馈诊断结果。故障诊断功能有效提升了故障排查效率,实现故障的快速定位与处理。本节将向您介绍诊断规则的相关操作。诊断规则是诊断节点的构成,诊断规则...

什么是消息演练

单个或多个模块都可能会有不同类型的故障发生,导致模块不能正常运行,例如Producer无法发送消息,这种场景叫做消息的演练场景。需要注意的是演练场景仅是组件表象,其内部故障原因可能是多种多样的,需要进一步进行分析。

云数据库RDS MySQL版主实例与只读实例之间存在复制...

解决方案 不同的问题原因对应的解决方案不同,请您先通过SQL洞察功能对故障发生时的所有SQL语句进行审计,检查是否存在上述几种情况。说明:更多有关SQL洞察的信息,例如如何开通SQL洞察以及如何使用SQL洞察,请参见 SQL洞察。如果存在上述...

PolarDB MySQL版8.0.1版本发布日志

修复RO节点的物理机出现故障时,RW节点在特殊情况下未将其复制关系中断,而引发RW节点刷脏受阻的问题。修复HA后,因表数量过多而引发table cache淘汰导致Autoinc回退的问题。修复多主集群缓存中心重启情况下,读写节点可能无法启动的问题。...

错误和消息

当BEGIN块发生异常时,子事务将会被回滚,然后重新开一个子事务继续执行EXCEPTION块里的语句。如果EXCEPTION块的语句正常执行,那么该事务可以被正常提交,如下所示:准备测试表 CREATE TABLE test(id INT);BEGIN 块抛出异常,EXCEPTION 块...

PolarDB MySQL版8.0.2版本发布日志

修复了当已创建DLM策略的表的表结构发生变更后,DLM策略仍能生效的问题。修复在分区表上执行 INSERT INTO ON DUPLICATE VALUE 命令时报错 Can't find record on的问题。修复在含有自增列的分区表上执行 TRUNCATE PARTITION 命令时小概率...

Dataphin如何理解管道集成任务中加载策略中的"覆盖...

研发,集成,管道任务 概述 本文为您介绍Dataphin管道集成任务中目标库的加载策略的机制是怎样的 问题描述 请教个问题,加载策略选”覆盖数据“的情况下,现在测试的结果是覆盖不了数据,必须还需要填写准备语句才能覆盖得了,这是为什么呢...

HINT语法使用说明

例如/*force_proxy_internal*/set force_node='pi-bpxxxxxxxx',执行该命令后,后续所有查询命令只发往 pi-bpxxxxxxxx 节点,如果该节点发生故障,则返回报错 set force node 'rr-bpxxxxx' is not found,please check.当开启列存和行存...

故障处理流程

当智能接入网关设备发生网络故障后,您可以先观察现象、收集信息,然后对现象和信息进行分析诊断,尝试修复问题。本文为您介绍智能接入网关设备故障处理流程。SAG-100WM故障处理流程说明 通过SAG-100WM访问阿里云,发现故障,请参见以下...

概述

使用列存索引(IMCI)查询复杂的SQL语句时,需要列存索引覆盖SQL语句中使用到的所有列。PolarDB MySQL版 内置了一系列存储过程,您可以使用这些存储过程获取SQL语句中未被索引覆盖的列名,同时可以获取创建列存索引的DDL语句。本文介绍了 ...

应用故障自动诊断

如果发现问题,则会在应用总览页面上方闪现一个红色盾牌图标,单击该图标即可弹出故障诊断报告,故障报告上的故障定界和根因分析可以帮助您更好地发现和解决问题。常见的故障自动诊断场景 RT突增 下游业务导致的本应用的RT突增,您可以联系...

使用Hint语法

执行该命令后,后续所有命令只发往rr-bpxxxxx实例,如果这个实例发生故障,则返回报错 set force node 'rr-bpxxxxx' is not found,please check.说明 通常不建议使用/*force_proxy_internal*/语法,会导致后续所有请求都发往该实例,读写...

演练场景

故障演练是业务系统上线前必要的演练环节,旨在对应急预案的可行性,进一步完成应急预案,从而帮助提升产品、集群、机房的稳定性,减少故障发生,提高故障应急效率,进而提升产品竞争力。一个完整的故障演练过程为 创建故障原子服务>创建...

什么是故障

本文主要介绍什么是故障。定义 在日常运营中,无论什么原因导致业务服务中断、服务品质...故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘后的故障都能对业务连续性形成改进,避免历史同类故障重复发生

如何快速定位及解决数据库问题

本文介绍了数据库发生故障时的快速判断方法和解决办法。如何定位系统瓶颈是否在数据库上 通过Processlist来判断 执行以下语句,显示 PolarDB-X 上所有正在执行的SQL语句。SHOW PROCESSLIST WHERE INFO IS NOT NULL 一般情况下,语句堆积会...

如何配置流转规则

选择 触发故障 需要配置故障影响服务、故障等级覆盖。配置完成之后点击 提交即可。仅触发报警:确定 报警触发规则:设置触发的持续时长和次数对报警进行收敛降噪;如,某个规则在持续5分钟内触发3次才会触发报警,只要将时长和次数分别设置...

功能特性

此外,在数据库实例发生故障且无法定位原因时,可以利用克隆库复现故障场景,以便更好地定位故障原因。智能压测 搜索分析 查询并导出SQL语句对应的日志信息。搜索 SQL洞察 SQL洞察聚类分析,用作深度异常的排查。SQL洞察 安全审计 内置了...

什么是故障演练

适用场景 故障演练可适用于以下典型场景:衡量微服务的容错能力 通过模拟调用延迟、服务不可用、机器资源满载等,查看发生故障的节点或实例是否被自动隔离、下线,流量调度是否正确,预案是否有效,同时观察系统整体的QPS或RT是否受影响。...

故障基础数据管理

P2 10分钟内总体成功率下跌30%~45%P3 10分钟内总体成功率下跌30%以下 P4 故障场景监控覆盖 基于故障等级定义场景,配置对应的监控项接入7*24监控值班,同时对接入的监控数据额外提供基于算法的智能告警,或者接入研发可自闭环的风险预警,...

通过异步复制功能实现容灾恢复

当您创建并启动云盘异步复制关系后,如果主盘发生故障,您可以通过异步复制功能对主盘进行容灾恢复。本文主要介绍如何进行容灾恢复操作。前提条件 反向复制前,请确保源云盘(主盘)已经从对应的ECS实例上卸载,即主盘处于未挂载状态。具体...

读写分离简介

以此确保单个只读实例发生故障时,不会影响应用的正常访问。当实例被修复后,MyBase MySQL会自动将该实例纳回请求分配体系内。请求转发逻辑 只发往主实例 INSERT、UPDATE、DELETE、SELECT FOR UPDATE。所有DDL操作(建表/库、删表/库、变更...

通过一致性复制组实现容灾恢复

当生产站点发生故障时,将开启读写权限的容灾站点中云盘挂载到临时创建的ECS实例上继续运行业务,直到生产站点故障修复完成。警告 故障切换功能会暂停异步复制功能,您需要确保您的生产站点发生故障时再使用故障切换功能,避免数据丢失。...

读写分离

以此确保单个只读节点发生故障时,不会影响应用的正常访问。当节点被修复后,该节点会自动被加入请求分配体系内。功能限制 暂不支持如下命令或功能:不支持Replication-mode方式进行建连,即不支持通过读写分离地址自行搭建主备复制集群。...

读写分离

以此确保单个只读节点发生故障时,不会影响应用的正常访问。当节点被修复后,该节点会自动被加入请求分配体系内。功能限制 暂不支持如下命令或功能:不支持Replication-mode方式进行建连,即不支持通过读写分离地址自行搭建主备复制集群。...

什么是读写分离

以此确保单个只读实例发生故障时,不会影响应用的正常访问。当实例被修复后,RDS会自动将该实例纳回请求分配体系内。说明 为避免单点故障,建议您为一个主实例创建至少两个只读实例。请求转发逻辑 只发往主实例 INSERT、UPDATE、DELETE、...

多可用区部署

当主实例1发生故障或者可用区A不可用时,用户将访问的连接切换至备实例2或者可用区B,从而实现高可用,主备容灾的高可用架构图如下所示。主备容灾的方案虽然能够满足大部分用户的高可用需求,但是这种主备容灾方案并不适用所有的业务,存在...

资源栈策略

您只能指定 Deny 或 Allow,例如:Effect:Deny 说明 如果资源栈策略包含重叠语句(同时允许和拒绝对资源进行更新),则 Deny 语句始终将覆盖 Allow 语句。要确保某一资源受到保护,请对该资源使用 Deny 语句。Action 拒绝或允许的更新操作...

组复制简介

数据 强 一致性 在组复制中,事务总是先传输到集群中其他节点,然后写入Binlog文件,这保证无论主节点在什么时刻发生故障,重新启动后数据都不会比集群选出的新主节点多。旧主节点故障重启后,能够自动加回集群,拉取它缺失的Binlog,就...

同城多活架构实践

在杭州单元格B的商品应用发生故障的情况下,可使用MSHA切流功能将流量全部切换到另外的单元格,进行快速业务恢复(这里区别于传统的思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦)。容灾切换...

MySQL数据源

Binlog至少保留72小时以上,避免任务失败后因Binlog已经消失,再启动无法重置位点到故障发生前而导致的数据丢失(此时只能使用全量离线同步来补齐数据)。检查Binlog是否开启。使用如下语句检查Binlog是否开启。SHOW variables like"log_...

故障管理

结合阿里集团创新性的“风险预警”,从“隐患”就开始管理,同时覆盖造成一定影响导致性能下降的普通故障,以及严重影响业务的“重大故障”。此外,考虑到互联网企业的一些特性,如企业存在大量对快速响应要求极高的场景,内部多运用和实践...

设计原则

面向风险的应急快恢原则 在一些场景下,即使设计了各种技术手段去提高系统的冗余、保持业务的高可用,但还是避免不了生产系统故障发生,所以需要面对故障建立一个高效的故障应急流程机制和稳定的技术平台,实现故障风险实时发现、应急...

数据库代理常见问题

数据库代理采用双主节点的高可用架构,流量连接按照1:1比例分发到两个节点当中,如果其中一个节点发生故障,将由另一个节点承担全部流量,并会自动触发故障节点重搭恢复任务,以确保数据库服务的高可用性。代理个数和代理规格是什么关系?...

围绕混沌工程的平台实践

因此混沌工程是一门学科,它提供了基本的理论指导,而故障演练是混沌工程的具体实践,通过向目标系统注入真实可能发生故障来考量系统的稳定性。混沌工程和AHAS Chaos AHAS Chaos是以混沌工程为理论指导的故障演练平台,目标是成为混沌...

SQL洞察和审计

当您在安全合规审计、性能分析、故障排除等场景下需要监控和管理RDS MySQL实例中执行的SQL语句时,可以利用SQL洞察和审计功能对SQL语句的执行情况进行记录和聚合分析。开启该功能后会自动记录来自数据库内核的SQL语句,以及SQL语句的执行...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
共享流量包 云消息队列 RocketMQ 版 短信服务 负载均衡 弹性公网IP 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用