安装故障演练探针

背景信息 一次完整的故障演练包括以下四个阶段:安装探针>创建演练>执行演练>停止演练 操作步骤 登录 AHAS控制台。在左侧导航栏选择 探针管理,在 探针管理 页面,选择 探针安装>故障演练探针。在 安装探针 页面选择安装探针的环境,具体...

故障演练常见问题

故障不生效的原因较多,可能是参数配置不正确或无对应的请求命中,但故障规则已成功下发,故需要计费。刚刚购买的资源包为什么会被扣减次数?因为购买前已产生欠费,购买资源包后会先扣减所欠的次数。子账号的消费是否独立计费?不是,与主...

执行演练

在执行故障演练过程中,您可以实时查看演练进度、每个演练活动的运行状态及结果,同时也能够随时结束演练,进行恢复阶段的活动,清除故障演练影响。背景信息 一次完整的故障演练包括以下四个阶段:安装故障演练探针 创建演练 执行演练 停止...

运维事件中心的审计事件

操作审计支持将管控事件投递到日志服务SLS的LogStore或对象存储OSS的存储空间中,满足实时审计、问题回溯分析等需求。操作审计记录了用户通过OpenAPI或控制台等方式操作云资源时产生的管控事件,运维事件中心支持在操作审计中查询的事件...

停止演练

背景信息 一次完整的故障演练包括以下四个阶段:安装故障演练探针 创建演练 执行演练 停止演练 自动停止 在创建演练过程中需设置自动恢复时间和保护策略,起到自动停止演练的作用。具体步骤,请参见 创建演练。当演练时长超过设置的自动...

功能更新记录

本文介绍故障演练Chaos历次发布涉及的功能变更,帮助您了解故障演练的发布动态。2021年10月 功能名称 功能概述 支持资源包类型 支持地域 发布时间 微服务强弱依赖支持Dubbo 在应用强弱依赖治理的基础上,微服务强弱依赖治理功能,通过接入...

网络资源

网络闪断故障可能由多种原因引起,如网络设备故障、电力波动、通信线路故障等。网络闪断会导致数据传输中断,影响系统和应用程序之间的数据传输,频繁的网络闪断可能导致系统或应用程序无法正常运行。常使用的容错策略如下:设备冗余:使用...

应用场景

背景信息 设备将原始数据通过 MQTT 协议发送到物联网平台,经由物联网平台将数据转发到消息服务系统,继而通过流计算系统对这些数据进行实时计算处理后写入到 TSDB 中存储,或者经由物联网平台直接将原始数据写入 TSDB 中存储。前端的监控...

逻辑复制槽故障转移(Logical Replication Slot ...

PolarDB PostgreSQL版(兼容Oracle)的逻辑复制槽故障转移(Logical Replication Slot Failover)功能可以将所有的逻辑复制槽从主实例同步到备实例,从而实现逻辑复制槽的故障转移。背景信息 在主实例创建的Replication Slot,不会通过流...

逻辑复制槽故障转移(Logical Replication Slot ...

PolarDB PostgreSQL版(兼容Oracle)的逻辑复制槽故障转移(Logical Replication Slot Failover)功能可以将所有的逻辑复制槽从主实例同步到备实例,从而实现逻辑复制槽的故障转移。背景信息 在主实例创建的Replication Slot,不会通过流...

功能概览

主要能力 ECS容灾的主要能力包含如下几项:应用数据实时复制:ECS容灾能够实时监测和抓取操作系统磁盘和ECS云盘中的数据变化并发送至容灾站点,实现数据的实时保护,RPO达到秒-分级。应用在异地快速恢复:应用可以在另一个地域或另一个可用...

运维服务内容说明

因客户自身原因导致的问题故障,不属于阿里云运维服务范围。如客户有不定期现场服务需求,可按天购买运维专家现场服务。运维服务专家可帮助客户进行疑难问题现场处理,故障现场救援,变更现场保障、现场运维培训等服务。运维专家现场服务需...

单实例快速恢复

当出现1分钟容器响应超时(可能是内存溢出、硬件故障、软件Bug等原因导致),Resource Manager会自动拉起新的计算节点,并迁移数据分片(Shard)职责到新的节点上(例如Worker Node3响应超时,Resource Manager拉起Worker Node4取代Worker ...

功能特性

此外,在数据库实例发生故障且无法定位原因时,可以利用克隆库复现故障场景,以便更好地定位故障原因。智能压测 搜索分析 查询并导出SQL语句对应的日志信息。搜索 SQL洞察 SQL洞察聚类分析,用作深度异常的排查。SQL洞察 安全审计 内置了...

主从实例读写分离部署(共享存储)

当出现1分钟容器响应超时(可能是内存溢出、硬件故障、软件Bug等原因导致),Resource Manager会自动拉起新的计算节点,并迁移Shard职责到新的节点上(例如Worker Node3响应超时,Resource Manager拉起Worker Node4取代Worker Node3),...

容灾恢复

集群中通常一个服务有多个服务提供者,其中部分服务提供者可能由于网络、配置、长时间 fullgc、线程池满、硬件故障等导致长连接还存活但是程序已经无法正常响应。单机故障剔除功能会将这部分异常的服务提供...更多信息,请参见 自动故障剔除。

监控服务概览

OSS监控指标的实时性(除了计量指标)是按照分钟粒度采集聚合的,输出延时不超过1分钟,即每分钟内的用户信息都会聚合成一个值,并在一分钟内输出,代表这一分钟的监控情况。计量指标相关说明 为了保持和计费策略的统一,计量指标的收集和...

DescribeFailoverTestJob-查询高速通道故障演练任务...

调用DescribeFailoverTestJob接口查询高速通道故障演练任务详情。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。调试 授权信息 当前API暂无授权信息透出。...

DescribeFailoverTestJob-查询高速通道故障演练任务...

调用DescribeFailoverTestJob接口查询高速通道故障演练任务详情。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。调试 授权信息 当前API暂无授权信息透出。...

UpdateFailoverTestJob-更新高速通道故障演练任务

调用UpdateFailoverTestJob接口更新高速通道故障演练任务。接口说明 只支持更新处于 待演练状态的故障演练任务。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码...

UpdateFailoverTestJob-更新高速通道故障演练任务

调用UpdateFailoverTestJob接口更新高速通道故障演练任务。接口说明 只支持更新处于 待演练状态的故障演练任务。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码...

CreateFailoverTestJob-创建高速通道故障演练任务

调用CreateFailoverTestJob接口创建高速通道故障演练任务。接口说明 以下场景不支持创建故障演练任务:当前地域您已经有正在演练的故障演练任务,且本次创建故障演练任务的任务类型为立即开始。物理专线实例或者共享物理专线实例没有支付...

CreateFailoverTestJob-创建高速通道故障演练任务

调用CreateFailoverTestJob接口创建高速通道故障演练任务。接口说明 以下场景不支持创建故障演练任务:当前地域您已经有正在演练的故障演练任务,且本次创建故障演练任务的任务类型为立即开始。物理专线实例或者共享物理专线实例没有支付...

DescribeFailoverTestJobs-批量查询高速通道故障演练...

调用DescribeFailoverTestJobs接口批量查询高速通道故障演练任务。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。调试 授权信息 下表是API对应的授权信息...

DescribeFailoverTestJobs-批量查询高速通道故障演练...

调用DescribeFailoverTestJobs接口批量查询高速通道故障演练任务。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。调试 授权信息 下表是API对应的授权信息...

设计原则

面向风险的应急快恢原则 在一些场景下,即使设计了各种技术手段去提高系统的冗余、保持业务的高可用,但还是避免不了生产系统故障的发生,所以需要面对故障建立一个高效的故障应急流程机制和稳定的技术平台,实现故障风险实时发现、应急...

故障处理流程

当智能接入网关设备发生网络故障后,您可以先观察现象、收集信息,然后对现象和信息进行分析诊断,尝试修复问题。本文为您介绍智能接入网关设备故障处理流程。SAG-100WM故障处理流程说明 通过SAG-100WM访问阿里云,发现故障,请参见以下...

业务监控概述

监控方式 接入成本 实时性 灵活性 业务监控(应用探针)低(业务信息在应用程序中自动采集上报)实时(后台实时聚合运算展现)高(灵活配置业务映射规则,立即生效)传统OLAP BI分析 高(为避免影响在线业务处理性能,需要新建离线分析数据...

通过一致性复制组实现容灾恢复

背景信息 一致性复制组支持故障切换和反向复制功能,当生产站点中的云盘出现严重故障时,您可以通过故障切换功能开启容灾站点中云盘数据的读写权限,然后将容灾站点中的云盘挂载到临时创建的ECS实例上继续运行业务。当生产站点中的云盘故障...

什么是应用高可用服务AHAS

应用高可用服务(Application High Availability Service)是一款专注于提高应用高可用能力的SaaS产品,主要包含多活容灾、故障演练和流量防护三个独立的功能模块。其中流量防护已迁移至微服务治理服务...更多信息,请参见 什么是故障演练。

实时诊断

实时诊断功能适用于在短时间内密切监控应用性能和定位问题原因的场景。本文介绍实时诊断功能的使用方法。背景信息 当您需要密切监控一小段时间内的应用性能时,例如发布应用或者对应用进行压测时,可以使用实时诊断功能。开启实时诊断后,...

管理探针

应用高可用服务AHAS会通过探针从您的系统中采集所需的信息。本文介绍了如何安装、升级、停止和卸载探针。什么是探针?应用高可用服务AHAS包括以下两种探针:应用高可用探针(即AHAS探针):这是安装在操作系统上的独立进程,用来采集架构...

数据正确性

排错流程图 检查作业中是否存在Failover 排错指引 查看Failover报错信息,分析作业运行异常原因。解决方案 解决Failover问题,使作业正常运行。检查源表数据是否进入实时计算Flink版 排错指引 这种情况下没有Failover,但数据延时会很大,...

更新故障复盘改进详情

problemReason":"故障原因A","recentActivity":"2","injectionMode":"1","recoveryMode":"2","discoverSource":1,"userReport":10,"monitorSourceName":"Zabbix","relationChanges":"关联变更","dutyUserId":1231,"replayDutyUserId":1213...

ping不通云服务ECS(SAG-1000)

可能原因 终端到设备的链路故障。设备到阿里云的VPN链路故障。目标ECS故障。运营商网络故障。解决方案 登录 智能接入网关控制台。单击智能接入网关实例ID,查看设备状态是否为 可用。如果离线,请参见 设备显示离线 处理。如果在线,请跳转...

如何解决MSE Nacos实例域名无法解析的问题?

请 提工单 联系网络技术支持协助排查DNS服务器或NameServer故障原因。如果使用的是ACK,请 提工单 联系ACK技术支持协助排查CoreDNS故障原因。方案二:使用ping命令 使用 ping${mse.nacos.host} 指令尝试解析。如果提示 unknown host,则...

诊断服务端报错问题

步骤二:查看关于应用异常的统计信息 为应用安装ARMS探针后,ARMS会收集和展示选定时间内应用的总请求量、平均响应时间、错误数、实时实例数、FullGC次数、慢SQL次数、异常次数和慢调用次数,以及这些指标和上一天的环比、上周的同比升降...

实时物化视图(Beta)

背景信息 Hologres实时物化视图不需要手动刷新物化数据,明细表实时写入,会实时反映在对物化视图的查询上,写入即可见,写入即聚合。在实时物化视图中,实时写入的表叫明细表,也称Base Table,用户的Insert、Update、Delete都执行在明细...

如何管理故障

在完善整体故障信息过程中,若相应人员无法搜索,需在阿里云 访问控制(RAM)中添加对应子账号并将对应人员添加至运维事件中心 人员管理-人员列表 中;取消故障:当故障经过排查发现实际业务无影响,被判定为非故障时,可以取消该故障;在 ...

云盒故障服务器维修流程

背景信息 当云盒内的服务器出现故障,需要更换和维修时,出于客户成本考虑,云盒内没有部署数据擦除服务,阿里云不在客户现场进行数据擦除。重要 在您购买云盒时同意的服务条款中已明确提出阿里云 不提供现场数据擦除服务,具体请参见 阿里...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 云安全中心 实时计算 Flink版 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用