故障注入

您可以通过故障注入功能向测试应用注入故障,检测应用面对异常时的处理情况。您可以根据检测的情况调整您的应用,以减少应用在正式使用时出现的异常问题。多用于测试环境。配置故障注入规则 登录 SOFAStack 控制台。在左侧菜单栏选择 ...

Redis客户端重连指南

引发暂时性故障原因 原因 说明 故障触发了高可用机制 云数据库Redis支持节点健康状态监测,当监测到实例中的主节点不可用时,会自动触发主备切换,例如将主节点和从节点进行互换,保障实例的高可用性。此时,客户端可能会遇到下列暂时性...

什么是故障

包括根因检查点(如故障原因、最近活动、注入方式、恢复方式等)、故障变更检查、监控检查,并需要对每一个故障明确责任人及团队;故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘后的故障都能对业务...

故障演练

高速通道故障演练功能是一种模拟故障场景的工具。例如,模拟在高速通道冗余链路中的一条链路发生故障时,网络流量会自动切换至其他冗余链路的场景。借助该工具,您可以测试和验证您与阿里云组建的混合云组网的可靠性。重要 故障演练会通过...

通过一致性复制组实现容灾恢复

背景信息 一致性复制组支持故障切换和反向复制功能,当生产站点中的云盘出现严重故障时,您可以通过故障切换功能开启容灾站点中云盘数据的读写权限,然后将容灾站点中的云盘挂载到临时创建的ECS实例上继续运行业务。当生产站点中的云盘故障...

实体识别干预词典

目前实体识别的干预主要包括两个对实体识别结果本身的干预,以及实体类型重要性的干预。当实体识别的结果不准时,可以通过实体识别的干预来进行解决。概念介绍 实体识别干预 通过创建实体干预的词典,并在查询分析中实体识别中配置相应的...

查询分析概览

实体识别功能基本介绍 命名实体识别(Named Entity Recognition,简称NER)是对Query分词后识别每个语义实体功能。每个语义实体会被打上相应的类型标签,类型标签重要性低的语义实体在查询中可能会被省略。比如“耐克修身连衣裙”,实体...

实体转交

查看可被转交的实体 在使用说明区域可以查看实体转交功能可被转交的实体、自动转交触发条件及转交注意事项。说明 可转交的实体正在逐步丰富中,具体请以产品界面为准。配置实体转交规则 在转交规则配置区域搜索目标工作空间。配置实体接收...

云盘异步复制概述

功能介绍 功能原理 云盘异步复制功能支持将一块ESSD云盘(主盘)的数据跨地域或者同地域跨可用区异步复制到另一块相同配置的ESSD云盘(从盘)中,当主盘出现故障时,可通过从盘进行故障切换以及数据恢复。异步复制功能原理如下图所示:跨...

【通知】故障演练功能模块退市公告

由于业务及技术架构调整,阿里云将于2024年05月01日起停止应用高可用服务AHAS下的故障演练功能模块的技术支持,并于2024年11月01日正式下线该模块,但飞天企业版的应用高可用服务AHAS的故障演练CHAOS模块将持续发展。此外,应用高可用服务...

自动故障剔除

自动故障剔除功能会自动监控 RPC 调用的情况,当某个节点出现故障时,可对故障节点进行权重降级,并在节点恢复健康时进行权重恢复。目前支持 Bolt 协议。配置方式 将自动故障剔除的参数配置到 SOFABoot 中的 application.properties 即可。...

故障管理

包括根因检查点(如故障原因、最近活动、注入方式、恢复方式等)、故障变更检查、监控检查,并需要对每一个故障明确责任人及团队;故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘后的故障都能对业务...

安装探针概述

为您的主机等资源安装应用高可用探针后,即可使用AHAS架构感知和故障演练功能,能直观地看到应用对基础架构的依赖关系、组件间的依赖关系,以及对指定机器进行故障演练。接入 AHAS架构感知和故障演练可以接入云服务器ECS、自建Kubernetes、...

基本概念

当告警与其他词组合时,代表告警功能对应的子系统、功能实体、模块等。例如告警监控系统、告警监控规则等。告警监控(Alert monitoring)告警子系统,负责产生告警。告警监控系统由告警监控规则和资源数据等组成。通过告警监控规则定期...

SA混合云存储阵列

故障恢复:支持故障切换和故障恢复功能。当控制器故障时,支持在线故障切换,业务连续性不受影响。阿里云混合云存储阵列将云存储的高性价比和可扩展性与本地数据中心架构相结合,帮助客户轻松实现数据在本地数据中心和公共云之间的无缝流动...

管理探针

使用架构感知、故障演练功能前需安装此探针。应用高可用Java探针:这是针对JVM的Java探针,通过字节码增强技术进行实时监控和流量防护。如果需要使用流量防护功能,可安装此探针。安装高可用探针(AHAS探针)如果您需要使用架构感知、故障...

EasyCkpt:AI大模型高性能状态保存恢复

功能介绍 针对频繁故障的情况,PAI通过之前的故障失败场景总结出以下GPU和深度学习场景故障功能特点:特点1:任务的故障是部分的。通常,故障的根因是一到两台机器的故障,这只会影响部分Worker。对于大规模分布式训练任务而言,不会所有...

接入主机

在普通主机上安装AHAS探针后,即可体验架构感知和故障演练功能,直观地查看应用对基础架构的依赖关系,组件间的依赖关系,以及对应用进行故障演练。本文介绍如何将探针接入主机,主机类型包括Linux和Windows。操作步骤 登录 AHAS控制台,并...

故障诊断

功能,如下图所示:一般来说,如果涉及到内存泄漏的,可以抓取 堆快照,如果是 CPU 异常飙高的,可以抓取 CPU Profile 数据,下面我们以一个 CPU 异常飙高和内存泄漏的例子来看下如何使用 Node.js 性能平台提供的故障诊断功能。CPU 异常飙...

FailoverDiskReplicaPair-启用云盘异步复制故障切换

启用异步复制关系的故障切换功能。接口说明 异步复制功能支持的地域请参见 云盘异步复制概述。异步复制关系不能处于 失效(invalid)或 已删除(deleted)状态。故障切换完成后,异步复制关系处于 故障切换完成(failovered)状态。调试 您...

RAM子账号授权

AliyunGEMPCoordinatorAccess」-具备运维事件中心的事件和故障协同功能权限,拥有其它模块的只读权限,如开发角色人员;重要:被赋予以上3种权限的人员可以直接访问运维事件中心,填写个人姓名、手机号、邮箱等联系方式后即可正常使用;也...

一致性复制组概述

功能介绍 功能原理 一致性复制组功能支持跨地域或者同地域跨可用区的云盘异步复制,当生产站点出现故障时,可通过容灾站点进行故障切换以及数据恢复。一致性复制组功能原理如下图所示:同地域跨可用区 跨地域 功能列表 一致性复制组的具体...

应用场景

故障恢复 通过ASM,可以轻松实现开箱即用的故障恢复功能:分布式系统存在高度复杂性,在基础设施、应用逻辑、运维流程等环节都可能存在稳定性风险导致业务系统的失效。提供了基于Istio的混沌工程能力,包括如何使用连接池配置和异常检测...

FailoverDiskReplicaGroup-启用异步复制组故障切换

启用一致性复制组中复制对的故障切换功能。当一致性复制组中某些复制对的主盘出现故障时,可以调用该接口恢复从盘的读写权限。接口说明 一致性复制组功能支持的地域请参见 云盘异步复制概述。一致性复制组必须处于 单次同步中(manual_...

API概览

FailoverDiskReplicaPair 启用云盘异步复制故障切换 启用异步复制关系的故障切换功能。DescribeDiskReplicaPairProgress 查询复制对的同步进度 查询复制对的同步进度。DeleteDiskReplicaPair 删除云盘异步复制关系 删除一个异步复制关系。...

主备方案介绍

主备容灾:当云数据库HBase实例因不可预料的原因(例如设备故障、机房断电断网等)发生故障,容灾机制可用于保障数据的一致性和业务可用性。功能优势 主备双活:请求低毛刺。故障自动容错。资源利用率高。主备容灾:支持云数据库HBase、EMR...

事件分析概述

事件总线EventBridge 的事件分析功能可将全部链路微服务消息通过事件ID染色做有效追踪与排障,帮助微服务做可视化故障排查。消息领域:在传统消息领域,消息Schema管理、消息内容检索一直是无法解决的难题,大部分情况下需要增加订阅者来对...

无影魔方AS05

V6.4.0-2023年8月 变更类型 变更点 变更说明 新增 新增外设故障诊断功能 无影云电脑 外设管理面板的 操作 列新增 诊断 功能,从而检查USB外设的连接链路是否正常。优化 提升网络检测能力 在原有网络检测能力的基础上,增强IP地址冲突、外网...

ReprotectDiskReplicaGroup-启用异步复制组反向复制

启用一致性复制组中复制对的反向复制功能。启用反向复制功能后,可以将原灾备站点的云盘数据复制到原生产站点的云盘当中。反向复制数据时,一致性复制组中原有的站点信息不变,主从关系颠倒。接口说明 一致性复制组功能支持的地域请参见 云...

2022年

本文介绍SchedulerX产品在2022年发布的功能变更,包括新增功能功能优化、重要问题修复和相关文档等。客户端发布记录 1.7.10,2022-08-30 变更类型 功能 描述 相关文档 新增 支持Spring原生定时任务集成。支持全链路追踪能力集成。Spring...

服务端发布记录

本文介绍分布式任务调度SchedulerX产品发布的功能变更,包括新增功能功能优化、重要问题修复等,帮助您了解SchedulerX的发布动态。发布记录 2024-04-28 功能名称 变更类型 功能描述 相关文档 任务调度增强 新增 Cron、Fixed rate、Second...

操作功能权限

授权原因 填写授予功能权限的原因。单击 确定,完成功能权限的授权。回收功能权限 在 功能权限 页面,单击需要回收功能权限所在行 操作 列下的 图标。根据功能权限回收对话框提示,配置参数。参数 描述 回收用户 选择需要回收功能权限的...

操作功能权限

授权原因 填写授予功能权限的原因。单击 确定,完成功能权限的授权。回收功能权限 在 功能权限 页面,单击需要回收功能权限所在行 操作 列下的 图标。根据功能权限回收对话框提示,配置参数。参数 描述 回收用户 选择需要回收功能权限的...

控制台发布记录

2022-12-16 冷数据归档 2022年11月 功能名称 功能描述 发布时间 相关文档 新增集群保护锁 开启集群保护锁,可以有效避免因操作疏忽、团队成员沟通不及时等原因造成的集群释放。2022-11-20 集群保护锁 新增全局只读节点 在产品系列为多主...

监控报警概述

故障预警 云电脑的故障信息、故障原因及故障时间等信息。使用场景 在日常业务运行的过程中,监控大盘帮助您及时了解账号下全部云电脑资源的全局情况,实时监控提供更详细的数据指标和故障预警信息,帮助您了解终端用户使用云电脑的情况,...

应用故障自动诊断

在EDAS中进入应用总览页面时,会按照您自定义的时间段对该应用的运行情况做一个自动诊断。...数据支持:这一部分包含了得到推测结论的数据支持,不同故障原因的诊断报告中包含的分析数据将不一样。图 1.故障诊断报告示例图-RT诊断

什么是消息演练

随着应用规模的扩大,系统变得越来越复杂,不可避免地会走向分布式化。各种中间组件会相继被引入系统,其中分布式消息服务更是系统中必不可少的一...需要注意的是演练场景仅是组件表象,其内部故障原因可能是多种多样的,需要进一步进行分析。

查看ECS实例的操作记录

如果您在使用ECS实例的过程中遇到故障,可以通过查看ECS实例的操作记录识别可能的故障原因。背景信息 操作记录 以ECS实例为入口,对实例及其关联资源的所有操作进行操作审计,并且对操作记录的影响等级进行标注,在众多操作记录中高亮出...

功能特性

此外,在数据库实例发生故障且无法定位原因时,可以利用克隆库复现故障场景,以便更好地定位故障原因。智能压测 搜索分析 查询并导出SQL语句对应的日志信息。搜索 SQL洞察 SQL洞察聚类分析,用作深度异常的排查。SQL洞察 安全审计 内置了...

托管节点池节点自动恢复

当发现节点故障时,ACK会根据故障原因触发对应恢复任务,并记录相应的事件。当恢复任务完成后,故障状态解除,节点恢复正常状态。当恢复任务完成后,故障状态依然存在,节点会被置为恢复失败状态。说明 如果集群中存在多个节点池,节点池...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
检索分析服务 Elasticsearch版 VPN网关 负载均衡 弹性公网IP 短信服务 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用