故障演练

所以可以故障模型再一次升级,并得到一些推论:故障是来自于硬件(如IaaS层),软件(如PaaS或SaaS)的故障。并且有个规律,硬件故障的现象,会在软件故障现象上有所体现。故障隶属于单机或是分布式系统之一,分布式故障包含单机故障。...

设计方案

容错 容错是指在分布式系统中,系统出现故障时,通过设计和实现可靠的机制和策略,使系统能够自动检测、排除或者纠正错误,保证系统能够正常运行,从而提高系统的可靠性和稳定性。容量 容量是在一定时间内,系统能够处理的最大工作量或数据...

自助诊断GPU节点问题

ACK集群提供节点级别的GPU诊断功能,供您进行部分GPU相关问题的故障排查。如果您在ACK Pro版集群中使用GPU节点时遇到问题,可以启用GPU节点自助诊断,采集GPU诊断的基础指标进行问题排查。本文介绍如何使用节点诊断功能,自助排查GPU节点...

应用场景

机房级容灾 同城双活 同一个城市,建设两个机房环境,两地距离 50 km 以内,万兆光纤专线互连,业务应用层面可以两个机房同时提供业务服务,当一个机房故障,不影响另外一个机房业务使用。异地主备 满足容灾需求,两地不同城市分别建设两个...

使用说明

本文介绍将业务程序与远程登录程序进行进程隔离,以保证设备在故障可以进行远程运维。背景信息 设备基于物联网平台的消息通信能力开展业务,由于不同设备业务的复杂性,以及业务需要定期变更升级,导致设备的业务程序容易出现故障,导致...

核心优势

高可用超性价比 HBase增强版对MTTR(平均故障恢复时间)了深度的优化和改进,故障恢复速度可以达到HBase的10倍以上。并且其基于日志即存储思想和PACELC理论构建的分区多副本复制架构,可以提供多种数据一致性等级,方便应用在一致性、...

申请退换货

申请退货 收到AP后的7天内,有性能故障可以申请退货。申请更换硬件 填写换货原因,提交换货申请。换货申请通过后,请确认AP的SN码(机身便签上)、是否拆包、退回时间、退回单号和快递方、退货地址。仓库确认收到退货,同意换货,填写...

附录:SOFAStack 产品目录

使用 SOFAStack 任务调度中的任务编排功能,可以轻松完成任务之间的依赖调整,大大提高了可维护性,并可以直观地看到任务的执行情况。消息队列 SOFAStack 消息队列是基于 Apache RocketMQ 构建的分布式消息中间件,为分布式应用提供异步...

什么故障

本文主要介绍什么故障。定义 在日常运营中,无论什么原因导致业务服务中断、服务品质下降或用户服务体验下降的现象,称为故障,但不包括用户侧环境或用户自身操作引起的问题。“用户体验下降”说明故障的核心要关注用户感受,可通过客服...

安装探针概述

为您的主机等资源安装应用高可用探针后,即可使用AHAS架构感知和故障演练功能,能直观地看到应用对基础架构的依赖关系、组件间的依赖关系,以及对指定机器进行故障演练。接入 AHAS架构感知和故障演练可以接入云服务器ECS、自建Kubernetes、...

诊断决策树

可以通过诊断决策树,编排故障排查的过程。对于已知的明确故障可以根据诊断现象,编排诊断决策树,进而故障发生时执行,完成故障定位。对于未知的故障,您可以依据运维经验,编排出常见的排查路径,辅助快速故障定位。新建诊断决策树 ...

如何管理事件

故障状态:处理中(升级时故障还在处理中),输入发现故障的时间、已恢复(升级时故障已恢复),输入故障生成的时间和故障恢复的时间;所属服务:升级故障所属的 服务;影响服务:选择 影响服务(可多选);进展摘要:处理人将事件升级为...

云端发布

SOFABoot 应用不仅能在本地运行,也能部署至 SOFAStack 平台,为更多的用户提供应用服务。本文将介绍将应用工程发布至...日志查看 应用在云端发布过程中,如果遇到故障可以查看日志进行故障排查。日志的存放目录等详情,请参见 工程日志。

查看实例的系统日志和屏幕截图

可以利用这些功能分析排查实例故障,例如诊断操作系统无响应、异常重启或者无法连接实例等。前提条件 实例必须处于 运行中(Running)状态才能获取系统日志和屏幕截图。背景信息 云服务器ECS的系统日志是运维诊断的重要一环。如果您需要...

跟踪概览

跟踪是一种重要的配置机制,您可以使用跟踪功能,将云服务中发生的事件保存到指定的OSS存储空间或SLS Logstore中,以便后期分析和长期存储。操作审计仅默认为每个阿里云账号记录最近90天的事件,您必须创建跟踪才能记录更长时间的事件,...

设置Pod故障处理策略

如果您希望尽快得到创建结果以便及时处理故障可以修改Pod故障处理策略。配置说明 在虚拟节点上创建ECI Pod时,可能会因为库存不足等原因导致Pod创建失败,默认情况下,系统会自动进行重调度,尝试重新创建Pod。您可以通过添加 k8s.aliyun...

查看ECS实例的操作记录

如果您在使用ECS实例的过程中遇到故障可以通过查看ECS实例的操作记录识别可能的故障原因。背景信息 操作记录 以ECS实例为入口,对实例及其关联资源的所有操作进行操作审计,并且对操作记录的影响等级进行标注,在众多操作记录中高亮出...

通过一致性复制组实现容灾恢复

当您创建并启动一致性复制组后,如果生产站点中的云盘发生严重故障,您可以通过一致性复制组批量对生产站点的云盘数据进行容灾恢复。本文主要介绍如何通过一致性复制组进行容灾恢复。背景信息 一致性复制组支持故障切换和反向复制功能,当...

诊断网页加载过慢的问题

步骤二:定位故障可以通过两种不同入口的方式来定位故障,两种方式均能达到使用慢会话追踪功能诊断网页性能问题的目的。方式一:从访问速度开始排查 登录 ARMS控制台,在左侧导航栏选择 前端监控>前端列表。在 前端列表 页面顶部选择...

高可靠模式

概述 高速通道的高可靠模式具备当您其中一条线路故障可以通过冗余线路进行流量切换的能力。当您的业务对容灾能力有一定要求时,建议您在购买物理端口时选择高速通道的高可靠模式。高可靠模式为您提供了多种多线连接的组合类型,您可以...

故障注入

可以通过故障注入功能向测试应用注入故障,检测应用面对异常时的处理情况。您可以根据检测的情况调整您的应用,以减少应用在正式使用时出现的异常问题。多用于测试环境。配置故障注入规则 登录 SOFAStack 控制台。在左侧菜单栏选择 ...

通过异步复制功能实现容灾恢复

当您创建并启动云盘异步复制关系后,如果主盘发生故障,您可以通过异步复制功能对主盘进行容灾恢复。本文主要介绍如何进行容灾恢复操作。前提条件 反向复制前,请确保源云盘(主盘)已经从对应的ECS实例上卸载,即主盘处于未挂载状态。具体...

故障注入

可以通过故障注入功能向测试应用注入故障,检测应用面对异常时的处理情况。您可以根据检测的情况调整您的应用,以减少应用在正式使用时出现的异常问题。多用于测试环境。功能简介 故障注入流程如下所示:在微服务中,其实现方式为:管控...

响应云盒维修事件

流程说明 运行中的ECS实例出现故障风险时,会向您发送ECS故障 事件(Reboot事件)通知,收到ECS故障事件通知后,您可以响应故障事件并按照建议进行处理,例如:将现有业务迁移到冗余资源保证业务正常运行,将出现故障风险的ECS实例作为备机...

功能优势

AHAS Chaos 支持一次演练包含多个定义的故障场景,同时您可以定制这些场景的运行方式,选择依次进行故障注入或同时注入多个场景,通过不同的策略配置来达到不同的故障注入效果。丰富的故障场景 丰富的故障场景也是 AHAS Chaos 的一大特色,...

服务管控和治理

将 SOFA、Dubbo、SpringCloud 类型的微服务发布成功后,您可以在服务网格控制台上进行服务管控和服务治理的操作。操作视频 您可以根据以下视频快速了解如何进行服务管控和治理:服务管控 服务管控提供服务查询、服务消费者和提供者信息查询...

故障演练常见问题

欢迎您反馈在使用故障演练过程中遇到的问题,目前提供以下常见问题供您参考。单个演练活动成功状态怎么判断?因为一个活动可能会有很多目标机器,当所有机器执行完毕之后,如果有机器没有执行成功,那么这个演练活动就会被系统判断为失败。...

故障演练

故障演练的意义 故障演练将被容灾保护的服务器在云上拉起并验证应用正确性,是容灾流程整体中及其重要的一环,它的核心意义在于:方便地验证被容灾保护的应用可以在容灾站点正常拉起。确保操作人员熟悉容灾恢复流程,确保在生成站点真正...

故障演练

故障演练的意义 故障演练将被容灾保护的服务器在云上拉起并验证应用正确性,是容灾流程整体中及其重要的一环,它的核心意义在于:方便地验证被容灾保护的应用可以在容灾站点正常拉起。确保操作人员熟悉容灾恢复流程,确保在生成站点真正...

EMR Kafka磁盘故障运维

磁盘故障及其运维通常伴随着磁盘上的数据销毁。在进行磁盘运维时,您应考虑数据是否需要迁移备份。对于Kafka集群,您还需要考虑Topic分区副本数据是否可以从其他Broker节点分区副本同步恢复。本文以EMR Kafka 2.4.1版本为例,介绍Kafka磁盘...

产品优势

分钟级容灾切换 多活容灾MSHA基于对容灾架构的设计和全栈管控,提炼各类机房级故障场景下的一键切换,可以做到分钟级的RTO和RPO,非极端故障场景下可以做到秒级RTO。借助多活容灾MSHA提供的多活架构、常态化巡检监控以及日常容灾演练,不仅...

如何排查Java场景下故障注入不生效的问题

为解决此类问题,在创建或编辑演练时,您可以故障执行阶段选择开启Debug模式,并通过相关的日志信息来了解故障注入失败的原因。开启Debug模式 在查看目标演练的故障注入日志前,您需要先确认该演练的故障执行步骤是否已开启Debug模式。若...

执行演练

在执行故障演练过程中,您可以实时查看演练进度、每个演练活动的运行状态及结果,同时也能够随时结束演练,进行恢复阶段的活动,清除故障演练影响。背景信息 一次完整的故障演练包括以下四个阶段:安装故障演练探针 创建演练 执行演练 停止...

地域及可用区

可用区之间故障隔离,可以避免故障扩散,保证业务的连续性。说明 大型灾害或者大型电力故障除外。注意事项 创建阿里云实时计算Flink版时,选择的地域和可用区,在资源创建成功后,无法更改。不同地域资源的开放情况会根据实际业务使用情况...

事件列表

例如,调度器什么决定,或为什么某些Pod从节点中被驱逐。事件级别 事件根据严重程度分为告警和严重,具体说明如下。事件级别 说明 Warning 告警 Serious 严重 事件类型和对象 目前AHAS架构感知仅支持Kubernetes类型的事件,事件对象...

基本概念

更多请查看 什么是事件 故障 在日常运营中,无论什么原因导致业务服务中断、服务品质下降或用户服务体验下降的现象,称为故障,但不包括用户侧环境或用户自身操作引起的问题。故障比事件优先级更高,事件在处理过程中出现影响扩大或恶化时...

操作流程

说明 保护组处于 增量复制中 或者已有恢复点之后,您就可以进行故障演练。具体操作,请参见 故障演练。步骤七:故障切换 数据同步后切换 该故障切换会先停止保护组中被保护的实例,并且等到所有被保护的实例停止后再进行最后一轮数据同步,...

操作流程

说明 保护组处于 增量复制中 或者已有恢复点之后,您就可以进行故障演练。具体操作,请参见 故障演练。步骤七:故障切换 数据同步后切换 该故障切换会先停止保护组中被保护的实例,并且等到所有被保护的实例停止后再进行最后一轮数据同步,...

查看指定报警规则的报警历史

可以查看指定报警规则中的所有故障资源的报警详情和报警图表,及时定位并处理资源故障。操作步骤 登录 云监控控制台。在左侧导航栏,选择 报警服务>报警规则。在 报警规则列表 页面,单击目标报警规则对应 操作 列的 报警历史。您可以...

故障基础数据管理

故障场景等级定义 日常运营中,除用户方环境或自身操作引起的问题外,无论什么原因导致的服务中断、服务品质下降或用户服务体验下降的现象,都称为故障。对故障影响程度的划分就是故障等级定义。定义故障等级是为了指定故障等级定义作为各...
共有103条 < 1 2 3 4 ... 103 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 应用高可用服务 云数据库 OceanBase 版 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用