常见问题

表格存储 可以自动根据您的业务量的增长进行扩容,还可自动进行故障检测和数据迁移,对您的应用程序屏蔽机器和网络的硬件故障,为您完成一切运维任务。使用 表格存储 您只需专注于业务研发,无需担心软硬件预置、配置、故障、集群扩展、...

访问云虚拟主机网站时无法正常访问(无报错信息)

程序中针对不同的Agent了不同的跳转,导致电脑访问云虚拟主机网站正常但手机无法访问。电脑端浏览器访问域名无问题,但在手机端无法访问相同的域名。说明 例如,使用电脑访问 www.example.com 域名没有问题,但使用手机访问 ...

概览

使用智能阈值报警规则可以快速的对对象存储OSS和CDN监控报警覆盖,在服务不可用之前提前发现异常,现推荐以下监控指标配置智能阈值报警规则。云产品 典型异常 异常可能原因 监控指标 报警条件 对象存储OSS 请求成功数突降或请求错误数...

应用场景

当主机房故障可以切换流量到备机房快速恢复业务,等主机房故障恢复以后,再回切流量到主机房。两地三中心 两地三中心,也称为同城双活加异地主备方案,即上文提及的同城两机房双活部署,外加一个异地机房只备份,不承载任何业务流量...

核心优势

高可用超性价比 HBase增强版对MTTR(平均故障恢复时间)了深度的优化和改进,故障恢复速度可以达到HBase的10倍以上。并且其基于日志即存储思想和PACELC理论构建的分区多副本复制架构,可以提供多种数据一致性等级,方便应用在一致性、...

附录:SOFAStack 产品目录

使用 SOFAStack 任务调度中的任务编排功能,可以轻松完成任务之间的依赖调整,大大提高了可维护性,并可以直观地看到任务的执行情况。消息队列 SOFAStack 消息队列是基于 Apache RocketMQ 构建的分布式消息中间件,为分布式应用提供异步...

使用说明

本文介绍将业务程序与远程登录程序进行进程隔离,以保证设备在故障可以进行远程运维。背景信息 设备基于物联网平台的消息通信能力开展业务,由于不同设备业务的复杂性,以及业务需要定期变更升级,导致设备的业务程序容易出现故障,导致...

安装探针概述

为您的主机等资源安装应用高可用探针后,即可使用AHAS架构感知和故障演练功能,能直观地看到应用对基础架构的依赖关系、组件间的依赖关系,以及对指定机器进行故障演练。接入 AHAS架构感知和故障演练可以接入云服务器ECS、自建Kubernetes、...

什么故障

本文主要介绍什么故障。定义 在日常运营中,无论什么原因导致业务服务中断、服务品质下降或用户服务体验下降的现象,称为故障,但不包括用户侧环境或用户自身操作引起的问题。“用户体验下降”说明故障的核心要关注用户感受,可通过客服...

诊断决策树

对于已知的明确故障可以根据诊断现象,编排诊断决策树,进而故障发生时执行,完成故障定位。对于未知的故障,您可以依据运维经验,编排出常见的排查路径,辅助快速故障定位。新建诊断决策树 登录高可用管理控制台。在左侧导航栏上,单击 ...

如何管理事件

故障状态:处理中(升级时故障还在处理中),输入发现故障的时间、已恢复(升级时故障已恢复),输入故障生成的时间和故障恢复的时间;所属服务:升级故障所属的 服务;影响服务:选择 影响服务(可多选);进展摘要:处理人将事件升级为...

云端发布

SOFABoot 应用不仅能在本地运行,也能部署至 SOFAStack 平台,为更多的用户提供应用服务。本文将介绍将应用工程发布至...日志查看 应用在云端发布过程中,如果遇到故障可以查看日志进行故障排查。日志的存放目录等详情,请参见 工程日志。

通过一致性复制组实现容灾恢复

当您创建并启动一致性复制组后,如果生产站点中的云盘发生严重故障,您可以通过一致性复制组批量对生产站点的云盘数据进行容灾恢复。本文主要介绍如何通过一致性复制组进行容灾恢复。背景信息 一致性复制组支持故障切换和反向复制功能,当...

查看实例的系统日志和屏幕截图

如果您需要诊断分析异常故障可以获取ECS实例启动和异常故障等日志信息。系统通过串口打印输出的日志会包含两种类型的信息,一类是系统启动开机时的日志内容,另一类是系统内核故障或异常时的日志内容。更多详情,请参见《云栖社区》博客 ...

故障注入

可以通过故障注入功能向测试应用注入故障,检测应用面对异常时的处理情况。您可以根据检测的情况调整您的应用,以减少应用在正式使用时出现的异常问题。多用于测试环境。配置故障注入规则 登录 SOFAStack 控制台。在左侧菜单栏选择 ...

通过异步复制功能实现容灾恢复

当您创建并启动云盘异步复制关系后,如果主盘发生故障,您可以通过异步复制功能对主盘进行容灾恢复。本文主要介绍如何进行容灾恢复操作。前提条件 反向复制前,请确保源云盘(主盘)已经从对应的ECS实例上卸载,即主盘处于未挂载状态。具体...

故障注入

可以通过故障注入功能向测试应用注入故障,检测应用面对异常时的处理情况。您可以根据检测的情况调整您的应用,以减少应用在正式使用时出现的异常问题。多用于测试环境。功能简介 故障注入流程如下所示:在微服务中,其实现方式为:管控...

响应云盒维修事件

流程说明 运行中的ECS实例出现故障风险时,会向您发送ECS故障 事件(Reboot事件)通知,收到ECS故障事件通知后,您可以响应故障事件并按照建议进行处理,例如:将现有业务迁移到冗余资源保证业务正常运行,将出现故障风险的ECS实例作为备机...

查看ECS实例的操作记录

如果您在使用ECS实例的过程中遇到故障可以通过查看ECS实例的操作记录识别可能的故障原因。背景信息 操作记录 以ECS实例为入口,对实例及其关联资源的所有操作进行操作审计,并且对操作记录的影响等级进行标注,在众多操作记录中高亮出...

设置Pod故障处理策略

如果您希望尽快得到创建结果以便及时处理故障可以修改Pod故障处理策略。配置说明 在虚拟节点上创建ECI Pod时,可能会因为库存不足等原因导致Pod创建失败,默认情况下,系统会自动进行重调度,尝试重新创建Pod。您可以通过添加 k8s.aliyun...

服务管控和治理

将 SOFA、Dubbo、SpringCloud 类型的微服务发布成功后,您可以在服务网格控制台上进行服务管控和服务治理的操作。操作视频 您可以根据以下视频快速了解如何进行服务管控和治理:服务管控 服务管控提供服务查询、服务消费者和提供者信息查询...

故障演练常见问题

欢迎您反馈在使用故障演练过程中遇到的问题,目前提供以下常见问题供您参考。单个演练活动成功状态怎么判断?因为一个活动可能会有很多目标机器,当所有机器执行完毕之后,如果有机器没有执行成功,那么这个演练活动就会被系统判断为失败。...

故障演练

故障演练的意义 故障演练将被容灾保护的服务器在云上拉起并验证应用正确性,是容灾流程整体中及其重要的一环,它的核心意义在于:方便地验证被容灾保护的应用可以在容灾站点正常拉起。确保操作人员熟悉容灾恢复流程,确保在生成站点真正...

故障演练

故障演练的意义 故障演练将被容灾保护的服务器在云上拉起并验证应用正确性,是容灾流程整体中及其重要的一环,它的核心意义在于:方便地验证被容灾保护的应用可以在容灾站点正常拉起。确保操作人员熟悉容灾恢复流程,确保在生成站点真正...

诊断网页加载过慢的问题

步骤二:定位故障可以通过两种不同入口的方式来定位故障,两种方式均能达到使用慢会话追踪功能诊断网页性能问题的目的。方式一:从访问速度开始排查 登录 ARMS控制台,在左侧导航栏选择 前端监控>前端列表。在 前端列表 页面顶部选择...

高可靠模式

概述 高速通道的高可靠模式具备当您其中一条线路故障可以通过冗余线路进行流量切换的能力。当您的业务对容灾能力有一定要求时,建议您在购买物理端口时选择高速通道的高可靠模式。高可靠模式为您提供了多种多线连接的组合类型,您可以...

如何排查Java场景下故障注入不生效的问题

为解决此类问题,在创建或编辑演练时,您可以故障执行阶段选择开启Debug模式,并通过相关的日志信息来了解故障注入失败的原因。开启Debug模式 在查看目标演练的故障注入日志前,您需要先确认该演练的故障执行步骤是否已开启Debug模式。若...

功能优势

AHAS Chaos 支持一次演练包含多个定义的故障场景,同时您可以定制这些场景的运行方式,选择依次进行故障注入或同时注入多个场景,通过不同的策略配置来达到不同的故障注入效果。丰富的故障场景 丰富的故障场景也是 AHAS Chaos 的一大特色,...

产品优势

分钟级容灾切换 多活容灾MSHA基于对容灾架构的设计和全栈管控,提炼各类机房级故障场景下的一键切换,可以做到分钟级的RTO和RPO,非极端故障场景下可以做到秒级RTO。借助多活容灾MSHA提供的多活架构、常态化巡检监控以及日常容灾演练,不仅...

执行演练

在执行故障演练过程中,您可以实时查看演练进度、每个演练活动的运行状态及结果,同时也能够随时结束演练,进行恢复阶段的活动,清除故障演练影响。背景信息 一次完整的故障演练包括以下四个阶段:安装故障演练探针 创建演练 执行演练 停止...

设计方案

在发生故障时,监控大屏可以快速反应故障情况,并提供相关数据,为故障排查及处理提供依据。风险预测:风险预测是指在发生故障前,通过数据分析、机器学习等方式,预测系统的风险情况,提前进行预防和处理。在故障应急响应中,风险预测可以...

事件列表

例如,调度器什么决定,或为什么某些Pod从节点中被驱逐。事件级别 事件根据严重程度分为告警和严重,具体说明如下。事件级别 说明 Warning 告警 Serious 严重 事件类型和对象 目前AHAS架构感知仅支持Kubernetes类型的事件,事件对象...

EMR Kafka磁盘故障运维

磁盘故障及其运维通常伴随着磁盘上的数据销毁。在进行磁盘运维时,您应考虑数据是否需要迁移备份。对于Kafka集群,您还需要考虑Topic分区副本数据是否可以从其他Broker节点分区副本同步恢复。本文以EMR Kafka 2.4.1版本为例,介绍Kafka磁盘...

地域及可用区

可用区之间故障隔离,可以避免故障扩散,保证业务的连续性。说明 大型灾害或者大型电力故障除外。注意事项 创建阿里云实时计算Flink版时,选择的地域和可用区,在资源创建成功后,无法更改。不同地域资源的开放情况会根据实际业务使用情况...

查看指定报警规则的报警历史

可以查看指定报警规则中的所有故障资源的报警详情和报警图表,及时定位并处理资源故障。操作步骤 登录 云监控控制台。在左侧导航栏,选择 报警服务>报警规则。在 报警规则列表 页面,单击目标报警规则对应 操作 列的 报警历史。您可以...

操作流程

说明 保护组处于 增量复制中 或者已有恢复点之后,您就可以进行故障演练。具体操作,请参见 故障演练。步骤七:故障切换 数据同步后切换 该故障切换会先停止保护组中被保护的实例,并且等到所有被保护的实例停止后再进行最后一轮数据同步,...

操作流程

说明 保护组处于 增量复制中 或者已有恢复点之后,您就可以进行故障演练。具体操作,请参见 故障演练。步骤七:故障切换 数据同步后切换 该故障切换会先停止保护组中被保护的实例,并且等到所有被保护的实例停止后再进行最后一轮数据同步,...

基本概念

更多请查看 什么是事件 故障 在日常运营中,无论什么原因导致业务服务中断、服务品质下降或用户服务体验下降的现象,称为故障,但不包括用户侧环境或用户自身操作引起的问题。故障比事件优先级更高,事件在处理过程中出现影响扩大或恶化时...

基础设施安全

各可用区之间可以实现故障隔离,即如果一个可用区出现故障,不会影响其他可用区的正常运行。每个地域完全独立,不同地域的可用区完全隔离,但同一个地域内的可用区之间使用低时延链路相连。弹性自动容错 PAI提供基于AIMaster的容错监控能力...

NLB支持的地域

各可用区之间可以实现故障隔离,即如果一个可用区出现故障,不会影响其他可用区的正常运行。每个地域完全独立,不同地域的可用区完全隔离,但同一个地域内的可用区之间使用低时延链路相连。为了向广大用户提供更加稳定可靠的负载均衡服务,...
共有100条 < 1 2 3 4 ... 100 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 负载均衡 云数据库 OceanBase 版 应用高可用服务 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用