AI助手使用说明

PAI AIMaster和灵骏AI助手是一套全自动化的故障快速恢复系统。安装AI助手并开启PAI的作业监控和恢复功能后,当训练任务发生故障或异常时,能自动上报故障信息、隔离问题节点,无需人工干预即可快速恢复任务。本文为您介绍AI助手的具体配置...

副本集架构

从节点具有高可用保障,即某个从节点故障时,系统会自动将其与隐藏节点切换,若未自动切换,您可以自行切换,从节点的连接地址保持不变。说明 如何切换从节点和隐藏节点,请参见 切换节点角色。触发节点的角色切换后,会产生1次30秒内的...

计费常见问题

资源包在购买后会立即生效,将自动抵扣购买时间之后的文件系统存储费用。生效时间按整点计算,失效时间为到期日次日的零点。例如,您在2022-03-01 09:15:00成功购买了一个10 TiB的CPFS资源包,有效期为一年,则该容量包的生效时间和计费...

访问策略配置

重要 如未设置备地址池集合,则代表当主地址池集合出现故障时,系统将摘除故障地址,但不支持故障切换。如主地址池集合摘除故障地址后,还有存活的IP地址,那么则响应剩余存活的IP地址。基于访问延时的访问策略配置 在 基本配置 页面,点击...

可运维性咨询服务内容说明

乙方专家团队通过对甲方应用系统和云平台的调研,评估系统是否具备故障演练和逃逸能力,并基于阿里巴巴多年业务的真实线上故障库的积累,通过模拟调用延迟、服务不可用、机器资源满载等,真实检验应用的高可用能力,同时考察相关人员对问题...

进入Linux系统的单用户模式

在某些特殊场景下(例如排查Linux实例启动故障、修复系统异常、维护硬盘分区或root用户被锁定,需要修改密码),您可以通过Linux系统系统引导器(GRUB)进入单用户模式进行操作。在该模式下,只启动最基本的组件和服务,并且操作者拥有...

混沌工程缓存实战系列-Redis

Redis是一个开源高性能的Key-Value存储系统,虽然Redis本身具备了非常高的可用性,但是在实际应用中也会随着系统业务的复杂性以及不合理的使用,而导致很多的问题。本文将讲述如何通过混沌工程来暴露可能存在的使用风险,提升缓存问题的...

基于ack-lingjun-aiast组件实现集群自动化运维

系统能够实时监测并分析系统的运行状态,快速检测故障并采取恢复措施,例如硬件故障、网络故障、软件错误等,从而降低运维成本,提高系统可靠性和稳定性。组件介绍 安装灵骏AI助手开启PAI的作业监控和恢复功能后,当发生故障或异常时,...

测试指标

集群 对于使用集群方式的系统,主要通过以下方式考量其集群可靠性:集群中某个节点出现故障时,系统是否有业务中断情况出现。在集群中新增一个节点时,是否需要重启系统。当故障节点恢复后,加入集群,是否需要重启系统。当故障节点恢复后...

集群版-单副本

纯缓存应用 单副本集群版的分片服务器由单节点组成,分片服务器某节点出现故障时,系统会重新拉起一个Redis进程(没有数据),当节点故障业务自动切换完成后,数据将会丢失,有可能流量被冲击到后端数据库,需要做好应用程序的预热保护机制...

基于Kubernetes容器集群的容灾架构与方案

在进行系统架构设计时,您必须考虑到信息系统和基础设施可能遇到的各种潜在威胁,例如:硬件故障、软件系统崩溃、人为操作失误、安全攻击、自然灾害等。为了确保系统能够在各种异常故障场景下快速恢复并保持业务连续性,您必须为系统设计...

快速开始

云速搭CADT为您提供应用架构...容灾管理服务 容灾管理服务提供规划、优化、部署、演练高可用业务的能力,在业务上线前及业务上线后定期进行容灾演练,验证系统是否能够抵御资源故障或者AZ故障,检验系统健壮性,详细内容请查看 容灾管理服务。

MongoDB只读节点简介

只读节点与从节点的区别 节点 说明 适用场景 只读节点(ReadOnly)只读节点具有高可用保障,即某个只读节点故障时,系统会自动将其与隐藏节点切换,若未自动切换,您可以自行切换,只读节点的连接地址保持不变。说明 如何切换只读节点和...

功能特性

高可用 OceanBase 数据库采用基于无共享(Shared-Nothing)的多副本架构,让整个系统没有任何单点故障,保证系统的持续可用。支持单机、机房、城市级别的高可用和容灾,可以进行单机房、双机房、两地三中心、三地五中心部署。经过实际测试...

ECS系统事件汇总

Canceled:因系统维护实例重新部署已取消 阿里云检测到ECS实例的底层宿主机存在潜在的软硬件故障风险,该风险会导致ECS实例重新部署,且该风险还未直接成为故障,在系统维护计划执行时间前24~48小时发送该系统事件。重要 使用了本地SSD盘...

云数据库Redis版是否开放了从节点?

当主节点出现故障,HA系统会自动进行主从切换,保证业务平稳运行。高可用类型的集群架构也是由多个主从(Master-Replica)双节点组成,其中从节点仅用于故障切换(HA),不提供读写服务。如需使用只读节点实现读写分离场景,您可以使用读写...

配置快速倒换组

物理专线链路故障时,系统从探测出链路中断到完成路由切换消耗的时长约为秒级。您可以将2个VBR配置为一个快速倒换组,当BFD(Bidirectional Forwarding Detection)探测到链路故障后,流量自动从故障链路的VBR快速切换到备份VBR,完成亚秒...

基础术语

通过流量分发扩展应用系统对外的服务能力,通过消除单点故障提升应用系统的可用性。IAM 蚂蚁科技身份访问管理(Identity and Access Management,IAM)控制台是管理成员、分配权限、管理身份源、查看操作记录的平台。OceanBase OceanBase ...

常见问题

code=exited”错误 启动SSH服务时出现“error while loading shared libraries”错误 ECS网络问题 Windows实例ping外网地址提示“一般故障”Linux系统的ECS中没有禁ping却ping不通的解决方法 使用ping命令测试ECS实例时ping不通的排查方法 ...

8.0.1和8.0.2版功能对比

当数据可用区故障时,系统可以自动切换到备用数据可用区,且数据0丢失。当日志可用区故障时,不影响业务正常运行。支持 支持 全球数据库GDN 全球数据库网络是由分布在全球不同地域(Region)内的多个数据库组成的一张网络。网络中所有 ...

ack-node-repairer

当Node Problem Detector(简称NPD)组件检测到节点上的故障并生成节点的事件(Event)或者Condition上报给集群时,ACK的自愈系统(ACK Node Repairer)会监听每个节点上的新故障事件,并根据配置对故障节点进行相应的修复操作。...

容灾预案

系统则会将故障地址池中的地址全部设置为 永远离线 的工作模式,地址池状态变为不可用,并按照您配置的访问策略自动执行切换。注意:永远离线是地址的一种工作模式,您可以参阅 地址池配置 文档来了解地址工作。6.回滚 指容灾演练或流量...

什么是消息演练

这些消息服务之前并没有在系统中实际经历过真实流量考验,其中某些隐患或缺陷很难被发现,急需通过故障演练来评测高可用性。AHAS提供了强大且高灵活度的故障演练功能,可以根据不同的场景注入对应的故障类型。为了使您的演练服务更便捷,...

查看历史系统事件

您可以查询过去一周内已处理的云服务器ECS系统事件,获取故障诊断和复盘分析数据。通过控制台查看 登录 ECS管理控制台。在左侧导航栏,单击 事件。在 事件 页面,您可以选择相应的事件类型查看不同地域下的系统事件,获取实例ID、事件类型...

演练场景

故障演练是业务系统上线前必要的演练环节,旨在对应急预案的可行性,进一步完成应急预案,从而帮助提升产品、集群、机房的稳定性,减少故障的发生,提高故障应急效率,进而提升产品竞争力。一个完整的故障演练过程为 创建故障原子服务>创建...

功能概述

③ 容灾演练或流量切换完成后,如希望恢复到执行前的访问策略,那么可以通过 回滚功能 实现,操作回滚,系统则会将故障地址池中的地址恢复为“智能返回”的工作模式,并会恢复访问策略。使用指南您可以参阅 容灾预案 文档。

自动或手动主备切换

当主实例发生故障或不可用时(例如操作系统错误、硬件故障等),系统会自动触发主备切换,主实例和备实例将进行互换,切换后实例地址保持不变,应用程序会自动连接到新的主实例(原备实例),从而保障业务的连续性和高可用性。此外,您还...

I-V曲线诊断

数据服务中提供光伏智能运维的IV曲线诊断算法,结合环境光强度、环境温度等影响因素,对组串式光伏发电阵列的电流-电压曲线(I-V曲线)进行分析,检测系统可能出现的故障,进而提高设备的运行效率,保障电站高效运行。本文介绍光伏智能运维...

购买UEM

使用终端访问控制系统的功能之前,您需要先购买UEM。本文介绍如何购买UEM。操作步骤 登录 终端访问控制系统控制台。单击 立即开通,进入产品购买页面。在购买页面按需配置购买参数。可参考以下表格配置参数。参数 说明 商品类型 选择您需要...

可观测性的设计原则

日志记录 系统需要记录关键事件和故障,以帮助诊断问题和解决故障。对于一个系统来说,日志是非常重要的。它可以记录在系统中发生的一切,包括成功的操作、错误的操作、警告信息等等。因此,日志记录是可观测性设计中最基本的需求之一。...

云数据库Redis版是否支持主从节点的故障切换?

云数据库Redis版支持自动执行主从节点的故障切换。主从(Master-Replica)节点之间的同步和故障切换,由系统来自行管理,无需用户来维护。

什么是混合云容灾服务

解决的核心问题 混合云容灾解决的核心问题如下:应用级容灾保障业务持续性(Business Continuity):在数据中心故障或长时间系统维护作业时,在云上快速恢复应用运行,缩短业务停机时间,极大减少损失。数据级容灾:在数据中心备份您的数据...

操作系统迁移中问题(Windows)

本文介绍Windows操作系统迁移相关的故障问题及解决方案。异常报错提示Run OSM Check Script Error,错误码M10_1001,怎么办?异常报错提示Run OSM Check Script Error,错误码M10_1002,怎么办?异常报错提示Run OSM Check Script Error,...

系统账号说明

PolarDB MySQL版 提供了多种类型的...实例故障时,管控系统通过该账号登录实例执行管控操作,例如主备切换、实例监控等。replicator 主从复制账号。用于主节点和备节点之间的数据同步。说明 在您创建数据库账号时,请勿与以上系统账号重名。

订阅事件通知

云监控的报警服务为您提供以下两种报警通知能力,当阿里云产品发生系统异常时,您可以及时知晓发生的事件,并自动处理异常事件(例如云产品故障)。提供通过 短信、邮件、钉钉机器人的方式,对事件发生进行报警。提供将事件分发到您的消息...

DDH常见问题

阿里云为您提供DDH故障迁移服务,开启服务后,DDH因故障停机时,会自动迁移至健康的DDH。更多信息,请参见 修改DDH故障迁移配置。购买DDH时怎么选择云盘和公网带宽?创建DDH的时候不需要选择云盘和公网带宽,在DDH上创建ECS实例的时候才...

订阅事件通知

云监控的报警服务为您提供以下两种报警通知能力,当阿里云产品发生系统异常时,您可以及时知晓发生的事件,并自动处理异常事件(例如云产品故障)。提供通过 短信、邮件、钉钉机器人的方式,对事件发生进行报警。提供将事件分发到您的消息...

使用rsync工具迁移数据

两个NAS文件系统的存储费用,推荐购买资源包抵扣。关于NAS的计费详情,请参见 计费概述。如果还涉及使用云企业网连通VPC网络,云企业网会根据使用的转发路由器和跨地域连接收取费用。关于云企业网的计费详情,请参见 计费说明。准备工作 ...

性能监控最佳实践

提高故障排查效率:当系统或应用出现故障时,传统的性能监控方案通常需要IT运维人员手动分析监控数据来确定故障原因,这样会浪费大量的时间和精力。而一体化性能监控能够对多种关联的监控数据进行自动分析和处理,帮助IT运维人员快速定位...

网络游戏:心动网络股份有限公司

PolarDB 采用存储和计算分离的架构,提供分钟级的配置升降级、秒级的故障恢复、全局数据一致性和免费的数据备份容灾服务,既融合了商业数据库稳定可靠、高性能、可扩展的特征,又具有开源云数据库简单开放、自我迭代的优势。本文介绍心动...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
负载均衡 云数据库 Memcache 版 数据库自治服务 应用高可用服务 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用