创建DDH

关闭宿主机故障时自动迁移服务:DDH发生故障停机后,您需要 提交工单 申请置换一台健康的DDH。默认值:开启宿主机故障时自动迁移服务。您也可以在创建DDH后修改该配置,具体操作,请参见 设置宕机自动迁移。重要 本地SSD型DDH不支持宿主机...

跨地域容灾

容灾系统部署在阿里云的两个地域中,当生产站点发生故障(例如海啸、地震)时,业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域,提供容灾即服务,RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障,有效避免了地域性...

DATASOURCE:ECS:DedicatedHosts

无 ActionOnMaintenance String 当专有宿主机发生故障或者在线修复时,为其所宿实例设置迁移方案。取值:Migrate:迁移实例到其他物理机并重新启动实例。Stop:在当前专有宿主机上停止实例,确认无法修复专有宿主机后,迁移实例到其他物理...

故障演练

确保操作人员熟悉容灾恢复流程,确保在生成站点真正发生故障时,操作人员可以顺畅地进行容灾切换。前提条件 保护组处于 增量复制中 或者已有恢复点之后,您就可以进行故障演练。如何创建跨可用区和跨地域容灾的保护组,请参见 跨可用区容灾...

故障演练

确保操作人员熟悉容灾恢复流程,确保在生成站点真正发生故障时,操作人员可以顺畅地进行容灾切换。前提条件 保护组处于 增量复制中 或者已有恢复点之后,您就可以进行故障演练。如何创建跨可用区和跨地域容灾的保护组,请参见 跨可用区容灾...

工作空间管理概述

工作空间是一个独立的业务空间,常用于集团下单一品牌的数据管理和用户运营,工作空间空间管理员、组织管理员进行管理,包括:空间成员管理:添加、管理空间成员,并为成员设置空间角色,使得成员有权限在空间中进行相应的操作。空间角色...

应用场景

如果主地域发生故障,您可以将用户请求切换到灾备地域。异地多活 随着业务的快速发展和用户数量的增长,如果业务部署在单个地域中,可能会面临如下问题:用户在地理位置上分布较广,地理位置较远的用户访问延迟较高,影响用户体验。单个...

空间用户组管理

创建用户组 操作步骤:单击页面右上角,选择工作空间>工作空间>空间用户组。单击右上角 新建用户组。在弹窗中输入用户组名称,选择要加入用户组的空间成员,可多选,单击 确定。说明 一个用户可以加入多个用户组。管理用户用户组创建后...

跨可用区容灾

确保操作人员熟悉容灾恢复流程,确保在主站真正发生故障时,操作人员可以顺畅地进行容灾切换。容灾演练操作步骤如下:登录 混合云容灾管理控制台。单击 切换到连续复制型容灾。在 概览 页面,单击目标容灾站点对。在容灾中心页面,单击 受...

管理中心功能概览

说明 支持授予RAM用户空间级别自定义角色及空间级别预设角色,空间级别自定义角色需空间管理员在 空间角色 处自定义。空间级模块权限管控 空间角色 用于查看空间预设角色,或自定义空间角色。自定义角色可根据需要,配置某角色拥有的...

如何管理故障

更新故障通知:在故障处理的过程中,当故障进展发生变化,包括进度更新、影响恶化、故障等级变化、原因明确、根因定位等场景下,可更新故障过程中的内容,并在 故障详情 页点击更新故障通知,选择需要的故障通告类型,并最终确认发出故障...

组织管理概述

由组织管理员进行组织管理,包括:组织初始化:还未创建组织时,请输入组织名称,单击 创建,完成组织初始化。...其中,空间用户组管理、空间系统配置等空间级配置管理也可由空间管理员进行,请参见 空间用户组管理、空间系统配置。

应用场景

以此,降低产品使用过程中故障发生概率,提高故障恢复效率,进而实现产品高可用性的有效提升。机房级容灾 同城双活 同一个城市,建设两个机房环境,两地距离 50 km 以内,万兆光纤专线互连,业务应用层面可以两个机房同时提供业务服务,当...

诊断决策树

对于已知的明确故障,可以根据诊断现象,编排诊断决策树,进而故障发生时执行,完成故障定位。对于未知的故障,您可以依据运维经验,编排出常见的排查路径,辅助快速故障定位。新建诊断决策树 登录高可用管理控制台。在左侧导航栏上,单击 ...

创建并管理工作空间

说明 DataWorks支持授予RAM用户空间级别自定义角色及空间级别预设角色,自定义角色需空间管理员在 空间角色 处自定义。不同角色所拥有的空间模块权限存在差异,详情请参见 空间级模块权限管控。管理成员角色 用于查看空间下的预设角色或...

实例的节点故障处理机制

副本集架构 副本集实例提供多个节点供用户访问,当其中的某个节点发生故障后,系统会使用Secondary节点或隐藏节点替换故障节点继续提供服务,并对故障节点进行检查与修复。该过程对用户完全透明,可能会产生1次30秒内的连接闪断,建议您在...

名词解释

这种模式下,两个城市的三个数据中心互联互通,如果⼀个数据中心发生故障或灾难,其他数据中心可以正常运行并对关键业务或全部业务实现接管。命名空间 多活命名空间MSHA Namespace,是一个逻辑租户的概念,用于进行租户粒度的管控配置和云...

修改DNS服务器

重要 阿里云注册域名不支持同时配置多家厂商DNS服务器,因为NS记录缓存时间一般为48小时,部分场景下的故障发生时,NS缓存短时间无法消除,依然会有解析请求到故障DNS。同时不同厂商之间的解析数据不一致问题也容易引发故障。阿里云注册...

什么是消息演练

单个或多个模块都可能会有不同类型的故障发生,导致模块不能正常运行,例如Producer无法发送消息,这种场景叫做消息的演练场景。需要注意的是演练场景仅是组件表象,其内部故障原因可能是多种多样的,需要进一步进行分析。

迁移说明

空间角色管理 空间用户组管理 空间系统配置 空间接口配置 用户访问 用户访问统计 用户下载明细 新版暂不支持统计用户下载。迁移操作步骤 新版Quick Audience与旧版使用不同的数据存储体系,老客户首次使用新版时,需要按新版的要求准备数据...

对象存储OSS的审计事件

对象存储OSS已与操作审计服务集成,您可以在操作审计中查询用户操作对象存储OSS产生的管控事件。操作审计支持将管控事件投递到日志服务SLS的LogStore或对象存储OSS的存储空间中,满足实时审计、问题回溯分析等需求。操作审计记录了用户通过...

ListInstances-查询实例列表

PUBLIC:为工作空间所有用户可见。PRIVATE AcceleratorType string 否 加速器类型。CPU:无计算加速,只使用 CPU 计算。GPU:使用 GPU 进行计算加速。CPU PageNumber long 否 实例列表的页码。起始值为 1,默认为 1。1 PageSize long 否 ...

读多写少型业务场景多活实践

在杭州单元发生故障的情况下,可以使用MSHA切流功能将受影响的用户流量切换到另外的单元,进行快速业务恢复(这里区别于传统的思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦)。容灾切换预期:将...

教程概览

6、容灾预案:容灾预案可以帮助用户实现容灾演练,或发生故障时快速切换访问流量,包括创建容灾预案、执行/回滚等相关信息。7、日志信息:介绍全局流量管理运行状态的告警日志,包括:健康检查告警、健康检查恢复、地址池不可用、地址池...

如何通过 mPaaS 框架解决 App 线上问题

如果真的在线上发生故障,开发者就可以通过服务器推送开关,及时将故障代码关闭。这种推拉结合的方式,即时到达率 100%。发布 H5 离线包更新如果某些故障是发生在离线包内,在定位到问题后,可以直接通过实时发布控制台发布新的版本即可。...

2024-03-13版本

当单个可用区发生故障时,Flink作业能够在另外一个可用区正常运行,从而有效避免因单个可用区故障导致服务中断,确保作业的持续性和高可用性。同城高可用 开通实时计算Flink版 资源调整 管理项目空间 修改虚拟交换机 算子探查(公测)支持...

同城多活架构实践

在杭州单元格B的商品应用发生故障的情况下,可使用MSHA切流功能将流量全部切换到另外的单元格,进行快速业务恢复(这里区别于传统的思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦)。容灾切换...

流水单据型业务场景多活实践

在北京单元发生故障的情况下,可以使用MSHA切流功能将受影响的用户流量切换到另外的单元,进行快速业务恢复。说明 这里区别于传统的解决思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦。容灾切换...

高压缩引擎(X-Engine)介绍

高压缩引擎(X-Engine)多节点架构可用于保障集群的高可用,当系统发生故障时,可读写的主节点和只读节点之间会自动进行故障切换(Failover),保证了服务可用性不低于99.99%。高压缩引擎(X-Engine)多节点架构图如下:产品优势 超大存储...

云盘三副本技术

数据保护机制 当有数据节点损坏,或者某个数据节点上的部分硬盘发生故障时,集群中部分Chunk的有效副本数就会小于三。此时,Master就会发起自动同步任务,在Chunk Server之间复制数据,使集群中所有Chunk的有效副本数达到三份。重要 如果...

故障复盘

复盘文档一般包含以下内容:故障简述:故障概述、影响面、处理人等 故障背景:故障发生时的业务链路 故障时间线:着重强调故障引入、故障发生故障发现、业务响应、恢复执行、故障恢复几个时间点 故障原因分析:建议先一句话总结,再进行...

什么是全局流量管理?

⑤ 容灾预案:容灾预案可以帮助用户实现容灾演练,或发生故障时快速切换访问流量,包括创建容灾预案、执行/回滚等相关信息。系统架构 全局流量管理是由管控层和解析层两部分组成:管控层:管控层通过控制台和OpenAPI对外提供服务,主要实现...

查看节点健康状态

节点健康状态展示了当前节点的运行状态是否正常,它是由多个健康检查项结果汇总而成的。本文将介绍如何查看节点的健康状态和相关的健康检查项。...host_fault_compensation_check 检测是否发生故障补偿。无阈值,有故障补偿发生即为异常。

EasyCkpt:AI大模型高性能状态保存恢复

因此,在发生故障时,迫切需要一种以低成本的方法来保存最新的Checkpoint。这样在重新启动训练时就无需重复计算,从而减少时间和成本的浪费。功能介绍 针对频繁故障的情况,PAI通过之前的故障失败场景总结出以下GPU和深度学习场景故障的...

跨地域灾备

同时MaxCompute统一元数据能力支持元数据跨地域高可用,则当主集群地域发生故障且无法恢复时,通过修改项目归属地域的元数据,将项目快速切换到备份集群地域,实现业务的无缝恢复,示意图如下所示。重要 目前跨地域灾备功能处于邀测阶段,...

网络架构容灾

当地址池中地址发生故障时,HealthCheck模块会准确的检测到异常情况并与DNS交互(如下图中序号3所示),摘除故障地址(如下图中序号4所示),这样用户端会自动解析到可用的地址池(如下图中序号5所示)。并当故障地址恢复时,自动恢复至...

术语

主地址(Primary Endpoint)主节点的访问点,当发生故障切换(Failover)后,系统会将访问点自动指向新的主节点。集群地址(Cluster Endpoint)整合集群下的多个节点,对外提供一个统一的读写地址,可以设置为只读或读写。集群地址具有自动...

术语

主地址(Primary Endpoint)主节点的访问点,当发生故障切换(Failover)后,系统会将访问点自动指向新的主节点。集群地址(Cluster Endpoint)整合集群下的多个节点,对外提供一个统一的读写地址,可以设置为只读或读写。集群地址具有自动...

MaxCompute安全白皮书

跨项目空间的资源分享 假设用户是项目空间的Owner或管理员(Admin角色),用户需要申请访问用户的项目空间资源。如果申请人属于用户的项目团队,此时建议用户使用项目空间用户授权管理功能。但是如果申请人并不属于用户的项目团队,此时...

演练场景

故障演练是业务系统上线前必要的演练环节,旨在对应急预案的可行性,进一步完成应急预案,从而帮助提升产品、集群、机房的稳定性,减少故障发生,提高故障应急效率,进而提升产品竞争力。一个完整的故障演练过程为 创建故障原子服务>创建...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
物联网无线连接服务 短信服务 商标服务 负载均衡 弹性公网IP 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用