调度中心

本文介绍调度中心功能的具体使用流程,帮助您快速掌握创建、查看及使用调度。...将您的迁移任务加入调度后,您可以通过调度列表的 任务详情 观察任务的执行情况,也可以 点击调度名称,查看任务任务概览。

云盘异步复制概述

启动云盘异步复制功能 通过异步复制功能实现容灾恢复 您创建并启动云盘异步复制关系后,如果主盘发生故障,您可以通过异步复制提供的故障切换以及反向复制功能对主盘进行容灾恢复。通过异步复制功能实现容灾恢复 删除云盘异步复制关系 创建...

GTM如何实现异地容灾

两地三中心容灾架构,是指在同城双中心的基础上,在异地的城市建立一个备份的灾备中心,用于双中心的数据备份,当双中心出现自然灾害等原因而发生故障时,异地灾备中心可以用备份数据进行业务的恢复。目标读者 企业网络部、业务运维部工作...

如何在SchedulerX 2.0平台上托管ElasticJob任务

高可用 SchedulerX 2.0采用高可用架构,任务多备份机制,经历阿里集团多年双十一、容灾演练,可以做到整个集群任意2个节点发生故障或者任意一个机房断电,任务调度都不会受到影响。与开源ElasticJob的区别 对比项 开源ElasticJob ...

什么是故障演练

适用场景 故障演练可适用于以下典型场景:衡量微服务的容错能力 通过模拟调用延迟、服务不可用、机器资源满载等,查看发生故障的节点或实例是否被自动隔离、下线,流量调度是否正确,预案是否有效,同时观察系统整体的QPS或RT是否受影响。...

故障复盘

复盘文档一般包含以下内容:故障简述:故障概述、影响面、处理人等 故障背景:故障发生时的业务链路 故障时间线:着重强调故障引入、故障发生故障发现、业务响应、恢复执行、故障恢复几个时间点 故障原因分析:建议先一句话总结,再进行...

GTM如何实现同城容灾

创建1个全局访问策略,解析请求流量 选择 全局,主地址池集合 选择「业务中心01」地址池和「业务中心02」地址池,负载均衡策略 选择 返回全部地址,此设置可实现两个数据中心同时提供服务和发生故障时系统自动摘除故障地址的效果。...

数据传输作业:数据集成

在配置同步任务前,您需要确保数据集成资源与您将同步的数据源网络环境已经连通,详情请参见 配置资源与网络连通。实时同步 DataWorks提供的实时数据同步功能,使用单表或整库同步方式,将源端数据库中部分或全部表的数据变化实时同步...

步骤五:应用容灾

确保操作人员熟悉容灾恢复流程,当主站真正发生故障时,操作人员可以顺畅地进行容灾切换。按如下步骤进行容灾演练:在 受保护服务器 页签,单击要启动容灾演练服务器右侧对应的 操作 列表下的 容灾演练。在 容灾演练 页面,选择 恢复网络、...

如何在SchedulerX 2.0平台上托管ElasticJob任务

高可用 SchedulerX 2.0采用高可用架构,任务多备份机制,经历阿里集团多年双十一、容灾演练,可以做到整个集群任意2个节点发生故障或者任意一个机房断电,任务调度都不会受到影响。与开源ElasticJob的区别 对比项 开源ElasticJob ...

基本概念

节点实例的状态如下:运行中(RUNNING)暂停(SUSPEND)失败(FAIL)成功(SUCCESS)终止中(KILLING)跳过(SKIPPED)取消(CANCELLED)排队中(QUEUED)任务流 任务流是由多个任务节点组合编排出的任务组,任务之间可以有依赖关系,整个...

EMR Kafka磁盘故障运维

当磁盘发生故障时,应及时完成相关故障的处理,及时恢复集群的容错能力。磁盘运维概述 本文从磁盘监控和磁盘故障恢复角度来介绍磁盘运维策略。磁盘监控 以下内容从Kafka服务层面以及ECS系统层面来简单了解一下磁盘的监控策略。Kafka服务...

如何在SchedulerX 2.0平台上托管ElasticJob任务

高可用 SchedulerX 2.0采用高可用架构,任务多备份机制,经历阿里集团多年双十一、容灾演练,可以做到整个集群任意2个节点发生故障或者任意一个机房断电,任务调度都不会受到影响。与开源ElasticJob的区别 对比项 开源ElasticJob ...

故障管理

通过建立一个规范可遵循、全流程闭环的故障管理体系,配合技术手段的提升,可以有效降低故障发生的几率,缩短故障的MTTR,最终使故障造成的破坏性趋近于0。在日常运营中,无论什么原因导致业务服务中断、服务品质下降或用户服务体验下降的...

查看应用分组

创建应用分组后,您可以查看应用分组的内资源、监控视图、故障列表、可用性监控等数据,并执行相关操作。通过应用分组集中管理资源,便于您及时接收故障资源的报警通知,并及时处理故障。操作步骤 登录 云监控控制台。在左侧导航栏,选择...

围绕混沌工程的平台实践

本文主要介绍AHAS Chaos是如何围绕混沌工程来打造故障演练服务,您可以了解到混沌工程的基本知识和AHAS Chaos的优势。混沌工程故障演练 首先您需要了解混沌工程故障演练的关系。以下是混沌工程官方定义:混沌工程是在分布式系统上进行...

管理运行任务

本文介绍如何在基因分析平台中查看、停止和恢复运行任务。用户在基因分析平台中成功创建运行任务后,系统会自动进行解析和执行,直到完成或者失败。在此过程中,用户可以随时查看运行任务的执行进度,任务日志和性能监控等情况。查看运行...

步骤七:故障切换

保护进入增量复制状态后,您就可以进行故障切换操作。本文介绍故障切换和恢复的基本操作。故障切换类型 数据同步后切换 该故障切换会先停止保护中被保护的实例,并且等到所有被保护的实例停止后再进行最后一轮数据同步,等待数据同步...

步骤七:故障切换

故障切换完成后,保护状态变更为 故障切换成功。容灾切换完成后,单击保护对应的管理保护实例,进入 保护实例列表 页面。单击 容灾站点实例ID/名称 下的链接,验证ECS数据与应用。验证完成后,在保护的 操作 列,单击,选择 正向保护...

如何管理故障

故障发生条件 当事件重要程度上升、整体影响面恶化、持续长时间未解决,综合评估已达到故障时(P1-P4),处理人可手动将事件升级为故障。当报警来源的指标持续恶化,触发故障产生规则,系统自动产生故障。故障过程 故障过程用于记录管理...

步骤七:故障切换

故障切换完成后,保护状态变更为 故障切换成功。容灾切换完成后,单击保护对应的管理保护实例,进入 保护实例列表 页面。单击 容灾站点实例ID/名称 下的链接,验证ECS数据与应用。验证完成后,在保护的 操作 列,单击,选择 正向保护...

流水单据型业务场景多活实践

说明 基于MSHA流量监控或其他监控能力,确定业务稳态的监控指标,以便在故障发生时判断故障影响面以及在故障恢复后判断业务的实际恢复情况。演练预期如下:下单链路对订单应用是强依赖,强依赖故障会影响业务不可用。故障爆炸半径控制在...

可选:运维SQL分析任务

SQL分析任务上线后,您可以查看SQL分析任务的基本信息和配置情况,以及SQL分析任务的调度情况。本文介绍运维SQL分析任务的操作步骤。前提条件 已配置并发布SQL分析任务,具体操作,请参见 步骤三:设置任务调度策略并发布。背景信息 SQL...

步骤七:故障切换

保护进入增量复制状态后,您就可以进行故障切换操作。本文介绍故障切换和恢复的基本操作。故障切换类型 数据同步后切换 该故障切换会先停止保护中被保护的实例,并且等到所有被保护的实例停止后再进行最后一轮数据同步,等待数据同步...

网络架构容灾

当地址池中地址发生故障时,HealthCheck模块会准确的检测到异常情况并与DNS交互(如下图中序号3所示),摘除故障地址(如下图中序号4所示),这样用户端会自动解析到可用的地址池(如下图中序号5所示)。并当故障地址恢复时,自动恢复至...

读多写少型业务场景多活实践

在杭州单元发生故障的情况下,可以使用MSHA切流功能将受影响的用户流量切换到另外的单元,进行快速业务恢复(这里区别于传统的思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦)。容灾切换预期:将...

SanityCheck:算力健康检测

功能介绍 在执行DLC任务时,可能会遇到以下问题:在任务花费一定时间加载模型Checkpoint或其他初始化操作后,由于申请的资源存在故障,无法顺利开始训练,需要调查定位故障问题并重新提交任务。该过程中会导致GPU资源的浪费。在任务运行...

API概览

FailoverDiskReplicaGroup 启用异步复制组故障切换 启用一致性复制中复制对的故障切换功能。当一致性复制中某些复制对的主盘出现故障时,可以调用该接口恢复从盘的读写权限。ReprotectDiskReplicaGroup 启用异步复制反向复制 启用...

支持计划

配置指导以及故障排除 配置指导以及故障排除 配置指导以及故障排除 专属技术服务经理 不支持 不支持 专属技术服务经理(TAM)健康检查 可免费使用应用高可用服务(AHAS)应用架构核心巡检规则,使用受限节点架构可视化功能 可免费使用智能...

MySQL分库分表同步至Hologres(方案2.0)

步骤八:资源配置 运行当前同步解决方案将产生多个离线同步子任务和一个实时同步子任务,您可以单击界面右上方的 资源配置,查看并切换当前的任务所使用的离线同步资源和实时同步资源。说明 离线和实时同步任务推荐使用不同的资源...

复制简介

数据 强 一致性 在复制中,事务总是先传输到集群中其他节点,然后写入Binlog文件,这保证无论主节点在什么时刻发生故障,重新启动后数据都不会比集群选出的新主节点多。旧主节点故障重启后,能够自动加回集群,拉取它缺失的Binlog,就...

诊断决策树

对于已知的明确故障,可以根据诊断现象,编排诊断决策树,进而故障发生时执行,完成故障定位。对于未知的故障,您可以依据运维经验,编排出常见的排查路径,辅助快速故障定位。新建诊断决策树 登录高可用管理控制台。在左侧导航栏上,单击 ...

AIMaster:弹性自动容错引擎

配置容错消息通知 任务开启容错监控后,如果您希望容错发生时可以进行通知,比如任务发生了重启,那么您可以在 工作空间详情,选择 事件中心,点击 新建事件规则,事件类型选择 DLC任务>任务自动容错。具体操作,请参见 工作空间事件中心。...

云监控告警

事件名称 事件所属类型 说明 IP流量告警 数据监控告警 您可以设置数据监控报警通知,及时获知指标数据发生的异常,并在发生故障时及时发现问题,缩短故障处理时间,以便尽快恢复业务。连接数告警 QPS告警 状态码告警 DDoS黑洞事件告警 事件...

查看并管理脚本任务

脚本任务页面包含计算任务、同步任务和集成任务,每个任务对应一个调度节点,本文以节点视角为您介绍如何查看并管理脚本任务。脚本任务页面入口 在Dataphin首页,单击顶部菜单栏的 研发。默认进入数据 开发 页面。按照下图操作指引,进入 ...

通过一致性复制实现容灾恢复

当您创建并启动一致性复制后,如果生产站点中的云盘发生严重故障,您可以通过一致性复制批量对生产站点的云盘数据进行容灾恢复。本文主要介绍如何通过一致性复制进行容灾恢复。背景信息 一致性复制支持故障切换和反向复制功能,当...

诊断规则

而后,在实际故障发生时,即可执行自动化、标准化的故障排查,并直接输出诊断报告,反馈诊断结果。故障诊断功能有效提升了故障排查效率,实现故障的快速定位与处理。本节将向您介绍诊断规则的相关操作。诊断规则是诊断节点的构成,诊断规则...

全局概览

运维监控支持查看工作内和租户内的任务概览,包括今日失败实例、当前任务流总数、当前任务总数、今日实例总数、实例统计、历史实例运行统计,以便了解 数据资源平台 的任务全局信息。本文介绍了查看全局概览。查看全局概览 登录 数据资源...

日志管理

如果发生故障,您可以下载日志或提供日志上传路径给阿里云工程师定位问题。下载日志 在浏览器中,输入 https://<块网关IP地址>访问本地块网关控制台。输入用户名和密码,单击 确认。单击 关于,进入 关于系统 页面。找到 日志信息 区域,...

全局概览

运维监控支持查看工作内和租户内的任务概览,包括今日失败实例、当前任务流总数、当前任务总数、今日实例总数、实例统计、历史实例运行统计,以便了解 企业数据智能平台 的任务全局信息。本文介绍了查看全局概览。查看全局概览 登录企业...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云消息队列 RocketMQ 版 对象存储 云数据库 MongoDB 版 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用