故障应急协同

故障相关成员直接拉进处理群,相关成员包括故障受影响业务应急接口人”、可疑原因业务应急接口人”,并且系统自动电话通知。进群后的成员,可直接在群内签到。每个故障建议设置单独的故障处理群,群内成员均为故障的相关人,为...

设计方案

基于稳定性支柱设计原则,整体稳定性设计方案可参考如下:架构设计原则 软件系统从所有的功能都在一个应用程序内运行的单体应用架构,到不同的功能模块分别部署在不同的服务器上的传统分布式应用架构,再到服务细分通过轻量级的通信机制...

GTM如何实现同城容灾

创建1个全局访问策略,解析请求流量 选择 全局,主地址池集合 选择「业务中心01」地址池和「业务中心02」地址池,负载均衡策略 选择 返回全部地址,此设置可实现两个数据中心同时提供服务和发生故障系统自动摘除故障地址的效果。...

HTTP触发器节点

其他调度系统的触发配置 在外部调度系统中进行触发配置时,您可以通过以下三种方式:Java方式、Python方式或API调用方式。Java方式 安装Java SDK,详情可参见 开始使用。其中,DataWorks的SDK请用下面的pom配置。groupId>...

附录:SOFAStack 产品目录

只要保证消息格式不变,消息的发送方和接收方并不需要直接连接,任何一方的系统故障都不会对其他应用产生影响。分布式事务的数据一致性 应用解耦后还需要确保数据的最终一致性,利用消息队列事务消息和消息的可靠传递机制,可以在实现系统...

基本概念

通过流量分发扩展应用系统对外的服务能力,通过消除单点故障提升应用系统的可用性。API 应用程序编程接口,是一些预先定义的函数,或指软件系统不同组成部分衔接的约定。API 分组 用于将 API 进行逻辑的分组,分组下的 API 使用相同的分组...

什么是故障演练

适用场景 故障演练可适用于以下典型场景:衡量微服务的容错能力 通过模拟调用延迟、服务不可用、机器资源满载等,查看发生故障的节点或实例是否被自动隔离、下线,流量调度是否正确,预案是否有效,同时观察系统整体的QPS或RT是否受影响。...

设计原则

面向风险的应急快恢原则 在一些场景下,即使设计了各种技术手段去提高系统的冗余、保持业务的高可用,但还是避免不了生产系统故障发生,所以需要面对故障建立一个高效的故障应急流程机制和稳定的技术平台,实现故障风险实时发现、应急...

最佳实践:集成第三方调度系统

DataWorks的开放平台为您提供OpenEvent、OpenAPI等开放能力,您可通过开放平台将第三方调度系统集成到DataWorks的调度系列中,将三方调度系统的任务嵌入DataWorks的业务流程中。本文以一个示例为您介绍集成第三方调度系统时需要进行的配置...

PAI-TF概述

PAI-TF的作业都是基于底层的分布式调度系统动态调度至不同机器。当您提交PAI-TF作业时,无需担心是否需要提前申请GPU物理主机,PAI-TF所需要的GPU资源随作业的提交动态分配,随作业的结束动态释放。全局计算调度 当您在使用MaxCompute计算...

实例的节点故障处理机制

当节点发生故障后,系统会对故障节点进行检查与修复。节点故障期间实例的相关服务不可用。说明 单节点实例适用于测试、培训、非核心业务等场景,生产环境建议使用副本集实例或分片集群实例以保障服务的高可用性。副本集 图 1.副本集架构 ...

基于AnalyticDB实现城市公交系统智能化

启迪公交基于 AnalyticDB MySQL版 和DRDS建设的完整解决方案,将人、车、线、站的大数据资源及相关配套资源进行商业化转换,引领行业提升公交系统的创新能力和服务水平,助力“互联网+城市公交”的提升发展。业务挑战 启迪公交(北京)科技...

故障管理

通过建立一个规范可遵循、全流程闭环的故障管理体系,配合技术手段的提升,可以有效降低故障发生的几率,缩短故障的MTTR,最终使故障造成的破坏性趋近于0。在日常运营中,无论什么原因导致业务服务中断、服务品质下降或用户服务体验下降的...

OSS数据离线同步至MaxCompute

取值可以是调度系统参数,如 ds=${bizdate},当任务运行时,会自动替换调度系统参数。其他参数保持默认即可。配置字段映射 选择数据来源和数据去向后,需要指定读取端和写入端列的映射关系。您可以选择同名映射、同行映射、取消映射或自动...

OSS数据离线同步至MaxCompute

取值可以是调度系统参数,如 ds=${bizdate},当任务运行时,会自动替换调度系统参数。其他参数保持默认即可。配置字段映射 选择数据来源和数据去向后,需要指定读取端和写入端列的映射关系。您可以选择同名映射、同行映射、取消映射或自动...

网络架构容灾

网络是数字世界的基础设施,没有网络的联通,所有信息都无法交互,因此网络架构的设计在应用系统中至关重要,特别是针对网络架构的高可用及容灾能力的设计,是业务在异常发生时,实现快速恢复、降低业务损失的关键。云上网络规划设计 为...

故障演练

为此每一层的系统都会面向失败做设计,对下游组件零信任,确保在故障发生时可以快速的发现和处理。但这些措施在故障发生时的有效性、故障恢复工具的真实容灾能力、处理问题人员的熟练度,沟通机制、容灾措施对上层的影响等问题,平时并没有...

任务运行诊断

常见的同步任务执行问题如下:数据同步日志长时间打印WAIT 若数据同步日志长时间打印WAIT,表示DataWorks的调度系统已将同步任务下发,由于当前任务所使用的同步资源组剩余资源无法支持当前任务执行,正在等待其他任务执行完成释放资源。...

运维中心概述

查看并管理周期任务 周期任务运维为您展示任务提交到调度系统后的调度任务列表与调度环境产生的 周期实例。周期任务面板展示当前所有的调度节点,您可以在周期任务面板修改周期调度任务使用的资源组、责任人等信息。DataWorks每晚会根据 ...

故障复盘

故障复盘规范 故障复盘作为故障体系中的重要一环,整体复盘流程包括故障处理过程、改进分析、故障定责,基于包含标准化的复盘SOP、对应预防action推荐、问责管理机制,全面地回溯线上故障发生,产出故障复盘报告和改进措施,避免故障重复...

UpdateFile

由于DataWorks调度系统的规则,cron表达式有以下限制:最短调度间隔时间为5分钟。每天最早调度时间为0点5分。CycleType String 否 NOT_DAY 调度周期的类型,包括NOT_DAY(分钟、小时)和DAY(日、周、月)。该参数与 DataWorks控制台 中,...

CreateFile

每周二、周五的0点5分自动调度:00 05 00*2,5 由于DataWorks调度系统的规则,cron表达式有以下限制:最短调度间隔时间为5分钟。每天最早调度时间为0点5分。CycleType String 否 DAY 调度周期的类型,包括NOT_DAY(分钟、小时)和DAY(日、...

什么是应用高可用服务AHAS

多活容灾 多活容灾MSHA(Multi-Site High Availability),是在阿⾥巴巴电商业务环境演进出来的多活容灾架构解决⽅案,可以将业务恢复和故障恢复解耦,有基于灵活的规则调度、跨域跨云管控、数据保护等能力,保障故障场景下的业务快速恢复...

围绕混沌工程的平台实践

本文主要介绍AHAS Chaos是如何围绕混沌工程来打造故障演练服务,您可以了解到混沌工程的基本知识和AHAS Chaos的优势。混沌工程和故障演练 首先您需要了解混沌工程和故障演练的关系。以下是混沌工程官方定义:混沌工程是在分布式系统上进行...

通过OpenAPI创建、修改、删除离线同步任务

由于DataWorks调度系统的规则,cron表达式有以下限制:最短调度间隔时间为5分钟。每天最早调度时间为0点5分。CycleType String 否 NOT_DAY 调度周期的类型,包括NOT_DAY(分钟、小时)和DAY(日、周、月)。该参数与 DataWorks控制台 中,...

通过OpenAPI创建、修改、删除离线同步任务

由于DataWorks调度系统的规则,cron表达式有以下限制:最短调度间隔时间为5分钟。每天最早调度时间为0点5分。CycleType String 否 NOT_DAY 调度周期的类型,包括NOT_DAY(分钟、小时)和DAY(日、周、月)。该参数与 DataWorks控制台 中,...

运维服务内容说明

1.服务概述 阿里云运维服务(Alibaba Cloud Managed Services),基于阿里巴巴数字化运维解决方案,提供专属运维服务专家,帮助企业客户做好云上运维管理,降低运维开销和风险,提升运维效率和业务连续性,增强系统安全性和合规性,助力...

集群高可用架构推荐配置

高可用性(High Availability,HA)是指系统的设计能够确保服务可靠性和持续性的一种特性。容器服务 Kubernetes 版 基于Kubernetes架构提供了多种集群高可用保障机制,以确保集群控制面、节点与节点池、工作负载、负载均衡等维度的高可用,...

智能边缘一体机产品介绍

但是如何对智能化系统进行标准化交付集成和持续运维,集团提出了“边缘小闭环、云端大闭环”的系统建设思路。基于这个思路,进一步的对系统改造提出了如下需求:边缘自治要求:小区的业务系统能够在不连云的情况下,完成基础功能,以防总部...

故障发现

对于完成监控覆盖的核心业务场景,在异常上报时,通过工具自动检测或值班人员人工判断,及时识别风险或故障,以风险预警和故障通告的形式快速调度应急负责人上线处理,避免业务受损或降低业务受损程度。之所以设立7*24监控值班,是因为报警...

Pod诊断

容器智能运维平台 构建了基于专家经验的故障诊断系统,并基于海量数据训练了AI智能故障诊断模型。Pod诊断融合了基于专家经验和AI智能诊断两种诊断模式,进一步深入定位问题根因。Pod诊断包括诊断检查项和诊断根因。诊断检查项:包括Pod检查...

Pod诊断

容器服务平台构建了基于专家经验的故障诊断系统,并基于海量数据训练了AI智能故障诊断模型。Pod诊断融合了基于专家经验和AI智能诊断两种诊断模式,进一步深入定位问题根因。Pod诊断包括诊断检查项和诊断根因。诊断检查项:包括Pod检查、...

实时分析链路数据

如果您的应用遇到流量不均、单机故障、慢接口治理、业务流量统计、灰度发布监控等问题,可以通过应用监控的调用链分析快速定位问题代码。本文介绍如何通过调用链分析快速定位五种经典线上问题,更直观地了解调用链分析的用法与价值。背景...

可运维性咨询服务内容说明

评估系统是否具备故障演练和逃逸能力,并基于阿里巴巴多年业务的真实线上故障库的积累,通过模拟调用延迟、服务不可用、机器资源满载等,真实检验应用的高可用能力,同时考察相关人员对问题的应急能力,以及问题上报、处理流程是否合理,...

演练场景

故障演练是业务系统上线前必要的演练环节,旨在对应急预案的可行性,进一步完成应急预案,从而帮助提升产品、集群、机房的稳定性,减少故障发生,提高故障应急效率,进而提升产品竞争力。一个完整的故障演练过程为 创建故障原子服务>创建...

Pod诊断

容器智能运维平台 构建了基于专家经验的故障诊断系统,并基于海量数据训练了AI智能故障诊断模型。Pod诊断融合了基于专家经验和AI智能诊断两种诊断模式,进一步深入定位问题根因。Pod诊断包括诊断检查项和诊断根因。诊断检查项:包括Pod检查...

应用容灾

“应用多活”是“应用容灾”技术的一种高级形态,指在同城或异地机房建立一套与本地生产系统部分或全部对应的生产系统,所有机房内的应用同时对外提供服务。当灾难发生时,多活系统可以分钟级内实现业务流量切换,用户甚至感受不到灾难发生...

节点诊断

容器智能运维平台 构建了基于专家经验的故障诊断系统,并基于海量数据训练了AI智能故障诊断模型。基于专家经验和AI智能诊断两种诊断模式,节点诊断可以深入定位问题根因。节点诊断包括诊断检查项和诊断根因。诊断检查项:包括Node检查、...

全场景解决方案

能够基于已有的系统能力进行定制扩展或配置,提升复用性同时又满足差异性的要求。分布式技术能力 提供金融级分布式框架和金融级分布式数据库,支持多租户,支持海量用户的高业务并发场景。提供大数据和人工智能的中台能力建设,支持分布式...

混沌工程缓存实战系列-Redis

Redis是一个开源高性能的Key-Value存储系统,虽然Redis本身具备了非常高的可用性,但是在实际应用中也会随着系统业务的复杂性以及不合理的使用,而导致很多的问题。本文将讲述如何通过混沌工程来暴露可能存在的使用风险,提升缓存问题...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 音视频通信 负载均衡 弹性公网IP 短信服务 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用