AI助手使用说明

安装AI助手并开启PAI的作业监控和恢复功能,当训练任务发生故障或异常时,能自动上报故障信息、隔离问题节点,无需人工干预即可快速恢复任务。本文为您介绍AI助手的具体配置方法。前提条件 已创建带有ACK灵骏托管版的集群。具体操作,请...

跨地域容灾

说明 若受保护服务器表格未显示 故障切换/故障恢复信息 列,请单击 设置可见列 配置即可。如果检查发现当前时间点应用运行正常,选择 更多>故障切换>确认故障切换,确认故障切换。说明 在故障切换或者切换恢复点完成,并且已经确认被容灾...

故障演练

故障演练能力是ADP基于阿里云故障演练产品AHAS提供的一项能力,在线上集成环节即可对线下交付中常见的各类故障场景下产品编排的容错性、可靠性和可恢复性进行演练,保障编排稳定可靠。在进行故障演练之前,需要进行以下步骤:创建产品;...

跨可用区容灾

说明 若受保护服务器表格未显示 故障切换/故障恢复信息 列,请单击 设置可见列 配置即可。如果检查发现当前时间点应用运行正常,选择 更多>故障切换>确认故障切换,确认故障切换。说明 在故障切换或者切换恢复点完成,并且已经确认被容灾...

设计方案

知识图谱:知识图谱是指通过将各种数据和知识进行关联和组织,建立一种知识库或知识图谱,以便在故障发生时快速定位和解决问题。在应急响应中,知识图谱可以指导故障排查和处理工作,提高效率和准确性。知识图谱可以使用各种工具和技术,如...

故障复盘

故障复盘规范 故障复盘作为故障体系中的重要一环,整体复盘流程包括故障处理过程、改进分析、故障定责,基于包含标准的复盘SOP、对应预防action推荐、问责管理机制,全面地回溯线上故障的发生,产出故障复盘报告和改进措施,避免故障重复...

应用场景

体系化故障闭环管理 应用场景 基于阿里多年base ITIL实践经验沉淀的故障管理体系,满足企业重大故障的流程、在线管理需求,持续提升业务连续性。能够解决 故障应急:支持故障全局应急通告,电话、短信、邮件、IM多种通知渠道,加快信息...

什么是故障

本文主要介绍什么是故障。定义 在日常运营中,无论什么原因导致业务服务中断、服务品质...故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘故障都能对业务连续性形成改进,避免历史同类故障重复发生。

采集ping和tcping数据

本文介绍通过Logtail采集ping和tcping数据到日志服务Metricstore的操作步骤。前提条件 已创建Project和MetricStore。具体操作,请参见 创建Project 和 创建MetricStore。使用限制 只有Linux Logtail 1.0.31及以上版本的Logtail支持采集ping...

Linux系统ping默认DNS地址时出现“sendmsg:Operation ...

问题描述 访问网站慢,ping默认DNS地址显示如下。ping本地回环地址显示如下。ping:sendmsg:Operation not permitted 系统负载不高,网络线路通畅,资料库无死锁进程。系统日志出现大量信息,如下所示。kernel:printk:xxxx messages ...

配置DDoS高防无法Ping

本文主要介绍配置DDoS高防无法Ping通的解决方法。适用于 云安全防御 详细信息 确认DDoS高防实例的状态。如果DDoS高防实例处于黑洞状态,则无法被外网访问。您可以在 DDoS高防控制台 的 实例管理 页面,查询DDoS高防实例的 实例状态。确认...

设置宕机自动迁移

为了降低物理故障对业务的影响,阿里云为您提供专有宿主机DDH宕机自动迁移的功能。本章节介绍在创建DDH如何开启或者关闭宕机自动迁移。背景信息 宕机自动迁移开启,当DDH因故障停机时,会自动迁移至健康的DDH。若您未开启宕机自动迁移...

步骤五:应用容灾

当被保护的服务器完成阿里云复制服务(AReS)安装并重启,您就可以对受保护的服务器启动、停止容灾复制、故障切换、容灾演练等一系列的应用容灾操作。前提条件 已安装阿里云复制服务。更多信息,请参见 步骤四:安装阿里云复制服务。操作...

上汽通用:借助云效实现发版周期缩短一半,自动化率...

改进 通过与阿里云云效平台合作,上汽通用重点在6大方面进行了尝试和改进:提升了持续交付的能力,带来了价值的持续交付 将项目过程中的质量控制内建到自动构建过程中 持续交付价值和度量的显性 研发流程的标准和平台管理 研发模式的...

FAQ类目管理

要在对话机器人中配置FAQ知识首先要管理有关FAQ知识,而 FAQ知识的管理 主要包括FAQ类目管理和FAQ管理。FAQ类目管理是指对 FAQ进行分类整理,这不仅可以使FAQ展示的更加清晰,而且使得FAQ知识维护更加方便高效。说明 FAQ管理是指对具体FAQ...

配置健康检查

在云企业网和本地数据中心存在冗余路由的场景下,健康检查探测到物理专线故障后支持自动切换到可用路由,保障流量传输不中断。背景信息 工作原理 在您为VBR实例配置健康检查,阿里云默认每隔2秒从每个健康检查源IP地址向本地数据中心的...

什么是云网管

系统提供远程集中式标准的运维平台,各类物理资源可纳管,所有网络业务可编排,性能指标可定义,通过全协议交互支持和可视引擎,面向运维视角开放完整能力,用自动化替代人工,打造基础设施一体稳定体系,助力企业伙伴解决运维难题。...

故障应急协同

故障通告及更新 基于7x24监控值班工作特性,对于业务异常达到故障等级时,以用户定制的(语音、短信、IM)的方式在约定时间内将故障影响信息以及处理进展通知给对应的接收人/组,并持续更新直至故障结束。故障应急协同群 故障发生,可以...

GTM实现跨网访问加速与故障切换

概述 方案介绍 大部分企业的应用服务都会使用多个运营商的IP地址,因此可能会存在跨网延迟、丢包、故障不可用等问题,而全局流量管理产品方案可以根据用户请求源地址的运营商,解析就近的应用服务器IP地址,实现就近接入、访问加速、故障...

故障基础数据管理

服务组&值班表管理 将故障应急的相关人员群体,通过前置到故障场景的干系人做绑定配置,同时支持服务组和值班表,实现故障启动后自动快速通知负责人上线处理的效果。在设计相应的管理方案时,需要考虑以下内容:服务组:提供服务的人员群体...

跨可用区容灾

当生产站点因为不可抗力因素(比如机房火灾、断电)或者设备故障(软、硬件破坏)导致应用在短时间内无法恢复时,ECS容灾服务支持业务的跨可用区(Availability Zone)的容灾能力,对整体的应用做容灾备份来应对单地区的故障,满足业务的...

动态与公告

全局流量管理(GTM)新版发布计划(20201116)阿里DNS将于2020年11月16日对全局流量管理进行版本升级,新版本发布,原历史版本在云解析DNS控制台仍可继续使用,使用历史版本的用户不受影响。发布内容 新版GTM提供标准版、旗舰版两个版本...

业务连续性

主服务异常时,全局流量管理服务执行的健康检查失败指定的次数,会自动将域名解析指向备服务,从而实现自动的主备切换。主服务故障期间,流量切换到了备服务,数据会记录在备服务的存储服务中。因此在故障恢复,还需要将备地域的数据...

使用集群诊断

容器智能运维平台 提供一键故障诊断能力,包括Pod诊断、Service诊断、Ingress诊断,可以辅助您定位集群中出现的问题。本文介绍如何在ACS集群中使用集群诊断功能。前提条件 已创建ACS集群。具体操作,请参见 创建ACS集群。确保ACS集群运行...

同城多活架构实践

说明 基于MSHA流量监控或其他监控能力,确定业务稳态的监控指标,以便在故障发生时判断故障影响面以及在故障恢复判断业务的实际恢复情况。演练预期:电商首页展示的查询链路对商品应用是强依赖,强依赖故障将导致业务不可用,且故障的...

故障演练

故障演练是整体容灾流程中极其重要的一环。本文介绍ECS容灾中故障演练的操作流程。故障演练的意义 故障演练将被容灾保护的服务器在云上拉起并验证应用正确性,是容灾流程整体中及其重要的一环,它的核心意义在于:方便地验证被容灾保护的...

故障演练

故障演练是整体容灾流程中极其重要的一环。本文介绍ECS容灾中故障演练的操作流程。故障演练的意义 故障演练将被容灾保护的服务器在云上拉起并验证应用正确性,是容灾流程整体中及其重要的一环,它的核心意义在于:方便地验证被容灾保护的...

如何配置流转规则

如 P3 故障持续 60分钟未解决 自动升级至 P2。故障升级仅支持逐级上升,不可跨级上升。业务监控来源:触发事件&报警&故障 重要 以下规则 仅适用于业务监控 的监控源。且进行流转规则配置时,会按当前 关联服务 进行告警数据过滤,因此...

跨地域容灾

容灾系统部署在阿里云的两个地域中,当生产站点发生故障(例如海啸、地震)时,业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域,提供容灾即服务,RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障,有效避免了地域性...

使用集群诊断

容器智能运维平台 提供一键故障诊断能力,包括节点诊断、Pod诊断、Service诊断、Ingress诊断、内存诊断、网络诊断,可以辅助您定位集群中出现的问题。本文介绍如何在ACK集群中使用集群诊断功能。前提条件 已创建Kubernetes托管版集群。具体...

GTM如何实现异地容灾

概述 方案介绍 异地容灾是指应用服务部署在不同地域时,当其中一地出现故障时,全局流量管理(简称GTM)可以将出现故障地域的用户访问流量,调度至异地灾备中心,保障用户访问连续不间断。本文将以两地三中心灾备架构为读者讲解异地灾备的...

GTM如何实现同城容灾

概述 方案介绍 同城容灾指应用服务部署是多机房、单地域时,当其中一机房出现故障时,全局流量管理(简称GTM)可实现业务7*24小时稳定运行,即使单机房故障也不影响业务的可持续性,保障用户访问连续不间断。本文将以同城双活的灾备架构为...

通过VPN网关实现本地数据中心访问阿里云NAS

确认ping,在本地数据中心的服务器上挂载VPC内的文件系统。具体操作,请参见 挂载文件系统。跨地域挂载文件系统至ECS 已部署一台VPN网关时跨地域挂载文件系统 此处以处于不同地域的VPC1和VPC2为例进行说明。创建文件系统和挂载点。登录...

功能概述

使用自动化方式替代需要手工重复的部分,例如自动化数据生成、自动测试、自动分析报告展示等。由于压测工具对应的SQL与真实业务差距大,所以压测结果无法准确反映出真实业务场景下实例的性能和稳定性变化。DAS提供的智能压测,通过获取用户...

健康检查

概述 开启健康检查是指对地址池中的IP地址配置健康检查,开启可实现实时监测应用服务的可用性状态,并最终帮助企业实现自动故障隔离和自动故障切换的功效。健康检查的类型,包括:ping监控、tcp监控、http(s)监控的配置相关。前提条件 已...

服务等级目标SLO概述

短时间内的高故障率和低故障率且持续时间较长的故障才能触发告警,避免不必要的告警分散运维人员的精力从而错过真正关键的问题。多窗口能够在计算一段时间的故障率时同时设置一个短时间窗口,当短时间窗口内的故障率低于阈值时结束告警。...

服务等级目标SLO概述

短时间内的高故障率和低故障率且持续时间较长的故障才能触发告警,避免不必要的告警分散运维人员的精力从而错过真正关键的问题。多窗口能够在计算一段时间的故障率时同时设置一个短时间窗口,当短时间窗口内的故障率低于阈值时结束告警。...

容灾恢复

集群中通常一个服务有多个服务提供者,其中部分服务提供者可能由于网络、配置、长时间 fullgc、线程池满、硬件故障等导致长连接还存活但是程序已经无法正常响应。单机故障剔除功能会将这部分异常的服务提供者进行降级,使客户端的请求更多...

ping不通云服务ECS(SAG-1000)

本文介绍SAG-1000设备无法ping通ECS实例的原因和处理方法。问题现象 终端无法连接到阿里云,例如ping不通同CEN的ECS。可能原因 终端到设备的链路故障。设备到阿里云的VPN链路故障。目标ECS故障。运营商网络故障。解决方案 登录 智能接入...

响应云盒维修事件

流程说明 运行中的ECS实例出现故障风险时,会向您发送ECS故障 事件(Reboot事件)通知,收到ECS故障事件通知,您可以响应故障事件并按照建议进行处理,例如:将现有业务迁移到冗余资源保证业务正常运行,将出现故障风险的ECS实例作为备机...
共有195条 < 1 2 3 4 ... 195 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
机器人流程自动化 云安全中心 视频点播 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用