应用场景

故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘故障都能对业务连续性形成改进。其他应用场景 降低管理难度:同时维护多套监控系统,操作成本高,降低管理难度。规避报警风暴:单监控源的报警不能...

强弱依赖治理最佳实践

接入探针,Kubernetes中打标签为 app=的Pod将显示在AHAS控制台故障演练的治理应用中。单击 下一步,进入 依赖分析,注入流量。由于依赖关系的准确识别是需要流量的,如果在流量不足的测试环境中接入,则需要您手动提供流量。推荐使用PTS...

什么是故障

本文主要介绍什么是故障。定义 在日常运营中,无论什么原因导致业务服务中断、服务品质...故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘故障都能对业务连续性形成改进,避免历史同类故障重复发生。

采集ping和tcping数据

本文介绍通过Logtail采集ping和tcping数据到日志服务Metricstore的操作步骤。前提条件 已创建Project和MetricStore。具体操作,请参见 创建Project 和 创建MetricStore。使用限制 只有Linux Logtail 1.0.31及以上版本的Logtail支持采集ping...

SAP BTP系统集成

本文介绍如何基于 事件总线EventBridge 的HTTP Source和SAP...SAP BTP与 事件总线EventBridge 连接,您可以登录 SAP BTP Cockpit控制台,单击 进入子账户,在左侧导航栏选择概览,然后在常规栏目下选择 实例和租用,订阅更多类型的SAP事件。

Linux系统ping默认DNS地址时出现“sendmsg:Operation ...

问题描述 访问网站慢,ping默认DNS地址显示如下。ping本地回环地址显示如下。ping:sendmsg:Operation not permitted 系统负载不高,网络线路通畅,资料库无死锁进程。系统日志出现大量信息,如下所示。kernel:printk:xxxx messages ...

配置DDoS高防无法Ping

本文主要介绍配置DDoS高防无法Ping通的解决方法。适用于 云安全防御 详细信息 确认DDoS高防实例的状态。如果DDoS高防实例处于黑洞状态,则无法被外网访问。您可以在 DDoS高防控制台 的 实例管理 页面,查询DDoS高防实例的 实例状态。确认...

设置宕机自动迁移

为了降低物理故障对业务的影响,阿里云为您提供专有宿主机DDH宕机自动迁移的功能,宕机自动迁移开启,当DDH因故障停机时,系统会自动迁移至健康的DDH。本章节介绍在创建DDH如何开启或者关闭宕机自动迁移。说明 创建专有宿主机DDH时,...

步骤五:应用容灾

当被保护的服务器完成阿里云复制服务(AReS)安装并重启,您就可以对受保护的服务器启动、停止容灾复制、故障切换、容灾演练等一系列的应用容灾操作。前提条件 已安装阿里云复制服务。更多信息,请参见 步骤四:安装阿里云复制服务。操作...

API网关-事件总线服务关联角色

应用场景 用户在创建事件总线类型的端服务时,API网关会提示用户创建事件总线服务关联角色,在后续操作中,用户在API网关创建端为事件总线的API并调用,API网关在上传事件到用户的事件总线时需要使用服务关联角色...

FTP的文件列表下的隐藏文件不显示

使用FTP工具连接云虚拟主机,基于数据安全因素,一般情况下,默认在远程站点区域的文件列表中隐藏文件不显示。您需要通过更改FTP客户端的设置,来强制显示该隐藏文件。本文介绍这种情况的原因和解决方案。问题现象 通过FTP工具连接到 ...

事件驱动架构

什么是事件驱动架构 事件驱动架构是一种松耦合、分布式的驱动架构,收集到某应用产生的事件实时对事件采取必要的处理路由至下游系统,无需等待系统响应。使用 事件总线EventBridge 可以构建各种简单或复杂的事件驱动架构,以标准化的...

配置健康检查

将边界路由器VBR(Virtual Border Router)连接至云企业网实例,您可以通过云企业网的健康检查功能探测VBR实例关联的物理专线的连通性。在云企业网和本地数据中心存在冗余路由的场景下,健康检查探测到物理专线故障后支持自动切换到可用...

故障应急协同

故障通告及更新 基于7x24监控值班工作特性,对于业务异常达到故障等级时,以用户定制的(语音、短信、IM)的方式在约定时间内将故障影响信息以及处理进展通知给对应的接收人/组,并持续更新直至故障结束。故障应急协同群 故障发生,可以...

事件总线

本文将快速引导您如何在API网关中,发布端服务为事件总线类型的API,并如何使用“阿里云APP“认证中的AppCode进行调用。概述 您需要依次完成以下步骤:创建端服务 创建API分组 定义API 创建应用和API授权 调试API 调用API 前提条件 您...

SAP BTP系统集成

本文介绍如何基于 事件总线EventBridge 的HTTP Source和SAP...SAP BTP与 事件总线EventBridge 连接,您可以登录 SAP BTP Cockpit控制台,单击 进入子账户,在左侧导航栏选择概览,然后在常规栏目下选择 实例和租用,订阅更多类型的SAP事件。

GTM实现跨网访问加速与故障切换

概述 方案介绍 大部分企业的应用服务都会使用多个运营商的IP地址,因此可能会存在跨网延迟、丢包、故障不可用等问题,而全局流量管理产品方案可以根据用户请求源地址的运营商,解析就近的应用服务器IP地址,实现就近接入、访问加速、故障...

版本对比

功能项 标准版 旗舰版 全网故障恢复时间=故障切换时间+全网生效时间 在健康检查间隔设置为1分钟,最小TTL为60秒,连续失败次数为2次的配置下,GTM能在4分钟左右准确发现故障并切换,故障切换理论上60秒左右可以全网生效,但实际情况取决...

故障基础数据管理

故障场景等级定义 日常运营中,除用户方环境或自身操作引起的问题外,无论什么原因导致的服务中断、服务品质下降或用户服务体验下降的现象,都称为故障。对故障影响程度的划分就是故障等级定义。定义故障等级是为了指定故障等级定义作为各...

动态与公告

全局流量管理(GTM)新版发布计划(20201116)阿里DNS将于2020年11月16日对全局流量管理进行版本升级,新版本发布,原历史版本在云解析DNS控制台仍可继续使用,使用历史版本的用户不受影响。发布内容 新版GTM提供标准版、旗舰版两个版本...

跨可用区容灾

当生产站点因为不可抗力因素(比如机房火灾、断电)或者设备故障(软、硬件破坏)导致应用在短时间内无法恢复时,ECS容灾服务支持业务的跨可用区(Availability Zone)的容灾能力,对整体的应用做容灾备份来应对单地区的故障,满足业务的...

业务连续性

在主地域故障消除,应该将备地域服务在故障期间记录的新增数据同步到主地域,确保主地域恢复时,用户看到的业务数据不会丢失。部署架构示意图 为了尽可能地提升可用性以确保业务连续不中断,上述实践是可以组合使用的。下图是一个同时...

使用集群诊断

容器智能运维平台 提供一键故障诊断能力,包括Pod诊断、Service诊断、Ingress诊断,可以辅助您定位集群中出现的问题。本文介绍如何在ACS集群中使用集群诊断功能。前提条件 已创建ACS集群。具体操作,请参见 创建ACS集群。确保ACS集群运行...

全局流量管理 3.0升级说明

在健康检查间隔设置为15秒,TTL为1秒,连续失败次数2次的配置下,GTM能在1分钟左右准确发现故障并切换,故障切换理论上1秒左右可以全网生效,但实际情况取决于全国各地运营商的缓存设置时间。在健康检查间隔设置为1分钟,TTL为60秒,连续...

同城多活架构实践

说明 基于MSHA流量监控或其他监控能力,确定业务稳态的监控指标,以便在故障发生时判断故障影响面以及在故障恢复判断业务的实际恢复情况。演练预期:电商首页展示的查询链路对商品应用是强依赖,强依赖故障将导致业务不可用,且故障的...

如何配置流转规则

选择 触发故障 需要配置故障影响服务、故障等级覆盖。配置完成之后点击 提交即可。仅触发报警:确定 报警触发规则:设置触发的持续时长和次数对报警进行收敛降噪;如,某个规则在持续5分钟内触发3次才会触发报警,只要将时长和次数分别设置...

故障演练

故障演练是整体容灾流程中极其重要的一环。本文介绍ECS容灾中故障演练的操作流程。故障演练的意义 故障演练将被容灾保护的服务器在云上拉起并验证应用正确性,是容灾流程整体中及其重要的一环,它的核心意义在于:方便地验证被容灾保护的...

故障演练

故障演练是整体容灾流程中极其重要的一环。本文介绍ECS容灾中故障演练的操作流程。故障演练的意义 故障演练将被容灾保护的服务器在云上拉起并验证应用正确性,是容灾流程整体中及其重要的一环,它的核心意义在于:方便地验证被容灾保护的...

跨地域容灾

容灾系统部署在阿里云的两个地域中,当生产站点发生故障(例如海啸、地震)时,业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域,提供容灾即服务,RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障,有效避免了地域性...

使用集群诊断

容器智能运维平台 提供一键故障诊断能力,包括节点诊断、Pod诊断、Service诊断、Ingress诊断、内存诊断、网络诊断,可以辅助您定位集群中出现的问题。本文介绍如何在ACK集群中使用集群诊断功能。前提条件 已创建Kubernetes托管版集群。具体...

GTM如何实现异地容灾

概述 方案介绍 异地容灾是指应用服务部署在不同地域时,当其中一地出现故障时,全局流量管理(简称GTM)可以将出现故障地域的用户访问流量,调度至异地灾备中心,保障用户访问连续不间断。本文将以两地三中心灾备架构为读者讲解异地灾备的...

GTM如何实现同城容灾

概述 方案介绍 同城容灾指应用服务部署是多机房、单地域时,当其中一机房出现故障时,全局流量管理(简称GTM)可实现业务7*24小时稳定运行,即使单机房故障也不影响业务的可持续性,保障用户访问连续不间断。本文将以同城双活的灾备架构为...

通过VPN网关实现本地数据中心访问阿里云NAS

确认ping,在本地数据中心的服务器上挂载VPC内的文件系统。具体操作,请参见 挂载文件系统。跨地域挂载文件系统至ECS 已部署一台VPN网关时跨地域挂载文件系统 此处以处于不同地域的VPC1和VPC2为例进行说明。创建文件系统和挂载点。登录...

访问策略

概述 访问策略是针对用户配置相应的访问策略,在此环节需要设置最终用户访问哪一个地址池。前提条件 已完成创建实例和云资源访问授权的操作。...如默认地址池摘除故障地址,还有存活的IP地址,那么则响应剩余存活的IP地址。

服务等级目标SLO概述

短时间内的高故障率和低故障率且持续时间较长的故障才能触发告警,避免不必要的告警分散运维人员的精力从而错过真正关键的问题。多窗口能够在计算一段时间的故障率时同时设置一个短时间窗口,当短时间窗口内的故障率低于阈值时结束告警。...

服务等级目标SLO概述

短时间内的高故障率和低故障率且持续时间较长的故障才能触发告警,避免不必要的告警分散运维人员的精力从而错过真正关键的问题。多窗口能够在计算一段时间的故障率时同时设置一个短时间窗口,当短时间窗口内的故障率低于阈值时结束告警。...

健康检查

概述 开启健康检查是指对地址池中的IP地址配置健康检查,开启可实现实时监测应用服务的可用性状态,并最终帮助企业实现自动故障隔离和自动故障切换的功效。健康检查的类型,包括:ping监控、tcp监控、http(s)监控的配置相关。前提条件 已...

容灾恢复

集群中通常一个服务有多个服务提供者,其中部分服务提供者可能由于网络、配置、长时间 fullgc、线程池满、硬件故障等导致长连接还存活但是程序已经无法正常响应。单机故障剔除功能会将这部分异常的服务提供者进行降级,使客户端的请求更多...

组复制简介

这样,如果主节点在写入Binlog,传输数据到备节点之前发生故障,重新启动数据就会多于备节点。如果此时备节点已经被切换成新主节点,就会出现主节点数据少于备节点,主备节点数据不一致的情况。全局 事务强一致性 组复制具备集群的节点...

日志管理

日志上传成功,将在 日志信息 区域,显示在阿里云云存储网关服务器上的日志路径。如果发生故障,您可以上传日志并提交工单给阿里云工程师。您需在工单中提供日志路径,供阿里云工程师找到日志定位问题。说明 上传日志仅用于错误分析和...
共有137条 < 1 2 3 4 ... 137 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 数据总线 DataHub 负载均衡 应用高可用服务 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用