故障处理流程

当智能接入网关设备发生网络故障后,您可以先观察现象、收集信息,然后对现象和信息进行分析诊断,尝试修复问题。本文为您介绍智能接入网关设备故障处理流程。SAG-100WM故障处理流程说明 通过SAG-100WM访问阿里云,发现故障,请参见以下...

趋势分析

通过延时、丢包率、探测次数三个指标在不同维度、不同汇聚粒度的表现来判断网络趋势,可以用来定位网络故障发生的时间点以及业务的网络质量趋势。首页点击 详情分析 按钮,进入“趋势分析”页面。筛选条件:说明 筛选条件“统计时间段”,...

故障复盘

复盘文档一般包含以下内容:故障简述:故障概述、影响面、处理人等 故障背景:故障发生时的业务链路 故障时间线:着重强调故障引入、故障发生故障发现、业务响应、恢复执行、故障恢复几个时间点 故障原因分析:建议先一句话总结,再进行...

解决方案与客户案例

业务连续性保障 异地多活架构下各个数据中心常态承接业务流量,故障发生时只需调拨入口流量即可实现容灾切换,实现分钟级的容灾切换。同时随着参与多活建设的数据中心数量增加,参与调拨流量的比例会相应减少,未参与调拨的业务流量可以...

解决方案与客户案例

业务连续性保障:异地多活架构下各个数据中心常态承接业务流量,故障发生时只需调拨入口流量即可实现容灾切换,实现分钟级的容灾切换。同时随着参与多活建设的数据中心数量增加,参与调拨流量的比例会相应减少,未参与调拨的业务流量可以...

主备方案介绍

主备容灾:当云数据库HBase实例因不可预料的原因(例如设备故障、机房断电断等)发生故障,容灾机制可用于保障数据的一致性和业务可用性。功能优势 主备双活:请求低毛刺。故障自动容错。资源利用率高。主备容灾:支持云数据库HBase、EMR...

代码逻辑场景

受影响的请求数 否 0 限制最多发生故障的请求总数,每生效一次故障计数加1,累计发生故障请求数超出设定值后,请求则不再发生故障。填写数值小于等于0时,则表示不限制。受影响的请求占比(%)否 0 限制发生故障的请求数占所有应该发生故障...

变更管理简介

有计划、受管控的变更操作降低故障发生率、业务连续性异常。规范变更准备及变更方案,提高变更成功率与可靠性。变更有记录,所有变更可回溯。核心功能 针对变更操作的审批管控以及所有变更记录 基础配置:支持自定义配置变更系统、变更类型...

功能概述

功能架构 智能压测的功能架构如下图所示:源数据库:将要进行大促、将要业务变更或者已经发生故障,需要进行流量捕获的数据库。目标数据库:源数据库的克隆数据库,和源数据库拥有同样的表结构和数据,将源数据库捕获的流量回放的数据库。...

应用场景

当可用区A发生故障时会造成业务中断,因为备可用区没有ECS实例来接收请求。这样的部署方式很明显是以牺牲高可用性为代价来获取低延时。跨地域容灾 您可以在不同地域下部署 CLB 实例,并分别挂载相应地域内不同可用区的ECS。上层利用云解析...

DeviceLinkDown

DeviceLinkDown事件提示您线下机构侧动态路由邻居发生故障或者静态接入链路发生故障。告警信息 事件名称 事件级别 状态码 状态描述 DeviceLinkDown CRITICAL linkdown Device Link State Change 可能原因 用户侧交换机设备故障。用户侧交换...

基本概念

RPO Recovery Point Objective(数据恢复点目标),指应用发生故障时预期的数据丢失量。例如,RPO=15 分钟,表示在应用发生故障时,最近 15 分钟的数据无法在云上恢复。RTO Recovery Time Objective(恢复时间目标),指故障发生时,在云...

日志管理

如果发生故障,您可以下载日志或提供日志上传路径给阿里云工程师定位问题。下载日志 在浏览器中,输入 https://<块网关IP地址>访问本地块网关控制台。输入用户名和密码,单击 确认。单击 关于,进入 关于系统 页面。找到 日志信息 区域,...

日志管理

如果发生故障,您可以下载日志或提供日志上传路径给阿里云工程师定位问题。下载日志 在浏览器中,输入 https://<文件网关IP地址>访问本地文件网关控制台。输入用户名和密码,单击 确认。单击 关于,进入 关于系统 页面。找到 日志信息 区域...

JVM注入动态脚本

受影响的请求数 否 0 限制最多发生故障的请求总数,每生效一次故障计数加1,累计发生故障请求数超出设定值后,请求则不再发生故障。填写数值小于等于0时,则表示不限制。受影响的请求占比(%)否 0 限制发生故障的请求数占所有应该发生故障...

DeviceWanLinkDown

DeviceWanLinkDown事件提示您设备WAN链路发生故障。告警信息 事件名称 事件级别 状态码 状态描述 DeviceWanLinkDown CRITICAL down Wan Link Down 可能原因 WAN链路出现故障。处理方法 请提交工单,联系阿里云工程师。icmsDocProps={'...

替换主机

当主机发生故障后,如果您创建 专属集群MyBase 时 主机故障处理策略 选择的是 手动替换主机,则您可以通过手动替换主机来解除故障。前提条件 专属集群MyBase 引擎的为MySQL,且主机存储类型为本地SSD盘。背景信息 当主机发生故障时,系统会...

链路状态

发生故障时,及时进行切换。操作步骤 登录 智能接入网关控制台。在 智能接入网关 页面,单击目标实例ID。在智能接入网关实例详情页面,单击 高可用配置,可查看链路状态。绿灯:表示链路正常。红灯:表示链路故障。icmsDocProps={'...

光模块故障

本文介绍光模块发生故障的原因和处理方法。问题现象 光模块连接后,接口指示灯没有变为绿色。可能原因 光模块不兼容或损坏。智能接入网关设备支持的光模块型号请参见 光模块型号。说明 目前仅SAG-1000设备支持光模块插入。解决方案 通用多...

某国际智能营销服务公司广告投放数据迁移至阿里云...

业务挑战 开源版HBase集群的故障恢复能力差,而该业务为广告投放核心链路,一旦发生集群故障将导致业务出现几乎波及全部用户的故障,严重影响营收。集群读写请求量、数据增量大,日增数据量高达4TB。集群计算资源、存储资源开销高昂,为了...

AI助手使用说明

安装AI助手并开启PAI的作业监控和恢复功能后,当训练任务发生故障或异常时,能自动上报故障信息、隔离问题节点,无需人工干预即可快速恢复任务。本文为您介绍AI助手的具体配置方法。前提条件 已创建带有ACK灵骏托管版的集群。具体操作,请...

为什么实例会发生主备切换?

实例异常:阿里云检测到实例发生故障,无法正常使用时,系统会立即触发主备切换,及时恢复实例,缩短故障影响时长。宿主机下线或实例异常导致的主备切换会以站内信或邮件等形式通知到您,通知内容如下:【阿里云】尊敬的*:您的云数据库...

如何通过 mPaaS 框架解决 App 线上问题

如果真的在线上发生故障,开发者就可以通过服务器推送开关,及时将故障代码关闭。这种推拉结合的方式,即时到达率 100%。发布 H5 离线包更新如果某些故障是发生在离线包内,在定位到问题后,可以直接通过实时发布控制台发布新的版本即可。...

连接地址(主地址、集群地址和自定义地址)

当主节点发生故障时,主地址会自动切换到新的主节点。适用于不需要读写分离的业务。私、公网和经典网络地址 网络类型 说明 使用场景 私 通过私的连接地址访问可以发挥 PolarDB 的最佳性能。创建集群时会默认生成一个私的连接地址,...

金融行业最佳实践

金融两地三中心 业务挑战:金融源站往往采用两地三中心的架构,当某个源站发生故障时,需要快速地将业务切换到其他可用源站,保障业务的连续性和稳定性。方案优势:阿里云DCDN提供多源负载均衡能力,实现多源异地灾备,可以按照主备、权重...

步骤一:搭建云上专有网络

主数据中心发生重大故障时,所有的服务器可以在VPC内运行,让业务得以继续运行。考虑三个因素 搭建VPC时,您需要考虑选取哪一个阿里云地域作为容灾中心,数据中心与阿里云VPC之间使用哪一种网络连接,以及VPC使用哪个网段。如上图所示,...

网络架构介绍

业务网络 用于承载用户业务虚拟机的业务网络。用户在VMware服务产品控制台完成NSX Overlay网段添加后,再登录NSX Manager控制台添加网络分段。业务虚拟机 用户基于业务需求创建的虚拟机,连接虚拟机的网卡至业务网络。T1 MGW VMware NSX T1...

源为PolarDB-X的功能规范和约束说明

在断业务切流后,如DTS任务恢复正常,会自动启动重试机制,重新同步、迁移或订阅故障发生前一段时间的数据,以避免目标库数据丢失。在这种情况下,如目标表缺少主键,会导致源目库数据不一致;如目标表存在主键,则在重试机制过程中源...

源为PolarDB-X的功能规范和约束说明

在断业务切流后,如DTS任务恢复正常,会自动启动重试机制,重新同步、迁移或订阅故障发生前一段时间的数据,以避免目标库数据丢失。在这种情况下,如目标表缺少主键,会导致源目库数据不一致;如目标表存在主键,则在重试机制过程中源...

创建DDH

关闭宿主机故障时自动迁移服务:DDH发生故障停机后,您需要 提交工单 申请置换一台健康的DDH。默认值:开启宿主机故障时自动迁移服务。您也可以在创建DDH后修改该配置,具体操作,请参见 设置宕机自动迁移。重要 本地SSD型DDH不支持宿主机...

创建专有宿主机

关闭宿主机故障时自动迁移服务:DDH发生故障停机后,您需要 提交工单 申请置换一台健康的DDH。默认值:开启宿主机故障时自动迁移服务。您也可以在创建DDH后修改该配置,具体操作,请参见 设置宕机自动迁移。重要 本地SSD型DDH不支持宿主机...

同城多活常见问题

资源双活在业务节点故障时,南北走向流量切走,东西走向流量仍旧持续进入,业务无法恢复,因此无法做到业务同城多活。和EDAS、MSE集群流量同可用区优先的差异和优势?类别 MSHA EDAS、MSE 微服务日常场景 面向可用区级别,解决RT问题。面向...

灾备规划

RTO和RPO要求 应用容灾有两个核心的指标:RPO:指应用发生故障时可以容忍的数据丢失量。数据越重要,RPO就要求越小。RPO越小,往往要求数据备份、复制频率更高,对生产环境、网络的压力也会越大,成本通常也越高。RTO:指故障发生后,期望...

CLB访问日志功能简介

在使用CLB的七层负载均衡(HTTP/HTTPS监听)期间,如果您需要通过负载均衡日志进行业务开发测试、故障处理、客户端用户行为数据分析等,您可使用CLB访问日志功能分析负载均衡日志。CLB结合阿里云日志服务提供的访问日志功能,可帮助您大幅...

演练场景说明

故障演练场景是演练任务的核心。AHAS提供基础资源类场景和Kubernetes类场景,帮助分布式系统提升容错性和可恢复性。每一个执行阶段的演练场景都对应一个恢复阶段的演练任务。恢复阶段的演练任务目的是清除故障演练的影响,使应用或服务恢复...

无法连接到同一个云连接内的本地客户端

本文介绍SAG-1000设备无法连接到同一个云连接内的本地客户端的原因和处理方法。问题现象 SAG-1000设备无法连接到同一个云连接内的其他本地客户端。可能原因 终端到设备的链路故障。设备到阿里云的VPN链路故障。目标PC环境的网络故障。...

同城多活架构实践

在杭州单元格B的商品应用发生故障的情况下,可使用MSHA切流功能将流量全部切换到另外的单元格,进行快速业务恢复(这里区别于传统的思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦)。容灾切换...

重启设备

网络故障时,重启设备可消除部分软件故障。背景信息 重启设备一般有两种方法:通过关闭或打开设备电源进行重启。通过智能接入网关控制台,远程重启设备。关闭或打开设备电源 警告 您通过关闭或打开设备电源进行重启时,请注意保存设备的...

设计原则

数据容灾是指在数据中心或服务器发生故障、灾难或意外情况时,能够保证数据的安全性和可用性的一系列措施和策略。数据容灾的目标是确保在不可避免的情况下,数据的完整性、可恢复性和可用性不受到严重影响,以保障业务的持续运行和数据的...

监控与日志

支持对云产品资源的运行状态、云服务器ECS的资源使用状态、网站站点、业务故障等问题进行实时监控。自定义监控项报警规则 您可通过自定义设置监控报表,快速收集自定义的监控指标数据。详细介绍,请参见 管理自定义监控大盘中的监控图表。...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云企业网 云服务器 ECS 云数据库 Redis 版 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用