代码逻辑场景

受影响的请求数 否 0 限制最多发生故障的请求总数,每生效一次故障计数加1,累计发生故障请求数超出设定值后,请求则不再发生故障。填写数值小于等于0时,则表示不限制。受影响的请求占比(%)否 0 限制发生故障的请求数占所有应该发生故障...

JVM注入动态脚本

受影响的请求数 否 0 限制最多发生故障的请求总数,每生效一次故障计数加1,累计发生故障请求数超出设定值后,请求则不再发生故障。填写数值小于等于0时,则表示不限制。受影响的请求占比(%)否 0 限制发生故障的请求数占所有应该发生故障...

自动/手动主备切换

当系统发生故障时,PolarDB 集群会自动进行主备切换。您也可以手动进行主备切换,指定一个只读节点为新的主节点。注意事项 不论是自动切换还是手动切换,切换过程中,都可能会出现30秒左右的闪断,因此切换前请务必确保应用具备重连机制。...

自动/手动主备切换

当系统发生故障时,PolarDB 集群会自动进行主备切换。您也可以手动进行主备切换,指定一个只读节点为新的主节点。注意事项 不论是自动切换还是手动切换,切换过程中,都可能会出现30秒左右的闪断,因此切换前请务必确保应用具备重连机制。...

趋势分析

通过延时、丢包率、探测次数三个指标在不同维度、不同汇聚粒度的表现来判断网络趋势,可以用来定位网络故障发生的时间以及业务的网络质量趋势。首页点击 详情分析 按钮,进入“趋势分析”页面。筛选条件:说明 筛选条件“统计时间段”,...

AI助手使用说明

安装AI助手并开启PAI的作业监控和恢复功能后,当训练任务发生故障或异常时,能自动上报故障信息、隔离问题节点,无需人工干预即可快速恢复任务。本文为您介绍AI助手的具体配置方法。前提条件 已创建带有ACK灵骏托管版的集群。具体操作,请...

教程概览

6、容灾预案:容灾预案可以帮助用户实现容灾演练,或发生故障时快速切换访问流量,包括创建容灾预案、执行/回滚等相关信息。7、日志信息:介绍全局流量管理运行状态的告警日志,包括:健康检查告警、健康检查恢复、地址池不可用、地址池...

为什么实例会发生主备切换?

实例异常:阿里云检测到实例发生故障,无法正常使用时,系统会立即触发主备切换,及时恢复实例,缩短故障影响时长。宿主机下线或实例异常导致的主备切换会以站内信或邮件等形式通知到您,通知内容如下:【阿里云】尊敬的*:您的云数据库...

故障基础数据管理

服务组与故障业务线的关系:一个服务组对应故障中一个角色,但可以服务多条故障业务线 服务组与工单问题分类的关系:一个服务组可以服务工单多个问题分类 服务组与组织架构的关系:一个服务组可以服务多个组织架构,一个组织架构可以拆分为...

基于ack-lingjun-aiast组件实现集群自动化运维

组件介绍 安装灵骏AI助手开启PAI的作业监控和恢复功能后,当发生故障或异常时,灵骏AI助手的告警系统可以自动和PAI进行交互,并上报故障信息,并根据故障触发阶段和并行策略选择规避故障的方法,自动隔离故障节点,并通过checkpoint快速...

采集客户端数据的高可用方案

当Logstore A发生故障时,Logstore B的数据仍然实时可用。当Logstore B发生故障时,Logstore A的数据仍然实时可用。操作步骤:在日志服务控制台上,创建Project和Logstore。创建A地域的Project A和Logstore A。创建B地域的Project B和...

创建DDH

关闭宿主机故障时自动迁移服务:DDH发生故障停机后,您需要 提交工单 申请置换一台健康的DDH。默认值:开启宿主机故障时自动迁移服务。您也可以在创建DDH后修改该配置,具体操作,请参见 设置宕机自动迁移。重要 本地SSD型DDH不支持宿主机...

创建专有宿主机

关闭宿主机故障时自动迁移服务:DDH发生故障停机后,您需要 提交工单 申请置换一台健康的DDH。默认值:开启宿主机故障时自动迁移服务。您也可以在创建DDH后修改该配置,具体操作,请参见 设置宕机自动迁移。重要 本地SSD型DDH不支持宿主机...

业务连续性基线

企业应在重要业务上云之前优先制定能保障业务连续性的合规治理基线,确保重要业务上云之后不会因误操作、防护不足、负载激增等导致业务中断,同时也要确保真有中断发生的时候能快速恢复,尽可能减少因业务中断所造成的损失。应对的风险 ...

EasyCkpt:AI大模型高性能状态保存恢复

因此,在发生故障时,迫切需要一种以低成本的方法来保存最新的Checkpoint。这样在重新启动训练时就无需重复计算,从而减少时间和成本的浪费。功能介绍 针对频繁故障的情况,PAI通过之前的故障失败场景总结出以下GPU和深度学习场景故障的...

应用场景

通过构建灾备库,使用数据同步服务实时增量同步主库数据以确保主库与灾备库数据的完全一致,当业务中心发生地区故障时,直接将业务流量切换到灾备中心,即可立刻恢复服务。在灾备接管期间,通过反向数据同步,可实现随时切回主库。

配置日志上报开关

埋点 ID:埋点业务码。其中,自定义行为埋点的业务码配置因平台而异。Android:客户端通过代码 MPLogger.event(String logId,String bizType,Map,String>params)设置的 bizType,bizType不能带下划线_。iOS:默认为 behavior,客户端可以...

诊断决策树

对于已知的明确故障,可以根据诊断现象,编排诊断决策树,进而故障发生时执行,完成故障定位。对于未知的故障,您可以依据运维经验,编排出常见的排查路径,辅助快速故障定位。新建诊断决策树 登录高可用管理控制台。在左侧导航栏上,单击 ...

诊断规则

而后,在实际故障发生时,即可执行自动化、标准化的故障排查,并直接输出诊断报告,反馈诊断结果。故障诊断功能有效提升了故障排查效率,实现故障的快速定位与处理。本节将向您介绍诊断规则的相关操作。诊断规则是诊断节点的构成,诊断规则...

弹性加速计算实例EAIS安全性说明

弹性加速计算实例EAIS的云上安全性,是阿里云在面对当前的网络安全形势和挑战时所采取的措施,以及提高用户在资源和网络访问控制、EAIS资源操作、故障隔离和风险检测等方面的安全性所具备的能力。说明 通过在ECS实例(非GPU实例)上绑定...

监控与日志

支持对云产品资源的运行状态、云服务器ECS的资源使用状态、网站站点、业务故障等问题进行实时监控。自定义监控项报警规则 您可通过自定义设置监控报表,快速收集自定义的监控指标数据。详细介绍,请参见 管理自定义监控大盘中的监控图表。...

DML无锁变更概览

背景信息 当业务累积了大量数据时,需要定期清除表中的数据,或对在线数据和历史数据进行分隔管理。您可能会遇到以下问题:单条SQL影响行数过多,日志超过阈值导致任务执行失败。SQL没有使用索引导致锁表,数据库负载增加,甚至造成业务...

消息通知管理

数据管理DMS 默认全面开启多种工单类型、任务流的不同状态消息通知功能,支持自定义接收对象,可实现消息通知的按需、有效触达。本文档将向您介绍如何管理消息通知。前提条件 您的用户角色为管理员或DBA,关于用户角色信息,请参见 系统...

修改DNS服务器

重要 阿里云注册域名不支持同时配置多家厂商DNS服务器,因为NS记录缓存时间一般为48小时,部分场景下的故障发生时,NS缓存短时间无法消除,依然会有解析请求到故障DNS。同时不同厂商之间的解析数据不一致问题也容易引发故障。阿里云注册...

产品功能

分布式架构,单节点故障业务不受影响 云数据库Memcache版采用分布式集群架构,每个节点均由双机热备架构组成,具备自动容灾及故障迁移能力。多种规格可适配不同的业务压力,数据库性能支持无限扩展。支持数据持久化及备份恢复策略,有效的...

配置消息监控告警实现风险预警

业务逻辑错误监控预警 您在消息收发时可能会收到异常报错,配置调用错误告警可以提前在业务反馈前发现异常,帮助您提前判断异常来源并及时修复。业务性能指标监控预警 如果您的消息链路有相关性能指标要求,例如RT耗时、消息延迟等,提前...

业务连续性

该系统的主服务是部署在瑞士的 ENS 节点,主服务采用了多实例加负载均衡的架构,以规避 ENS 实例单点故障引起的业务中断。备服务部署在就近的德国 ENS 节点(备服务也可以选择就近的公有云地域中),备服务同样采用了多实例加负载均衡的...

新零售:特步

特步的业务属性决定了促销是一个常态,经常发生业务突变,大促期间单日订单量最高可达几百万,需要一定的弹性能力以支撑成倍订单增长带来的流量压力,传统的数据库弹性能力不够。传统数据库扩展能力不足,无法支撑线上渠道的扩张和线下门店...

功能概述

功能架构 智能压测的功能架构如下图所示:源数据库:将要进行大促、将要业务变更或者已经发生故障,需要进行流量捕获的数据库。目标数据库:源数据库的克隆数据库,和源数据库拥有同样的表结构和数据,将源数据库捕获的流量回放的数据库。...

变更管理简介

有计划、受管控的变更操作降低故障发生率、业务连续性异常。规范变更准备及变更方案,提高变更成功率与可靠性。变更有记录,所有变更可回溯。核心功能 针对变更操作的审批管控以及所有变更记录 基础配置:支持自定义配置变更系统、变更类型...

DeviceLinkDown

DeviceLinkDown事件提示您线下机构侧动态路由邻居发生故障或者静态接入链路发生故障。告警信息 事件名称 事件级别 状态码 状态描述 DeviceLinkDown CRITICAL linkdown Device Link State Change 可能原因 用户侧交换机设备故障。用户侧交换...

缓解DDoS攻击的最佳实践

弹性和冗余架构 通过负载均衡或异地多中心架构避免单点故障影响整体业务。如果您的业务在阿里云上,可以灵活地使用负载均衡服务SLB(Server Load Balancer)实现多台服务器的多点并发处理业务访问,将用户访问流量均衡分配到各个服务器上,...

日志管理

如果发生故障,您可以下载日志或提供日志上传路径给阿里云工程师定位问题。下载日志 在浏览器中,输入 https://<块网关IP地址>访问本地块网关控制台。输入用户名和密码,单击 确认。单击 关于,进入 关于系统 页面。找到 日志信息 区域,...

日志管理

如果发生故障,您可以下载日志或提供日志上传路径给阿里云工程师定位问题。下载日志 在浏览器中,输入 https://<文件网关IP地址>访问本地文件网关控制台。输入用户名和密码,单击 确认。单击 关于,进入 关于系统 页面。找到 日志信息 区域...

替换主机

当主机发生故障后,如果您创建 专属集群MyBase 时 主机故障处理策略 选择的是 手动替换主机,则您可以通过手动替换主机来解除故障。前提条件 专属集群MyBase 引擎的为MySQL,且主机存储类型为本地SSD盘。背景信息 当主机发生故障时,系统会...

DeviceWanLinkDown

DeviceWanLinkDown事件提示您设备WAN链路发生故障。告警信息 事件名称 事件级别 状态码 状态描述 DeviceWanLinkDown CRITICAL down Wan Link Down 可能原因 WAN链路出现故障。处理方法 请提交工单,联系阿里云工程师。icmsDocProps={'...

电商压测场景示例

根据业务逻辑,一部分用户在浏览产品A,另一部分用户在进行购买产品B的一系列操作,即业务是同时发生的,所以将它们设置为业务会话,压测中会并行发起请求。业务会话中的多个API是串行关系。根据业务逻辑,业务会话2:购买产品B 中...

电商压测场景示例

根据业务逻辑,一部分用户在浏览产品A,另一部分用户在进行购买产品B的一系列操作,即业务是同时发生的,所以将它们设置为个串联链路,压测中会并行发起请求。串联链路中的多个API是串行关系。根据业务逻辑,串联链路2:购买产品B 中...

链路状态

发生故障时,及时进行切换。操作步骤 登录 智能接入网关控制台。在 智能接入网关 页面,单击目标实例ID。在智能接入网关实例详情页面,单击 高可用配置,可查看链路状态。绿灯:表示链路正常。红灯:表示链路故障。icmsDocProps={'...

光模块故障

本文介绍光模块发生故障的原因和处理方法。问题现象 光模块连接后,接口指示灯没有变为绿色。可能原因 光模块不兼容或损坏。智能接入网关设备支持的光模块型号请参见 光模块型号。说明 目前仅SAG-1000设备支持光模块插入。解决方案 通用多...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
商标服务 云服务器 ECS 云数据库 Redis 版 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用