混沌工程缓存实战系列-Redis

登录 AHAS控制台,在左侧栏选择 故障演练>我的空间。在 我的空间 页面,单击 新建演练>新建空白演练。在 演练配置 页面,填写相关参数,选择 演练内容 为 主机内网络延迟。更多参数信息,请参见 创建演练。单击 主机内网络延迟,在 本地...

监控、诊断和故障排除

相对于传统应用程序,开发云端应用虽然降低了用户在基础设施搭建、运维等方面的成本,但却增大了监控、诊断和故障排查的难度。OSS存储服务为您提供了丰富的监控和日志信息,帮助您深刻洞察程序行为,及时发现并快速定位问题。本文主要描述...

自动/手动主备切换

当系统发生故障时,PolarDB 集群会自动进行主备切换。您也可以手动进行主备切换,指定一个只读节点为新的主节点。注意事项 不论是自动切换还是手动切换,当只读节点未开启热备时,主备切换过程中可能会出现20~30秒左右的闪断,因此切换前请...

开启健康检查

开启健康检查是指对地址池中的地址配置健康检查策略,开启后可监测应用服务的可用性状态,并最终帮助企业实现自动故障隔离和自动故障切换的功效。健康检查的类型包括:Ping监控、TCP监控、HTTP(S)监控。前提条件 已完成 创建实例、创建...

访问控制常见问题

报错信息:X-Tengine-Error:denied by req auth:expired timestamp 问题原因:鉴权过期,CDN 开启了鉴权,并且URL携带了鉴权参数,但是鉴权参数过期。解决方案:如果鉴权过期,请参见 URL鉴权,重新生成鉴权URL。报错信息:X-Tengine-Error...

I-V曲线诊断

数据服务中提供光伏智能运维的IV曲线诊断算法,结合环境光强度、环境温度等影响因素,对组串式光伏发电阵列的电流-电压曲线(I-V曲线)进行分析,检测系统可能出现的故障,进而提高设备的运行效率,保障电站高效运行。本文介绍光伏智能运维...

ADP底座介绍

具体支持以下功能:诊断异常原因及详情 提供诊断处理建议 展示异常资源关联 展示异常事件 运维操作 提供了多种全面的运维操作。具体支持以下功能:组件水平扩缩容 组件垂直扩缩容 组件PVC存储扩容 组件备份还原 组件主备切换

实时分析链路数据

如果您的应用遇到流量不均、单机故障、慢接口治理、业务流量统计、灰度发布监控等问题,可以通过应用监控的调用链分析快速定位问题代码。本文介绍如何通过调用链分析快速定位五种经典线上问题,更直观地了解调用链分析的用法与价值。背景...

归档存储服务等级协议

阿里云将对不可用时间进行赔偿,但不包括以下原因所导致的服务不可用时间:(1)阿里云预先通知用户后进行系统维护所引起的,包括割接、维修、升级和模拟故障演练;(2)任何阿里云所属设备以外的网络、设备故障或配置调整引起的;(3)...

AIOps 解决方案专家服务内容说明

智能故障发现解决方案 基于调研与评估的结果,为客户设计智能故障发现解决方案,包含:多账号统一监控数据接入,并根据应用分组为客户设计AI算法能力用于实时故障发现,并根据分析结果智能定位根因,提供实时异常检测的稳定性方案,保障...

风险视图

查看风险 登录 AHAS控制台,从左侧导航栏选择 故障演练>架构感知。在 场景视图 区域,单击 风险视图 的 查看视图,进入详情页。默认进入的是 缩略图 视图模式。将鼠标悬浮在图标上,可查看该产品需重点关注的TOP5风险和风险总数。在页面右...

未收到告警通知的排查思路

排查流程 操作步骤 登录 日志服务控制台。在Project列表区域,单击目标Project。该Project为您告警监控规则所属的Project。在左侧导航栏中,单击 告警。在 告警中心 页面的 告警规则 页签中,单击目标告警监控规则。在页面底部的 告警历史 ...

功能架构

作为一个企业级产品,系统提供资源租户隔离、访问鉴权控制和监控配置模板等企业级特性。并且提供数据高可用、服务高可靠、双机房容灾部署等平台特性。基于系统丰富数据和强大功能,可以支撑容灾巡检、故障重放、弹性扩缩、微服务治理和全...

冷备操作手册

五 数据恢复操作 5.1 登录控制台项目 登录链接:阿里云应用服务平台,找到相关项目 5.2 设备配置恢复 进入项目内,找到 边缘一体机-网关管理,如下图所示。点击网关对应的 设备集成 点击部署,推送设备配置到边缘一体机 点击部署后可以查看...

变更管理

变更审批:由于变更系统相关的负责人进行审核,确保变更风险级别,若无法控制或无法预测,则建议明确变更方案或禁止变更。变更审批流程可由多人进行组合,包括:业务负责人、团队TL、技术TL等,变更涉及的人员可根据变更的影响程度以及影响...

更换实例所属的可用区

当可用区资源不足无法升级实例规格、需要提高容灾能力或因其它原因需要将现有实例切换到其它可用区时,您可以通过控制台或API操作更换 云数据库 Redis 版 实例所属的可用区。更换后,实例的数据、账号、连接地址等信息均不会改变。前提条件...

更换实例所属的可用区

当可用区资源不足无法升级实例规格、需要提高容灾能力或因其它原因需要将现有实例切换到其它可用区时,您可以通过控制台或API操作更换 云原生内存数据库 Tair 实例所属的可用区。更换后,实例的数据、账号、连接地址等信息均不会改变。前提...

Gmail 投递帮助

一、投递失败的原因 一般来说,投递失败会出于以下一种或多种原因:发送邮件数量过多 发送邮件数量急剧增多 向未知的"垃圾邮件蜜罐地址"发信 向无效地址发信 出口IP被列黑 发送的邮件被gmail用户举报或标记为垃圾邮件 使用全新IP发信,且未...

诊断项与诊断结果说明

实例操作系统异常 实例系统出现了内核错误(kernel panic)、OOM(Out of Memory)异常或内部宕机等故障。检查该实例的操作系统(Guest OS)内部是否存在内核panic、OOM异常或内部宕机等故障。这些故障可能是由于实例配置不当或用户空间的...

故障应急

故障管理体系是围绕故障全生命周期采取的一系列控制流程,包括故障基础数据管理(故障等级定义、应急场景监控覆盖、服务组&值班表管理、故障订阅管理),故障发现(7*24监控值班、智能基线告警),故障应急协同(故障通告及更新、故障应急...

EasyCkpt:AI大模型高性能状态保存恢复

功能介绍 针对频繁故障的情况,PAI通过之前的故障失败场景总结出以下GPU和深度学习场景故障的功能特点:特点1:任务的故障是部分的。通常,故障的根因是一到两台机器的故障,这只会影响部分Worker。对于大规模分布式训练任务而言,不会所有...

故障演练常见问题

故障不生效的原因较多,可能是参数配置不正确或无对应的请求命中,但故障规则已成功下发,故需要计费。刚刚购买的资源包为什么会被扣减次数?因为购买前已产生欠费,购买资源包后会先扣减所欠的次数。子账号的消费是否独立计费?不是,与主...

Windows系统的ECS实例ping外网地址提示“一般故障”...

本文介绍Windows系统的ECS实例ping外网地址提示“一般故障”的错误原因和解决方案。问题现象 Windows系统的ECS实例ping外网地址时提示“一般故障”错误。问题原因 出现该问题可能有以下原因:可能原因 排查方案 ECS实例中安装了第三方杀毒...

网站耗资源(客户程序故障)常见问题

本文汇总了使用云虚拟主机出现网站耗资源(客户程序故障)时的常见问题。什么是网站耗资源(客户程序故障)?网站程序占用CPU及内存过多,是对资源的一种浪费。当您使用普通版共享云虚拟主机建站后,可能会因为网站程序编写不合理、代码...

产品架构介绍

同机房优先路由:支持Consumer优先调用同机房内的Provider,从而减少跨机房调用,同时还能将故障的爆炸半径控制在一个机房内。故障隔离:当局部Provider出现异常时,支持将异常的Provider进行故障隔离,保证所有机房内的Consumer均不会调用...

部署和使用跨可用区实例

同时,您可以通过控制台的切流操作,将出现故障的可用区隔离,这时系统会自动在剩余的可用区中补充计算资源,满足业务对资源的需求。本文介绍如何部署和使用(切流和恢复)跨可用区实例。应用场景 跨可用区部署支持单可用区、跨2个可用区、...

故障演练

高速通道故障演练功能是一种模拟故障场景的工具。例如,模拟在高速通道冗余链路中的一条链路发生故障时,网络流量会自动切换至其他冗余链路的场景。借助该工具,您可以测试和验证您与阿里云组建的混合云组网的可靠性。重要 故障演练会通过...

同城多活架构实践

演练预期:电商首页展示的查询链路对商品应用是强依赖,强依赖故障将导致业务不可用,且故障的爆炸半径应该控制在单元格内。创建故障演练。创建杭州单元格B下的商品应用故障演练(例如网络丢包)。具体操作,请参见 创建演练。故障注入。在...

DeviceWanLinkDown

告警信息 事件名称 事件级别 状态码 状态描述 DeviceWanLinkDown CRITICAL down Wan Link Down 可能原因 WAN链路出现故障。处理方法 请提交工单,联系阿里云工程师。icmsDocProps={'productMethod':'created','language':'zh-CN',};

AccessGatewayFailover

告警信息 事件名称 事件级别 状态码 状态描述 AccessGatewayFailover INFO agwfailover Access Gateway Failover 可能原因 IPsec链路网络故障。处理方法 无需处理。icmsDocProps={'productMethod':'created','language':'zh-CN',};

灾备方案

Tair 容灾架构演进 当 Tair 实例因不可预料的原因(例如设备故障、机房断电等)发生故障,容灾机制可用于保障数据的一致性和业务可用性。Tair 提供多种灾备方案供您选择,可满足不同的业务场景。图 1.Tair 容灾架构演进 灾备方案 灾备级别 ...

灾备方案介绍

云数据库Redis容灾架构演进 当云数据库Redis实例因不可预料的原因(例如设备故障、机房断电等)发生故障,容灾机制可用于保障数据的一致性和业务可用性。云数据库Redis提供多种灾备方案供您选择,可满足不同的业务场景。图 1.Redis容灾架构...

远程登录

但设备在业务故障导致无法在控制台开启远程登录进行设备运维,设备可以定时主动请求最新的隧道登录信息,将隧道功能运行在独立进程中,保证当业务故障时隧道仍在运行,可以远程登录运维。步骤3:处理隧道信息 处理隧道信息回调函数,创建...

单实例快速恢复

当出现1分钟容器响应超时(可能是内存溢出、硬件故障、软件Bug等原因导致),Resource Manager会自动拉起新的计算节点,并迁移数据分片(Shard)职责到新的节点上(例如Worker Node3响应超时,Resource Manager拉起Worker Node4取代Worker ...

故障注入

配置故障注入规则 登录 SOFAStack 控制台。在左侧菜单栏选择 中间件>微服务平台>服务网格>服务治理,然后单击 故障注入 页签。单击 添加注入 规则,然后配置以下参数:参数 说明 规则名称 设置故障注入规则的名称。最多不超过 255 个字符。...

故障注入

配置故障注入规则 登录 SOFAStack 控制台。在左侧菜单栏选择 中间件>微服务平台>服务网格>服务治理,然后单击 故障注入 页签。单击 添加注入组规则,然后配置以下参数:参数 说明 规则名称 设置故障注入规则的名称。应用 选择或填写目标...

故障隔离

添加故障隔离规则 登录 SOFAStack 控制台。在左侧菜单栏选择 中间件>微服务平台>服务网格>服务治理,然后单击 故障隔离 页签。单击 添加隔离规则,然后配置以下参数:参数 说明 规则名称 配置故障隔离规则的名称。最多支持 255 个字符。...

配置任务时提示资源不足怎么办?

本文介绍配置任务过程中,提示资源不足时的处理办法。问题描述 配置任务时,系统提示资源不足,出现报错:xxxx resource is insufficient。可能原因 所在的区域...若为其他原因,请使用新版控制台配置任务。DTS新版控制台连接:新版控制台。

报警演练

控制台左侧导航栏选择 故障演练>演练方案。在左侧导航栏选择 演练方案>容器演练。在 容器报警演练 页面,从 集群名称 下拉列表中选择演练的集群。在 容器报警演练 页面,选择待验证的报警事件(可多选),然后单击 批量触发警报。报警...

故障取消

cancelReason Long Body 否 取消原因 取消原因 problemNotifyType Long Body 否 PROBLEM_NOTIFY PROBLEM_NOTIFY 通告类型 PROBLEM_NOTIFY:故障通告 PROBLEM_UPDATE:故障更新 PROBLEM_UPGRADE:故障升级 PROBLEM_DEGRADE:故障降级 ...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 智能语音交互 音视频通信 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用