故障演练

故障演练是整体容灾流程中极其重要的一。本文介绍ECS容灾中故障演练的操作流程。故障演练的意义 故障演练将被容灾保护的服务器在云上拉起并验证应用正确性,是容灾流程整体中及其重要的一,它的核心意义在于:方便地验证被容灾保护的...

故障演练

故障演练是整体容灾流程中极其重要的一。本文介绍ECS容灾中故障演练的操作流程。故障演练的意义 故障演练将被容灾保护的服务器在云上拉起并验证应用正确性,是容灾流程整体中及其重要的一,它的核心意义在于:方便地验证被容灾保护的...

AICS实现对SISO非积分对象的稳定控制

本文通过一个冷热通向水管的流量和温度对象控制过程,为您介绍单入单出-非积分的仿真案例。背景信息 以下是一个简单的过程:有一个热水管和一个冷水管通向水箱,冷水和热水混合后从水箱流出。设定冷水管的流量是不可以人为改变的,但可以...

运维服务内容说明

因客户自身原因导致的问题故障,不属于阿里云运维服务范围。如客户有不定期现场服务需求,可按天购买运维专家现场服务。运维服务专家可帮助客户进行疑难问题现场处理,故障现场救援,变更现场保障、现场运维培训等服务。运维专家现场服务需...

实例启动异常常见错误与对应解决方案

问题原因 该问题可能是因为Windows系统引导配置数据(Boot Configuration Data,BCD)配置异常或者磁盘文件系统故障,导致系统无法加载。解决方案 在存有快照的情况下,您可以使用快照来恢复系统盘。具体操作如下:警告 回滚云盘是不可逆...

以太网接口无法接通

本文介绍以太网接口没有接通的可能原因和处理方法。问题现象 以太网接口没有接通(物理上)。可能原因 设备没有连接电源或者以太网接口连接的线缆没有插好。光纤、双绞线过长或者链路损耗太大。接口、接口模块或者设备故障。解决方案 检查...

混沌工程缓存实战系列-Redis

登录 AHAS控制台,在左侧栏选择 故障演练>我的空间。在 我的空间 页面,单击 新建演练>新建空白演练。在 演练配置 页面,填写相关参数,选择 演练内容 为 主机内网络延迟。更多参数信息,请参见 创建演练。单击 主机内网络延迟,在 本地...

DDH常见问题

如果您因为过保迁移等原因被分配了一台新的物理服务器,您的DDH会对应一个新的机器码,该机器码就是这台新物理服务器的唯一识别码。DDH故障时是否会自动迁移到健康的DDH?阿里云为您提供DDH故障迁移服务,开启服务后,DDH因故障停机时,会...

以太网接口频繁Up/Down

本文介绍以太网接口频繁Up/Down的原因和处理方法。问题现象 以太网接口频繁Up/Down。可能原因 线缆没有连接好。双绞线过长、光纤超长或链路损耗太大。接口、接口模块或设备故障。解决方案 检查本端和对端设备线缆、模块是否插好。检查设备...

上下文查询

开发人员无需登录服务器,在大量日志中通过关键字检索日志,日志服务支持通过控制台查看指定日志在原始文件中的上下文信息。前提条件 已通过Logtail采集到日志。具体操作,请参见 通过Logtail采集日志。重要 如果您使用了Logtail插件处理...

查看实例的系统日志和屏幕截图

背景信息 云服务器ECS的系统日志是运维诊断的重要一。如果您需要诊断分析异常故障,可以获取ECS实例启动和异常故障等日志信息。系统通过串口打印输出的日志会包含两种类型的信息,一类是系统启动开机时的日志内容,另一类是系统内核故障...

使用ACK AI助手进行故障排查和智能问答

若ACK AI助手无法定位问题的根因并提供可用的解决方案,您可以发起进一步发起诊断,对异常的Pod、Node节点发起基于ACK技术专家诊断经验的深度故障诊断功能。更多信息,请参见 使用集群诊断。前提条件 已开通 容器服务 Kubernetes 版 并已...

配置任务常见错误码及排查方法

原因:通讯链路故障,JDBC驱动程序数据包成功发送到源数据库服务器,但未收到来自源数据库的数据包。解决方法:排查数据库的连接数是否过多。参考 communications link failure 处理。联系技术支持解决。DTS.Msg.SQLExecuteError....

监控、诊断和故障排除

相对于传统应用程序,开发云端应用虽然降低了用户在基础设施搭建、运维等方面的成本,但却增大了监控、诊断和故障排查的难度。OSS存储服务为您提供了丰富的监控和日志信息,帮助您深刻洞察程序行为,及时发现并快速定位问题。本文主要描述...

自动/手动主备切换

当系统发生故障时,PolarDB 集群会自动进行主备切换。您也可以手动进行主备切换,指定一个只读节点为新的主节点。注意事项 不论是自动切换还是手动切换,当只读节点未开启热备时,主备切换过程中可能会出现20~30秒左右的闪断,因此切换前请...

功能概述

数据库发生故障后,无法在发生故障时定位到原因,可以通过智能压测功能,在克隆库上复现故障场景,定位故障原因。功能架构 智能压测的功能架构如下图所示:源数据库:将要进行大促、将要业务变更或者已经发生故障,需要进行流量捕获的数据...

开启健康检查

开启健康检查是指对地址池中的地址配置健康检查策略,开启后可监测应用服务的可用性状态,并最终帮助企业实现自动故障隔离和自动故障切换的功效。健康检查的类型包括:Ping监控、TCP监控、HTTP(S)监控。前提条件 已完成 创建实例、创建...

I-V曲线诊断

数据服务中提供光伏智能运维的IV曲线诊断算法,结合环境光强度、环境温度等影响因素,对组串式光伏发电阵列的电流-电压曲线(I-V曲线)进行分析,检测系统可能出现的故障,进而提高设备的运行效率,保障电站高效运行。本文介绍光伏智能运维...

ADP底座介绍

具体支持以下功能:诊断异常原因及详情 提供诊断处理建议 展示异常资源关联 展示异常事件 运维操作 提供了多种全面的运维操作。具体支持以下功能:组件水平扩缩容 组件垂直扩缩容 组件PVC存储扩容 组件备份还原 组件主备切换

访问控制常见问题

报错信息:X-Tengine-Error:denied by req auth:expired timestamp 问题原因:鉴权过期,CDN 开启了鉴权,并且URL携带了鉴权参数,但是鉴权参数过期。解决方案:如果鉴权过期,请参见 URL鉴权,重新生成鉴权URL。报错信息:X-Tengine-Error...

实时分析链路数据

如果您的应用遇到流量不均、单机故障、慢接口治理、业务流量统计、灰度发布监控等问题,可以通过应用监控的调用链分析快速定位问题代码。本文介绍如何通过调用链分析快速定位五种经典线上问题,更直观地了解调用链分析的用法与价值。背景...

归档存储服务等级协议

阿里云将对不可用时间进行赔偿,但不包括以下原因所导致的服务不可用时间:(1)阿里云预先通知用户后进行系统维护所引起的,包括割接、维修、升级和模拟故障演练;(2)任何阿里云所属设备以外的网络、设备故障或配置调整引起的;(3)...

AIOps 解决方案专家服务内容说明

智能故障发现解决方案 基于调研与评估的结果,为客户设计智能故障发现解决方案,包含:多账号统一监控数据接入,并根据应用分组为客户设计AI算法能力用于实时故障发现,并根据分析结果智能定位根因,提供实时异常检测的稳定性方案,保障...

风险视图

查看风险 登录 AHAS控制台,从左侧导航栏选择 故障演练>架构感知。在 场景视图 区域,单击 风险视图 的 查看视图,进入详情页。默认进入的是 缩略图 视图模式。将鼠标悬浮在图标上,可查看该产品需重点关注的TOP5风险和风险总数。在页面右...

功能架构

作为一个企业级产品,系统提供资源租户隔离、访问鉴权控制和监控配置模板等企业级特性。并且提供数据高可用、服务高可靠、双机房容灾部署等平台特性。基于系统丰富数据和强大功能,可以支撑容灾巡检、故障重放、弹性扩缩、微服务治理和全...

未收到告警通知的排查思路

排查流程 操作步骤 登录 日志服务控制台。在Project列表区域,单击目标Project。该Project为您告警监控规则所属的Project。在左侧导航栏中,单击 告警。在 告警中心 页面的 告警规则 页签中,单击目标告警监控规则。在页面底部的 告警历史 ...

冷备操作手册

五 数据恢复操作 5.1 登录控制台项目 登录链接:阿里云应用服务平台,找到相关项目 5.2 设备配置恢复 进入项目内,找到 边缘一体机-网关管理,如下图所示。点击网关对应的 设备集成 点击部署,推送设备配置到边缘一体机 点击部署后可以查看...

Gmail 投递帮助

一、投递失败的原因 一般来说,投递失败会出于以下一种或多种原因:发送邮件数量过多 发送邮件数量急剧增多 向未知的"垃圾邮件蜜罐地址"发信 向无效地址发信 出口IP被列黑 发送的邮件被gmail用户举报或标记为垃圾邮件 使用全新IP发信,且未...

诊断项与诊断结果说明

实例操作系统异常 实例系统出现了内核错误(kernel panic)、OOM(Out of Memory)异常或内部宕机等故障。检查该实例的操作系统(Guest OS)内部是否存在内核panic、OOM异常或内部宕机等故障。这些故障可能是由于实例配置不当或用户空间的...

ADP底座/本地运维控制台

ADP底座/本地运维控制台发布记录。V1.4.6 Bug Fix 修复某些场景下垂直扩缩容运维操作报错的问题 修复Redis水平扩容运维操作无效的问题 修复Redis sentinel模式下不支持垂直扩容的问题 修复运维操作执行结果被后续运维操作回滚的问题 修复...

功能特性

此外,在数据库实例发生故障且无法定位原因时,可以利用克隆库复现故障场景,以便更好地定位故障原因。智能压测 搜索分析 查询并导出SQL语句对应的日志信息。搜索 SQL洞察 SQL洞察聚类分析,用作深度异常的排查。SQL洞察 安全审计 内置了...

EMR Kafka ECS磁盘事件处理

如果ECS修复磁盘事件流程中,要求重启ECS,则可以按照如下步骤重启:在EMR控制台停止故障Broker节点服务。重启故障ECS实例。在ECS修复磁盘事件流程中,单击 重启。在EMR控制台启动故障Broker节点服务。观察Broker节点状态是否处于正常状态...

故障应急

故障管理体系是围绕故障全生命周期采取的一系列控制流程,包括故障基础数据管理(故障等级定义、应急场景监控覆盖、服务组&值班表管理、故障订阅管理),故障发现(7*24监控值班、智能基线告警),故障应急协同(故障通告及更新、故障应急...

EasyCkpt:AI大模型高性能状态保存恢复

功能介绍 针对频繁故障的情况,PAI通过之前的故障失败场景总结出以下GPU和深度学习场景故障的功能特点:特点1:任务的故障是部分的。通常,故障的根因是一到两台机器的故障,这只会影响部分Worker。对于大规模分布式训练任务而言,不会所有...

读多写少型业务场景多活实践

导购链路对商品应用是强依赖,强依赖故障将导致业务不可用,因此故障的爆炸半径应该控制在单元内。创建故障演练。创建杭州单元商品中心故障的演练,具体操作,请参见 创建演练。故障注入。在多活容灾的 监控大盘 页面 异地双活 区域,查看...

故障演练常见问题

故障不生效的原因较多,可能是参数配置不正确或无对应的请求命中,但故障规则已成功下发,故需要计费。刚刚购买的资源包为什么会被扣减次数?因为购买前已产生欠费,购买资源包后会先扣减所欠的次数。子账号的消费是否独立计费?不是,与主...

Windows系统的ECS实例ping外网地址提示“一般故障”...

本文介绍Windows系统的ECS实例ping外网地址提示“一般故障”的错误原因和解决方案。问题现象 Windows系统的ECS实例ping外网地址时提示“一般故障”错误。问题原因 出现该问题可能有以下原因:可能原因 排查方案 ECS实例中安装了第三方杀毒...

网站耗资源(客户程序故障)常见问题

本文汇总了使用云虚拟主机出现网站耗资源(客户程序故障)时的常见问题。什么是网站耗资源(客户程序故障)?网站程序占用CPU及内存过多,是对资源的一种浪费。当您使用普通版共享云虚拟主机建站后,可能会因为网站程序编写不合理、代码...

故障演练

高速通道故障演练功能是一种模拟故障场景的工具。例如,模拟在高速通道冗余链路中的一条链路发生故障时,网络流量会自动切换至其他冗余链路的场景。借助该工具,您可以测试和验证您与阿里云组建的混合云组网的可靠性。重要 故障演练会通过...

产品架构介绍

同机房优先路由:支持Consumer优先调用同机房内的Provider,从而减少跨机房调用,同时还能将故障的爆炸半径控制在一个机房内。故障隔离:当局部Provider出现异常时,支持将异常的Provider进行故障隔离,保证所有机房内的Consumer均不会调用...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 云数据库 RDS 智能语音交互 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用