故障复盘

复盘文档一般包含以下内容:故障简述:故障概述、影响面、处理人等 故障背景:故障发生时的业务链路 故障时间线:着重强调故障引入、故障发生、故障发现、业务响应、恢复执行、故障恢复几个时间点 故障原因分析:建议先一句话总结,再进行...

故障应急协同

故障相关成员直接拉进处理群,相关成员包括故障受影响业务的“应急接口人”、可疑原因业务的“应急接口人”,并且系统自动电话通知。进群后的成员,可直接在群内签到。每个故障建议设置单独的故障处理群,群内成员均为故障的相关人,为...

监控报警概述

故障预警 云电脑的故障信息、故障原因及故障时间等信息。使用场景 在日常业务运行的过程中,监控大盘帮助您及时了解账号下全部云电脑资源的全局情况,实时监控提供更详细的数据指标和故障预警信息,帮助您了解终端用户使用云电脑的情况,...

可运维性咨询服务内容说明

4.6自动化评估 乙方专家团队通过对甲方应用系统和云平台的调研,评估系统自动化运维效率,并基于云上最佳实践,帮助甲方设计包括持续集成、持续部署、批量配置管理、周期定时运维管理、IT基础架构自动化编排方案,实现基础设施即代码(IaC...

添加自动化日志

页面自动埋点自动记录页面的打开、来源、停留时长等信息。用于分析页面 PV、UV、来源去向等指标。埋点 您无需手动进行日志埋点,原因如下:自动化日志是一种特殊的行为埋点。在运行时利用 Objective-C 方法交换技术替换系统方法,同时插入...

托管节点池节点自动恢复

当发现节点故障时,ACK会根据故障原因触发对应恢复任务,并记录相应的事件。当恢复任务完成后,故障状态解除,节点恢复正常状态。当恢复任务完成后,故障状态依然存在,节点会被置为恢复失败状态。说明 如果集群中存在多个节点池,节点池...

流量回放和压测

此外,在数据库发生故障且无法定位原因时,可以利用克隆库复现故障场景,以便更好地定位故障原因。前提条件 源数据库支持:RDS MySQL PolarDB MySQL版 说明 不支持 PolarDB MySQL版 的 企业版 单节点 实例。PolarDB-X 2.0。目标数据库实例...

智能压测

此外,在数据库发生故障且无法定位原因时,可以利用克隆库复现故障场景,以便更好地定位故障原因。前提条件 源数据库支持:RDS MySQL PolarDB MySQL版 说明 不支持 PolarDB MySQL版 的 企业版 单节点 实例。PolarDB-X 2.0。目标数据库实例...

捷顺

本文介绍数据库自治服务DAS助力...客户感言“阿里云DAS服务帮助捷顺科技对数十个数据库实例进行异常监测、自动限流、自动优化、自动弹性扩缩容,大幅降低了数据库运维成本和故障时间,大幅提高了系统的可用性。——捷顺科技总工&运维负责人。

支持计划

阿里云支持计划服务范围 2.1阿里云支持计划服务范围 阿里云支持计划服务范围包含:阿里云产品的最佳实践 阿里云产品相关的技术问题、故障处置 阿里云API 和阿里云SDK问题的故障处置 与阿里云资源相关的操作或系统问题的技术支持 与阿里云的...

EMR Kafka磁盘故障运维

当出现磁盘故障时,需要根据故障原因、故障影响程度、业务需求(是否接受数据丢失、是否允许服务较长时间不可用)、集群状态等综合考虑恢复采取的策略。如果业务优先保证服务可用,但允许丢失部分数据,则应考虑在可能会丢失数据的情况下,...

I-V曲线诊断

数据服务中提供光伏智能运维的IV曲线诊断算法,结合环境光强度、环境温度等影响因素,对组串式光伏发电阵列的电流-电压曲线(I-V曲线)进行分析,检测系统可能出现的故障,进而提高设备的运行效率,保障电站高效运行。本文介绍光伏智能运维...

Landing Zone咨询服务内容说明

1.服务概述 1.1 服务说明 Landing Zone咨询服务是在客户系统上云的过程中,提供基于阿里云产品体系的云治理方案设计与方案技术验证。通过该服务帮助客户进行资源管理、财务管理、身份管理、网络规划、安全防护、合规管理、运维管理、基础...

企业云IT治理服务工作说明书

服务说明 企业云IT治理服务(Landing Zone)是在客户系统上云的过程中,提供基于阿里云产品体系的云治理方案设计与方案技术验证服务。通过该服务帮助客户进行资源管理、财务管理、身份管理、网络规划、安全防护、合规管理、运维管理、...

归档存储服务等级协议

阿里云将对不可用时间进行赔偿,但不包括以下原因所导致的服务不可用时间:(1)阿里云预先通知用户后进行系统维护所引起的,包括割接、维修、升级和模拟故障演练;(2)任何阿里云所属设备以外的网络、设备故障或配置调整引起的;(3)...

自助救治损伤的ECS实例Linux系统

适用的症状和原因 在某些情况下,Linux操作系统会出现启动异常,此时,在阿里云ECS控制台显示的实例状态可能是运行中,但实例内的应用不可访问,实例内的网络不可达,既无法ping通,也无法通过workbench或者ssh建立连接。如果您在阿里云ECS...

设置Pod故障处理策略

默认情况下,ECI Pod创建失败后,系统自动重试尝试创建。如果您希望尽快得到创建结果以便及时处理故障,可以修改Pod故障处理策略。配置说明 在虚拟节点上创建ECI Pod时,可能会因为库存不足等原因导致Pod创建失败,默认情况下,系统会...

监控、诊断和故障排除

相对于传统应用程序,开发云端应用虽然降低了用户在基础设施搭建、运维等方面的成本,但却增大了监控、诊断和故障排查的难度。OSS存储服务为您提供了丰富的监控和日志信息,帮助您深刻洞察程序行为,及时发现并快速定位问题。本文主要描述...

实例的节点故障处理机制

本文档介绍云数据库MongoDB版实例的节点故障处理机制。...当使用Connection String URI进行连接时,如果某个Mongos节点出现故障,客户端能自动进行故障切换,将请求分散到状态正常的Mongos节点上,详情请参见 分片集群实例连接说明。

自动或手动主备切换

当主实例发生故障或不可用时(例如操作系统错误、硬件故障等),系统自动触发主备切换,主实例和备实例将进行互换,切换后实例地址保持不变,应用程序会自动连接到新的主实例(原备实例),从而保障业务的连续性和高可用性。此外,您还...

产品升级公告

产品能力范围扩大:原运维编排服务提供的能力将变成「系统运维管理」的一个功能模块,叫自动化任务。升级后,「系统运维管理」不再指某个具体的产品能力,而是一组功能模块的统称,包括自动化任务、补丁管理、参数管理、配置清单、软件包...

设备无法上电

问题现象 设备的系统指示灯(SYS或RUN)和电源指示灯都不亮。可能原因 未打开设备电源开关。设备电源线缆没有插牢。设备的外接电源有故障。设备的电源适配器有故障。解决方案 确认设备电源开关是否打开。确认设备电源线缆是否插牢。确认...

主备切换

当 云原生内存数据库 Tair 监测到实例的主节点不可用时,会自动触发主备切换,将备节点提升为主节点,保障实例的高可用性。若您收到短信、邮件、控制台站内信等通知,告知您 Tair 实例已完成主备切换,您可以参考本文了解主备切换的原因、...

主备切换

实例底层主机故障 阿里云检测到实例底层主机发生故障,例如进程异常中断、实例负载过高导致内存异常等无法正常使用时,系统会立即触发主备切换,及时恢复实例,降低故障影响时长。此类触发方式会以 短信或 站内信、邮件等形式通知到您,...

RDS与自建数据库对比优势

自动化监控告警 系统,支持秒级监控,覆盖实例和数据库所有性能指标,支持短信、邮箱、旺旺、钉钉等通道,且根据消费有大额度的免费短信数量。支持 异地容灾。支持 一键版本升级。无自动备份系统,流式备份能力需要单独实现,实现按时间点...

测试指标

简称 Virtual User:VU 标准 一般情况下,性能测试是将系统处理能力容量测出来,而不是测试并发用户数,除了服务器长连接可能影响并发用户数外,系统处理能力不受并发用户数影响,可以用最小的用户数将系统处理能力容量测试出来,也可以用...

应用场景

日志服务中的日志审计服务支持跨账号自动化采集主要的阿里云产品的合规与安全类的日志、事件,自动集成威胁情报系统和告警系统,提供近百个合规与安全类的监控规则模板,帮助安全运维人员更快速的开启安全运维工作。更多信息,请参见 日志...

管理MySQL集群

主机故障处理策略 主机故障时,系统的处理策略:自动替换主机:系统自动替换故障主机。说明 如果故障主机是云盘主机,云盘会自动迁移计算资源以自动替换主机。如果故障主机是非云盘主机,则系统会先将故障主机上的实例迁移走,然后自动...

故障演练常见问题

欢迎您反馈在使用故障演练过程中遇到的问题,目前提供以下常见问题供您参考。单个演练活动成功状态怎么判断?因为一个活动可能会有很多目标机器,当所有机器执行完毕之后,如果有机器没有执行成功,那么这个演练活动就会被系统判断为失败。...

操作系统迁移中问题(Windows)

本文介绍Windows操作系统迁移相关的故障问题及解决方案。异常报错提示Run OSM Check Script Error,错误码M10_1001,怎么办?异常报错提示Run OSM Check Script Error,错误码M10_1002,怎么办?异常报错提示Run OSM Check Script Error,...

网站耗资源(客户程序故障)常见问题

本文汇总了使用云虚拟主机出现网站耗资源(客户程序故障)时的常见问题。什么是网站耗资源(客户程序故障)?网站程序占用CPU及内存过多,是对资源的一种浪费。当您使用普通版共享云虚拟主机建站后,可能会因为网站程序编写不合理、代码...

功能特性

继而在风险事件发生时,将例行、程式、标准的排查过程,通过故障决策树自动执行,并直接反馈诊断结果。通过故障诊断平台,能够极大地缩短故障排查时间。同时,屏蔽了不同运维人员在故障排查时的经验和技能差异,实现故障的快速定位。...

NAT网关故障排查指南

如果您存在多台Linux操作系统的ECS实例通过NAT网关并发访问基于Linux操作系统服务端的场景,由于Linux操作系统内核实现的原因,可能存在TCP连接请求被Linux操作系统内核丢弃而导致连接超时或失败的情况。更多信息,请参见 Linux内核协议栈...

自动化

从应用程序发布周期、客户服务到故障管理以及其他内部支持流程,一切都需要更快,而所有这些流程都依赖于基础设施。基础设施自动化不仅仅是加速基建,也加速了业务应用的部署过程,加速了整个业务转型的启动,进而提升了企业探索和发现机会...

部署高可用及共享存储Web服务

1个公网负载均衡CLB:基于对流量按需分发的能力,可以将流量分发到不同的后端服务器,可消除系统中的单点故障,当某个服务器发生故障时,CLB会自动将请求分配到其他正常的服务器上,从而保证服务的连续性和稳定性。2个文件存储NAS:实现多...

创建MySQL集群

主机故障处理策略 主机故障时,系统的处理策略:自动替换主机:系统自动替换故障主机。说明 如果故障主机是云盘主机,云盘会自动迁移计算资源以自动替换主机。如果故障主机是非云盘主机,则系统会先将故障主机上的实例迁移走,然后自动...

订阅事件通知

系统自动根据报警组中报警联系人的通知方式发送报警通知,例如:报警联系人中设置了手机号码和邮箱,自定义通知方式 使用默认通知方式,则报警联系人只会收到报警电话、短信和邮件。推送与集成:无需配置。说明 关于如何创建推送渠道,请...

构建阶段

变更管理:变更管理工作贯穿在整个云上环境及各类系统的生命周期,是ITIL管理中非常重要的一个流程环节,和其他流程关系非常紧密,稍有不慎就容易导致故障。如何让变更有章可循,是企业需要在这个阶段重点考虑的问题。

订阅事件通知

系统自动根据报警组中报警联系人的通知方式发送报警通知,例如:报警联系人中设置了手机号码和邮箱,自定义通知方式 使用默认通知方式,则报警联系人只会收到报警电话、短信和邮件。推送与集成:无需配置。说明 关于如何创建推送渠道,请...

故障排查

本文介绍阿里云容器服务ACK集群在使用过程中常见问题的故障分析和排查流程。ACK集群异常 添加Kubernetes集群节点的常见问题 容器镜像仓库构建服务失败问题排查 容器镜像服务源码绑定失败问题排查 Kubernetes集群如何指定安全组 Kubernetes...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
机器人流程自动化 云安全中心 视频点播 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用