功能特性

运维人员可以根据常见故障场景的处理过程,选择需要的原子能力进行编排组合,形成可执行的应急预案。当风险事件发生时,风险事件中心会推荐可执行的应急预案,供运维快速选择并自动化执行,从而通过标准化处理流程,实现故障快速恢复。故障...

什么是数据库备份DBS

常见问题和故障处理 使用DBS时遇到的各类问题,例如需要修改备份源数据库、数据库恢复失败、如何备份RDS只读实例等,您可以在 常见问题 或 常见报错 内查找,可以解决您的绝大部分问题。说明 若在文档中未找到您遇到的异常或报错,或按照...

云数据库RDS简介

阿里云关系型数据库RDS(Relational Database Service)是一种安全稳定可靠、高性价比、可弹性...常见问题和故障处理 使用RDS时遇到的各类问题,例如CPU过高、实例锁定等,您可以在 Q&A 或 常见问题 内搜索查看,可以解决您的绝大部分问题。

数据消费框架原理

背景信息 Tunnel Client可以解决全量和增量数据处理时的常见问题,例如负载均衡、故障恢复、Checkpoint、分区信息同步确保分区信息消费顺序等。使用Tunnel Client后,您只需要关心每条记录的处理逻辑。Tunnel Client的代码详情请参见 ...

SmartData 3.0.x版本简介

改进缓存服务,增强节点容错处理和节点下线操作。改进缓存块写入磁盘的选择策略,默认支持轮询(Round Robin)。改进读写流程,增强容错处理。提供JindoFS分层存储的Cache、Uncache和Status命令,允许缓存至指定目录,支持数据预加载,查看...

消息通知

任务自动容错:当DLC任务发生异常或错误并进行自动容错处理时,会发送消息通知。事件范围 支持以下取值:我创建的:仅您自己创建的DLC任务。当前工作空间所有的:当前工作空间下的所有的DLC任务。事件目标 钉钉通知 您需要配置 Webhook 和 ...

运维服务内容说明

2.服务范围 运维产品范围:阿里公共云云产品(详见 附录一:运维服务产品清单)阿里云运维服务范围 包含:阿里云 产品使用咨询、问题处理故障救援、配置指导、最佳实践等。阿里云 产品相关的操作或系统问题的技术指导。阿里云 管理控制台...

2024年

该版本调整了文件读取逻辑,增强了对文件块损坏或不可读状态的容错处理,确保数据读取过程的稳定性和可靠性。修复查询监控工具异常崩溃的问题。该版本对底层实现进行了优化,增强了错误处理能力和稳定性,避免在处理过程中发生崩溃。2024年...

NAT网关故障排查指南

本文介绍NAT网关的常见故障及排查方案。流量不通类故障排查:ECS实例配置DNAT条目后无法被公网访问 VPC内新建交换机的ECS无法通过SNAT访问公网 VPC内存在多个NAT网关时,某交换机的ECS实例不能访问公网 访问流量异常类故障排查:客户端访问...

故障协同处理(基于钉钉)

2.故障应急场景群:事件升级故障后,群内推出 故障处理中 消息卡片,如果满足自动生成故障场景群的需求(下文详细介绍创建故障场景群逻辑),故障场景群内同时推出 故障处理中 消息卡片。本群故障消息卡片包含按钮:签到、签到记录、应急...

功能发布记录

9.新增故障协同处理故障应急场景群创建和使用。10.新增事件协同处理-相似事件模块。11.事件和故障的消息卡片支持@关联人员。12.PC端移动应用开通模块支持展示钉应用(维蜜)的开通状态。13.PC端主RAM和子RAM账号权限保持一致,都支持新增...

高性能版实例

以下内容为 AnalyticDB PostgreSQL版 实例常见故障场景中高性能版和高可用版的对比:恢复(Recovery)模式 根据以往 AnalyticDB PostgreSQL版 运行情况,故障最大的场景为恢复模式,故障概率远大于另外两种场景(计算节点故障和计算节点宿...

概览

自定义监控为您提供了自定义监控项和报警规则的功能,您可以通过上报监控数据接口,将自己关心的业务指标上报至云监控,并在云监控上添加监控图表和设置报警规则,对于故障指标发送报警通知,便于您及时处理故障,保障业务的正常运行。...

查看应用分组

通过应用分组集中管理资源,便于您及时接收故障资源的报警通知,并及时处理故障。操作步骤 登录 云监控控制台。在左侧导航栏,选择 云资源监控>应用分组。在 应用分组 页签,单击目标应用分组名称链接。在 组概览 页面,您可以查看目标应用...

如何管理故障

更新故障通知:在故障处理的过程中,当故障进展发生变化,包括进度更新、影响恶化、故障等级变化、原因明确、根因定位等场景下,可更新故障过程中的内容,并在 故障详情 页点击更新故障通知,选择需要的故障通告类型,并最终确认发出故障...

管理MySQL集群

主机故障处理策略 主机故障时,系统的处理策略:自动替换主机:系统会自动替换故障主机。说明 如果故障主机是云盘主机,云盘会自动迁移计算资源以自动替换主机。如果故障主机是非云盘主机,则系统会先将故障主机上的实例迁移走,然后自动...

故障应急协同

故障通告及更新 基于7x24监控值班工作特性,对于业务异常达到故障等级时,以用户定制的(语音、短信、IM)的方式在约定时间内将故障影响信息以及处理进展通知给对应的接收人/组,并持续更新直至故障结束。故障应急协同群 故障发生后,可以...

设置Pod故障处理策略

如果您希望尽快得到创建结果以便及时处理故障,可以修改Pod故障处理策略。配置说明 在虚拟节点上创建ECI Pod时,可能会因为库存不足等原因导致Pod创建失败,默认情况下,系统会自动进行重调度,尝试重新创建Pod。您可以通过添加 k8s.aliyun...

管理集群

主机故障处理策略 主机故障时,系统的处理策略:自动替换主机:系统会自动替换故障主机。说明 如果故障主机是云盘主机,云盘会自动迁移计算资源以自动替换主机。如果故障主机是非云盘主机,则系统会先将故障主机上的实例迁移走,然后自动...

管理集群

主机故障处理策略 主机故障时,系统的处理策略:自动替换主机:系统会自动替换故障主机。说明 如果故障主机是云盘主机,云盘会自动迁移计算资源以自动替换主机。如果故障主机是非云盘主机,则系统会先将故障主机上的实例迁移走,然后自动...

故障复盘

故障复盘规范 故障复盘作为故障体系中的重要一环,整体复盘流程包括故障处理过程、改进分析、故障定责,基于包含标准化的复盘SOP、对应预防action推荐、问责管理机制,全面地回溯线上故障的发生,产出故障复盘报告和改进措施,避免故障重复...

创建MySQL集群

主机故障处理策略 主机故障时,系统的处理策略:自动替换主机:系统会自动替换故障主机。说明 如果故障主机是云盘主机,云盘会自动迁移计算资源以自动替换主机。如果故障主机是非云盘主机,则系统会先将故障主机上的实例迁移走,然后自动...

创建集群

主机故障处理策略 主机故障时,系统的处理策略:自动替换主机:系统会自动替换故障主机。说明 如果故障主机是云盘主机,云盘会自动迁移计算资源以自动替换主机。如果故障主机是非云盘主机,则系统会先将故障主机上的实例迁移走,然后再替换...

常见问题索引

[回到顶部]应用托管FAQ 应用实例FAQ 如何处理常见的Pod问题?运行中实例发生重启怎么办?Java如何通过Jstack查看线程栈?为什么设置健康检查后健康检查失败?CPU和内存配额不够,怎么申请提升额度?部署后实例无法启动,一直处于Crash或...

创建集群

主机故障处理策略 主机故障时,系统的处理策略:自动替换主机:系统会自动替换故障主机。说明 如果故障主机是云盘主机,云盘会自动迁移计算资源以自动替换主机。如果故障主机是非云盘主机,则系统会先将故障主机上的实例迁移走,然后再替换...

故障处理流程

SAG-100WM故障处理流程说明 通过SAG-100WM访问阿里云,发现故障,请参见以下流程排查故障:用户收到告警信息或者发现应用不可用。登录智能接入网关控制台,查看设备状态。访问其他公共网站,查看运营商网络状态。硬件排查。查看安全组规则...

产品优势

提高开源组织版本管理效率,快速支持业务创新 更多开源软件支持 更高软件版本支持 覆盖从边缘到AI全场景 企业级的服务支持,降低运维成本,缩短故障处理时间 来自阿里云和Cloudera的7*24小时大数据专家服务支持 快速定位使用中遇到的问题,...

快速使用专属集群MyBase

主机故障处理策略 主机故障时,系统的处理策略:自动替换主机:系统会自动替换故障主机。说明 如果故障主机是云盘主机,云盘会自动迁移计算资源以自动替换主机。如果故障主机是非云盘主机,则系统会先将故障主机上的实例迁移走,然后再替换...

实例的节点故障处理机制

本文档介绍云数据库MongoDB版实例的节点故障处理机制。单节点实例 由于单节点实例架构的特殊性,单节点实例仅拥有一个节点。当节点发生故障后,系统会对故障节点进行检查与修复。节点故障期间实例的相关服务不可用。说明 单节点实例适用于...

故障基础数据管理

在设计相应的管理方案时,需要考虑以下内容:服务组:提供服务的人员群体,服务包括故障处理,工单处理等 值班表:可以对服务组成员进行排班,让故障应急工作更有计划性、不易遗漏 升级组:服务组的一种,通过服务组和升级组,可表达组与组...

故障发现

对于完成监控覆盖的核心业务场景,在异常上报时,通过工具自动检测或值班人员人工判断,及时识别风险或故障,以风险预警和故障通告的形式快速调度应急负责人上线处理,避免业务受损或降低业务受损程度。之所以设立7*24监控值班,是因为报警...

产品优势

P2P方案的一大优势是技术上支持单节点故障容错,且拥有百万量级边缘节点,P2P调度系统可以随时获知节点当前状态,并实时调度最优节点为您提供数据,因此单节点不可用不会影响PCDN服务质量。PCDN SDK接入难易程度如何?您只需要根据PCDN SDK...

替换主机

当主机发生故障后,如果您创建 专属集群MyBase 时 主机故障处理策略 选择的是 手动替换主机,则您可以通过手动替换主机来解除故障。前提条件 专属集群MyBase 引擎的为MySQL,且主机存储类型为本地SSD盘。背景信息 当主机发生故障时,系统会...

RAM子账号授权

AliyunGEMPReadOnlyAccess」-只读管理运维事件中心的权限:适用于事件、故障处理流转等人员,如运营、测试、产品、管理等角色人员;AliyunGEMPCoordinatorAccess」-具备运维事件中心的事件和故障协同功能权限,拥有其它模块的只读权限,如...

CLB访问日志功能简介

CLB结合阿里云日志服务提供的访问日志功能,可帮助您大幅提升日志数据分析、故障定位处理的效率。什么是CLB访问日志 CLB的访问日志功能收集了所有发送到CLB的请求的详细信息,包括请求时间、客户端IP地址、延迟、请求路径和服务器响应等。...

替换主机

当主机发生故障后,如果您创建 专属集群MyBase 时 主机故障处理策略 选择的是 手动替换主机,则您可以通过手动替换主机来解除故障。前提条件 专属集群MyBase 引擎的为MySQL,且主机存储类型为本地SSD盘。背景信息 当主机发生故障时,系统会...

通过可观测性能力进行故障处理最佳实践

本文为您介绍如何将 云消息队列 RocketMQ 版 可观测性功能应用于 云消息队列 RocketMQ 版 的故障管理场景中,为您的日常运维和故障处理提供实践方案。设计思路 核心问题 运维场景下,故障处理的核心问题如下:服务出现异常如何预警并上报 ...

常见问题

无论 SOFARegistry 是否宕机,SOFARPC 框架对服务提供者调用失败的情况,做了两方面的容错处理:调用重试:您可以配置调用重试,当发生非业务错误导致的请求失败时(例如网络超时等),会尝试重试(随机调用一个服务提供者重试)。...

强弱依赖治理概述

故障处理讲究的是争分夺秒,良好的强弱依赖,对于系统自动化诊断有非常大的助力作用。依赖容量评估:正常调用链路下的系统容量需要评估。例如当某个弱依赖挂掉时,需要注意整体的容量是否有变化。强弱依赖治理的演进 强弱依赖治理分为三...

服务等级目标SLO概述

设置短时间窗口可以保障故障处理后,及时解除告警。以设置30天的SLO为例:当1小时内错误预算消耗2%(即该小时内错误率高于阈值的14.4倍)或6小时内消耗5%(阈值的6倍)时,会触发一个Page级别的告警;1天内错误预算消耗10%(阈值的3倍)或3...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
媒体处理 对象存储 视频点播 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用