主备切换

常见问题 Q:实例故障触发主备切换的原理是什么?A:依赖高可用HA(High Availability)系统的探活机制实现故障检测,具体如下:主要事件 说明 健康检测 HA系统会探测确认主备节点健康状态。主节点异常 发现主节点不可用,会将备节点提升为...

常见问题旧版索引

排查故障的经典步骤与常见原因 如何通过查看日志排查故障?产品FAQ 授权管理FAQ 集群管理FAQ 节点与节点池FAQ 容器网络FAQ Service FAQ Ingress FAQ DNS FAQ 应用FAQ 存储FAQ-CSI 存储FAQ-Flexvolume 容器安全FAQ 为什么可观测监控 ...

监控报警概述

常见问题 配置了报警规则,但收不到报警怎么办?云电脑的部分数据指标依赖云监控Agent进行数据采集。云监控Agent在云电脑内默认为关闭状态,如发现数据指标缺失,可以按以下步骤开启云监控Agent:在云电脑中按快捷键 Win+R,然后在 运行 ...

DLC常见问题

在Linux系统中,错误码137表示进程被SIGKILL信号强制中止了,最常见的原因是内存使用量过高,即OOM(Out Of Memory)错误。您可以结合任务详情中worker的内存水位来进一步判断内存不足的原因,或更换内存规格更大的实例,或增加worker数量...

AIOps 解决方案专家服务内容说明

常见的AIOps应用路径为:对监控的各种关键性能指标(KPI)行实时异常检测;对多维指标进行根源分析,快速下钻到异常维度和元素;基于应用拓扑和实时Trace,实现根因定位;结合CMDB、关联等、构建异常根因上下文,帮助快速修复问题等等。...

故障止损恢复

建议在故障应急协同群中推荐输出常见的快速恢复能力,并提供PC、手机端的一键快速执行能力,减少研发在各自平台上查找快恢入口的时间,也解决研发在外无电脑应急的尴尬局面。快恢能力主要包含人工梳理快恢预案、通用垂直专项快恢能力:人工...

诊断决策树

对于未知的故障,您可以依据运维经验,编排出常见的排查路径,辅助快速故障定位。新建诊断决策树 登录高可用管理控制台。在左侧导航栏上,单击 故障诊断>诊断决策树。单击 新建,在 创建诊断决策树 页面,配置诊断决策树信息,包括决策树...

探针安装常见问题

常见问题 本文介绍了以下常见问题:AHAS架构感知和故障演练探针limits配置 ECS探针安装常见问题 容器服务安装ack-ahas-pilot常见问题1 容器服务安装ack-ahas-pilot常见问题2 容器服务安装ack-ahas-pilot常见问题3 容器服务安装ack-ahas-...

故障排除

CC API在调用时可能会遇到一些错误,遇到错误时以错误码为依据进行故障排除,本文为您介绍 常见错误码的解决方案。云产品运行时错误码 云产品API运行时返回的错误码。以下两个错误码为云产品运行时错误,如想获取云产品详细错误信息,需...

托管节点池节点自动恢复

当节点的运行状态发生变化并持续一段时间后,ACK将判定该状态符合故障状态,存在节点故障。当发现节点故障时,ACK会根据故障原因触发对应恢复任务,并记录相应的事件。当恢复任务完成后,故障状态解除,节点恢复正常状态。当恢复任务完成后...

存储资源

可能原因包含数据库服务进程异常退出、数据库节点宕机、数据库网络异常等,常见的容错策略如下:自动重启:当数据库实例异常终止或崩溃时,可以设置自动重启和恢复机制,自动重新启动数据库服务,并进行必要的数据恢复操作,以确保数据库的...

温湿度计

若未收到应答信号,由判断为受控单元出现故障。波形如下图:SI7006传感器简介 SI7006 是Silicon Lab公司推出的一款相对湿度及温度传感器,其结合了工厂校准湿度和温度传感器元件、模拟-数字转换器,信号处理和一个I2C主机接口。使用业界...

NVMe协议介绍

NVMe共享盘可以帮助应用实现高可用、高并发、可扩展的业务,可以帮助基于传统SAN的业务无缝上云,共享盘常见的应用场景包括数据共享、高可用故障转移、分布式缓存加速、机器模型训练等。数据共享 NVMe最简单的应用场景为数据共享,当数据被...

一键诊断

在数据库出现故障时,您可以利用一键诊断功能,快速诊断选定时间段内数据库性能情况,直观地查看数据库性能情况的全貌,快速定位异常原因。前提条件 实例为如下版本:RDS MySQL 8.0 高可用系列或集群系列 RDS MySQL 5.7 高可用系列或集群...

功能优势

丰富的故障场景 丰富的故障场景也是 AHAS Chaos 的一大特色,包括了以下场景:常见的基础设施资源例如CPU、内存、磁盘等。应用级别的故障注入,目前只支持 Java 应用,后续将陆续推出对于 NodeJs 和 C++ 的应用故障注入。云原生领域的演练...

通知短信模板规范

示例:${address} 仅支持简体中文、数字以及常用字符(即键盘上的常见字符)。不支持英文。不支持QQ号、微信号。长度不超过30个字符。车牌号 自定义,建议设置为普通车辆及常见特种车辆牌照号码。示例:${code}、${license_plate_number}等...

网络诊断

容器服务平台提供网络诊断功能,帮助您诊断网络常见问题,例如Pod之间不通、集群到公网访问不通、公网到LoadBalancer不通。本文介绍网络诊断的基本原理、使用方式、以及如何针对常见网络不通的场景定位网络问题和使用网络诊断。重要 使用...

应用场景

本文介绍ASM的常见应用场景。流量管理 通过ASM,可以轻松实现基于配置的流量管理:将流量管理与基础设施管理分隔开来,并提供了许多独立于应用代码之外的流量管理功能,在部署规模逐步扩大的过程中帮助简化流量管理。管理 服务网格 的服务...

智能卡简介

说明 网络切换策略有三种,分别是网络信号(Dbm)、网络延时、网络信号+网络延时混合策略。默认为混合策略。网络灾备 当前网络出现故障后,支持切换到备份网络,提升设备在线时长。降低成本 节省了事前勘测和故障后运维的人力以及相关成本...

应用场景

能够解决 多源监控集成:支持多个常见监控系统集成,简单配置即可完成集成对接。报警统一处理:所有报警进行集中降噪处理,抑制收敛,避免报警风暴。事件闭环管理:对报警生成事件,进行全生命周期管理,不遗漏重大事件。体系化故障闭环...

产品优势

计算巢为用户提供了丰富的软件选择,覆盖常见的软件类型,包括:数据库等基础软件,CRM等应用软件,以及制造、医疗等行业软件。已经有超过600家软件服务商入驻计算巢,超过100款可独立部署的软件。用户可以通过计算巢推荐服务列表、阿里云...

常见终端的空间流

为了避免被切割的信号不一致,在接收端也采用多个天线同时接收,根据时间差的因素将分开的各信号重新组合,还原出原本的数据。传输效率与数据子流(空间流)数量成正比。常见终端网卡的空间流:单空间流:一般的手持终端,例如PAD、手机都...

使用集群诊断

容器智能运维平台 提供一键故障诊断能力,包括节点诊断、Pod诊断、Service诊断、Ingress诊断、内存诊断、网络诊断,可以辅助您定位集群中出现的问题。本文介绍如何在ACK集群中使用集群诊断功能。前提条件 已创建Kubernetes托管版集群。具体...

常见问题-FAQ

重要 标准版最快可在4分钟左右准确发现故障并切换 故障发现时间:GTM可保障故障发现时间,目前默认的健康检查配置可以在故障的4分钟左右准确发现故障并切换;全网生效时间:GTM无法保障全网的最终生效时间,因受限于全国各地运营商的TTL...

变更发布策略

常见的做法包括基于HTTP Header和Cookie,将特定请求或用户灰度至新版本,降低故障影响范围。金丝雀发布:通过调整流量权重比例,逐步将流量从老版本切换至新版本。同时对老版本服务进行缩容,对新版本进行扩容,相比蓝绿发布资源利用率较...

步骤七:故障切换

保护组进入增量复制状态后,您就可以进行故障切换操作。本文介绍故障切换和恢复的基本操作。故障切换类型 数据同步后切换 该故障切换会先停止保护组中被保护的实例,并且等到所有被保护的实例停止后再进行最后一轮数据同步,等待数据同步...

步骤七:故障切换

保护组进入增量复制状态后,您就可以进行故障切换操作。本文介绍故障切换和恢复的基本操作。故障切换类型 数据同步后切换 该故障切换会先停止保护组中被保护的实例,并且等到所有被保护的实例停止后再进行最后一轮数据同步,等待数据同步...

步骤七:故障切换

保护组进入增量复制状态后,您就可以进行故障切换操作。本文介绍故障切换和恢复的基本操作。故障切换类型 数据同步后切换 该故障切换会先停止保护组中被保护的实例,并且等到所有被保护的实例停止后再进行最后一轮数据同步,等待数据同步...

步骤七:故障切换

保护组进入增量复制状态后,您就可以进行故障切换操作。本文介绍故障切换和恢复的基本操作。故障切换类型 数据同步后切换 该故障切换会先停止保护组中被保护的实例,并且等到所有被保护的实例停止后再进行最后一轮数据同步,等待数据同步...

接入DAS的实例状态概览

无法连接 网络连接异常或目标实例出现故障导致无法连接。监控异常 DAS数据库网关(DBGateway)出现异常,详情请参见 DBGateway常见问题。连接正常 目标实例已正确连接至DAS控制台,您可以使用集群管理、实例监控和告警服务等功能,详情请...

如何管理故障

更新故障通知:在故障处理的过程中,当故障进展发生变化,包括进度更新、影响恶化、故障等级变化、原因明确、根因定位等场景下,可更新故障过程中的内容,并在 故障详情 页点击更新故障通知,选择需要的故障通告类型,并最终确认发出故障...

故障协同处理(基于钉钉)

2.故障应急场景群:事件升级故障后,群内推出 故障处理中 消息卡片,如果满足自动生成故障场景群的需求(下文详细介绍创建故障场景群逻辑),故障场景群内同时推出 故障处理中 消息卡片。本群故障消息卡片包含按钮:签到、签到记录、应急...

故障管理

故障管理概述 故障管理是源于ITIL的一个概念,在IT企业或者互联网企业进行故障管理的目的是当生产环境出现重大宕机时尽快恢复正常的服务运营,将组件失败对业务所造成的负面影响降到最低,从而确保满足事先与业务客户之间所约定的服务级别...

故障复盘

故障复盘规范 故障复盘作为故障体系中的重要一环,整体复盘流程包括故障处理过程、改进分析、故障定责,基于包含标准化的复盘SOP、对应预防action推荐、问责管理机制,全面地回溯线上故障的发生,产出故障复盘报告和改进措施,避免故障重复...

故障应急协同

故障通告及更新 基于7x24监控值班工作特性,对于业务异常达到故障等级时,以用户定制的(语音、短信、IM)的方式在约定时间内将故障影响信息以及处理进展通知给对应的接收人/组,并持续更新直至故障结束。故障应急协同群 故障发生后,可以...

FAQs

重要 故障发现时间:GTM可保障故障发现时间,目前默认的健康检查配置可以在故障的4分钟左右准确发现故障并切换;DNS切换同步时间:GTM无法保障全网的最终生效时间,因受限于全国各地运营商的TTL缓存设置以及网络环境不同,所以全网生效时间...

什么是故障

本文主要介绍什么是故障。定义 在日常运营中,无论什么原因导致业务服务中断、服务品质下降或用户服务体验下降的现象,称为故障,但不包括用户侧环境或用户自身操作引起的问题。“用户体验下降”说明故障的核心要关注用户感受,可通过客服...

故障应急

故障管理体系是围绕故障全生命周期采取的一系列控制流程,包括故障基础数据管理(故障等级定义、应急场景监控覆盖、服务组&值班表管理、故障订阅管理),故障发现(7*24监控值班、智能基线告警),故障应急协同(故障通告及更新、故障应急...

实例的节点故障处理机制

本文档介绍云数据库MongoDB版实例的节点故障处理机制。单节点实例 由于单节点实例架构的特殊性,单节点实例仅拥有一个节点。当节点发生故障后,系统会对故障节点进行检查与修复。节点故障期间实例的相关服务不可用。说明 单节点实例适用于...

故障注入

您可以通过故障注入功能向测试应用注入故障,检测应用面对异常时的处理情况。您可以根据检测的情况调整您的应用,以减少应用在正式使用时出现的异常问题。多用于测试环境。配置故障注入规则 登录 SOFAStack 控制台。在左侧菜单栏选择 ...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 应用高可用服务 云数据库 OceanBase 版 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用