未收到告警通知的排查思路

如果 配置错误次数 或 通知错误次数 0,说明存在故障,请查看页面底部的 配置错误 和 通知错误 图表,并参见 告警通知错误码 进行排查。如果全局配置错误数和通知渠道错误数为0,说明无故障,请提 工单 联系日志服务技术支持人员。

概述

再者云计算平台会提供冗余存储和备份能力,避免系统因为硬件故障或其他原因导致的停机或数据丢失。这种备份机制可以提高系统的可靠性。责任共担模型 阿里云平台提供高可用的基础设施,并提供应用稳定性相关工具体系。用户可以基于阿里云...

服务等级协议

2.3 除外情形 因 下述原因导致的服务不可用的时长不计入服务不可用时间:(1)阿里云预先通知用户后进行系统维护所引起的,包括割接、维修、升级和模拟故障演练;(2)任何阿里云所属设备以外的网络、设备故障或配置调整引起的;(3)用户...

如何管理事件

原因描述:输入事件的 排查原因必填);解决方案:选择事件 解决方案(可多选);方案描述:输入事件的完结结果(非必填)。添加小记:在 事件详情 页面 添加小记 可以记录事件处理的信息,任何状态下都可以添加小记,添加后不可编辑...

公共错误码

客户端错误码 错误码 错误信息 HTTP状态码 描述 UnknownError The request processing has failed due to some unknown error.400 客户端出现服务端原因的未知错误。MissingParameter The input parameter {name} should be specified....

自助诊断GPU节点问题

ACK集群提供节点级别的GPU诊断功能,供您进行部分GPU相关问题的故障排查。如果您在ACK Pro版集群中使用GPU节点时遇到问题,可以启用GPU节点自助诊断,采集GPU诊断的基础指标进行问题排查。本文介绍如何使用节点诊断功能,自助排查GPU节点...

数据类云产品专家服务

12、SQL占用CPU等原因导致的数据库实例负载高问题 13、业务SQL执行等过程异常报错问题 14、数据库的性能等问题导致整体业务受影响 15、未能定位具体原因的业务系统处理能力无法达到预期 大数据产品问题诊断与处置 依托大数据专家的海量...

故障基础数据管理

故障场景等级定义 日常运营中,除用户方环境或自身操作引起的问题外,无论什么原因导致的服务中断、服务品质下降或用户服务体验下降的现象,都称为故障。对故障影响程度的划分就是故障等级定义。定义故障等级是为了指定故障等级定义作为各...

PolarDB并行查询

串行优化流程中做针对并行执行的补强,例如修正table扫描方式等,这也是上面性能数据中Q6/Q12会有超线性加速比的原因。全算子统计信息推导+代价计算,补充了一系列的cost formula和cardinality estimation推导机制。自适应执行策略 在早期...

ECS系统事件汇总

Executed:因系统错误实例重启结束 Instance:SystemFailure.Reboot:Failed:因系统错误实例重启失败 当阿里云识别到ECS实例因底层宿主机出现了预期的软硬件故障(如CPU、内存硬件损坏等)被重启时,立即发送该系统事件。建议您等待实例...

附录:SOFAStack 产品目录

多种客户端接入支持 支持移动端(iOS,Android),也支持移动端小程序(H5,Web,后端应用)。端到端全链路跟踪 支持从客户端发起的请求到后端服务所有节点的端到端的链路跟踪。超强的安全能力 支持多种身份校验和数据加密方式(例如 ...

自动轮转密钥

原因如下:自带密钥的持久性和生命周期由用户强管控,本身就具有较高的管理难度和易错风险(例如:您需要有云下的密钥管理设施,云上云下信息需要同步,云上删除密钥材料没有任何缓冲期),而多版本带来的复杂度升级会超线性地升高易错性,...

DDH常见问题

如果您因为过保迁移等原因被分配了一台新的物理服务器,您的DDH会对应一个新的机器码,该机器码就是这台新物理服务器的唯一识别码。DDH故障时是否会自动迁移到健康的DDH?阿里云为您提供DDH故障迁移服务,开启服务后,DDH因故障停机时,会...

生产者负载均衡

异常处理 当发送某条消息发送失败时,云消息队列 RocketMQ 版 会根据失败原因决定在接下来一段时间内,选择队列目标时跳过本地失败队列所在的节点,快速实现自适应的故障隔离。策略特点 RoundRobin模式的生产者负载均衡策略仅适用于无顺序...

创建演练

背景信息 一次完整的故障演练包括以下四个阶段:安装故障演练探针 创建演练 执行演练 停止演练 操作步骤 登录 AHAS控制台,在左侧导航栏中选择 故障演练>我的空间。在 我的空间 页面,单击 新建演练。选择 新建空白演练 或 从经验库新建。...

服务协议

赔偿范围不包括以下原因所导致的请求失败或服务不可用:(1)阿里云预先通知客户后进行系统维护所引起的,包括割接、维修、升级和模拟故障演练;(2)任何阿里云所属设备以外的网络、设备故障或配置调整引起的;(3)客户的应用程序受到...

如何实现无损发布或无损上下线

下游服务正常停止,但上游服务因其他原因(例如网络故障、资源不足、处理逻辑异常等),没有及时处理和使用注册中心给予的新下游服务地址列表。使用了旧版本的客户端,由于机制问题移除下线的地址列表时效性较低。解决方案 最佳方式为接入...

功能概述

数据库发生故障后,无法在发生故障时定位到原因,可以通过智能压测功能,在克隆库上复现故障场景,定位故障原因。功能架构 智能压测的功能架构如下图所示:源数据库:将要进行大促、将要业务变更或者已经发生故障,需要进行流量捕获的数据...

AIOps 解决方案专家服务内容说明

智能故障发现解决方案 基于调研与评估的结果,为客户设计智能故障发现解决方案,包含:多账号统一监控数据接入,并根据应用分组为客户设计AI算法能力用于实时故障发现,并根据分析结果智能定位根因,提供实时异常检测的稳定性方案,保障...

监控、诊断和故障排除

相对于传统应用程序,开发云端应用虽然降低了用户在基础设施搭建、运维等方面的成本,但却增大了监控、诊断和故障排查的难度。OSS存储服务为您提供了丰富的监控和日志信息,帮助您深刻洞察程序行为,及时发现并快速定位问题。本文主要描述...

ACID语义

持久性(Durability):操作处理结束后,对数据的修改将永久有效,即使出现系统故障,该修改也不会丢失。MaxCompute并发写操作的ACID特性 原子性(Atomicity)任何时候MaxCompute会保证在冲突时只有一个作业执行成功,其他冲突作业执行失败...

调用链采样配置最佳实践

接口Top N采样使用变种LFU算法实现,在单位时间内只对每个接口的有限条目请求进行采样,其目的是为了保证数据采集规模不随接口的实际流量而线性增长。小流量兜底采样是指在单位时间内,每个接口都至少保证有1次采样。这样可以在流量比较低...

DescribeDedicatedHosts-查询专有宿主机详细信息

取值范围:Migrate:专有宿主机整机迁移至另一物理服务器,并对故障关机状态的实例进行启动。Stop:在当前专有宿主机上停止实例,确认无法修复专有宿主机后,迁移实例到其他物理机并重新启动实例。当专有宿主机上挂载云盘存储时,默认...

DescribeDedicatedHosts-查询专有宿主机详细信息

取值范围:Migrate:专有宿主机整机迁移至另一物理服务器,并对故障关机状态的实例进行启动。Stop:在当前专有宿主机上停止实例,确认无法修复专有宿主机后,迁移实例到其他物理机并重新启动实例。当专有宿主机上挂载云盘存储时,默认...

阿里云工业大脑服务等级协议

2.3 除外情形 赔偿范围不包括以下原因所导致的服务不可用时间:(1)阿里云预先通知客户后进行系统维护所引起的,包括割接、维修、升级和模拟故障演练;(2)任何阿里云所属设备以外的网络、设备故障或配置调整引起的;(3)客户的应用程序...

虚拟机场景

本文列出了虚拟机常见的故障演练场景。JvmCodeCache满 制造JVM CodeCache区域满的故障,CodeCache区域满会直接导致JIT编译关闭,从而引起业务系统性能下降。一般用于验证业务系统在高并发且系统性能下降的情况下,是否能够通过限流、快速扩...

什么是PolarDB MySQL企业版

高可用和高可靠保障,数据安全可靠 共享分布式存储的设计,彻底解决了主从异步复制所带来的备库数据强一致的缺陷,使得整个数据库集群在应对任何单点故障时,可以保证数据零丢失。数据多副本跨可用区部署,主节点故障后RTO。GDN集群间...

集群高可用架构推荐配置

节点池高可用配置 您可以基于节点的弹性伸缩、部署集、多AZ,结合K8s调度的拓扑分布约束,确保服务在不同的故障域(failure-domain)资源充足且有所隔离,从而当某一故障域出现问题时,服务仍然可以保持运行,减少单点故障的风险,提高系统...

冷备操作手册

物业管理一体机-停车版、物业管理一体机-人行版、物业管理一体机-视频版、物业管理一体机-EBA版、物业管理一体机-通行版、物业管理一体机-综合版 冷备恢复内容 应用:官方组件、三方应用、协议驱动 数据:协议设备配置(视频类)、刷卡...

产品概述

通过云原生架构、软硬件一体化、共享分布式存储的设计,主节点和只读节点使用物理复制、RDMA网络低时延,能够快速同步数据,彻底解决了主从异步复制所带来的备库数据强一致的问题,使得整个数据库集群在应对任何单点故障时,都可以保证...

技术架构

数据库自治服务(Database Autonomy Service,简称DAS),一种基于机器学习和专家经验实现数据库自感知、自修复、自优化、自运维及自安全的云服务,帮助用户消除数据库管理的复杂性及人工操作引发的服务故障,有效保障数据库服务的稳定、...

分析预警

说明 进行波动原因分析的图表需要满足以下两个条件:类别轴/维度必须是一个时间字段(时、分、秒)。至少有一个度量是求和或计数的聚合方式。在 波动分析原因分析设置 页面,配置以下参数。选择 对比对象。开启 维度拆解 开关,并基于 可...

DeleteContainerDefenseRule-删除镜像程序防御规则

删除镜像程序防御规则。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。调试 授权信息 下表是API对应的授权信息,可以在RAM权限策略语句的 Action 元素中...

常见问题

等,这类语句可能导致查询结果预期。Q:是否可以给不同的业务分配不同的地址?不同地址间是否可以达到隔离的效果?A:您可以创建多个自定义地址给不同的业务使用,若底层节点不同则自定义地址间可同时具备隔离的效果,不会互相影响。关于...

CLB健康检查FAQ

负载均衡因后端数据库故障导致健康检查失败,如何处理?负载均衡服务TCP端口健康检查成功,为什么在后端业务日志中出现网络连接异常信息?为什么业务本身没有异常但是健康检查显示异常?健康检查的原理是什么?负载均衡采用集群部署。四层...

ModifyContainerDefenseRuleSwitch-修改镜像程序...

修改镜像程序防御规则开关。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。调试 授权信息 下表是API对应的授权信息,可以在RAM权限策略语句的 Action ...

常见问题

问题原因 应用服务器的 IP 地址,不在发布部署参数 rpc_enabled_ip_range 范围内。例如:应用服务器的 IP 是172.19.*.*,而 rpc_enabled_ip_range 配置的参数为 10:11,172.16,192.168。解决方案 修改应用实例的发布部署参数 rpc_enabled_ip...

K8s应用运维管理最佳实践

相关文档,请参见 配置应用生命周期的钩子和探针 如果部署的是非微服务应用,且通过Service实现的服务暴露,Readiness就绪探针的各参数配置应当保证能准确的反映应用健康状况,以免健康Pod提供服务(即未被Service摘除)。相关文档,请...

AddContainerDefenseRule-新建镜像程序防御规则

新建镜像程序防御规则。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。调试 授权信息 下表是API对应的授权信息,可以在RAM权限策略语句的 Action 元素中...

ModifyContainerDefenseRule-修改镜像程序防御规则

修改镜像程序防御规则。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。调试 授权信息 下表是API对应的授权信息,可以在RAM权限策略语句的 Action 元素中...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
DDoS防护 数据库自治服务 DataV数据可视化 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用