AIOps 解决方案专家服务内容说明

智能故障发现解决方案 基于调研与评估的结果,为客户设计智能故障发现解决方案,包含:多账号统一监控数据接入,并根据应用分组为客户设计AI算法能力用于实时故障发现,并根据分析结果智能定位根因,提供实时异常检测的稳定性方案,保障...

基本概念

更多请查看 什么是事件 故障 在日常运营中,无论什么原因导致业务服务中断、服务品质下降或用户服务体验下降的现象,称为故障,但不包括用户侧环境或用户自身操作引起的问题。故障比事件优先级更高,事件在处理过程中出现影响扩大或恶化时...

变更管理

变更管理分为组织变更与变更...提供丰富的监控集成、强大的报警降噪、可靠的通知、灵活的事件流转、基于ITIL的故障管理等功能,一站式管理、多端协同,帮助企业实现更实时的数字化管理、更快的故障响应、更短的故障时长、更连续的业务体验。

租户内存使用率告警

规则信息 告警项 指标类型 监控指标名 默认阈值 持续时间(连续触发告警周期数)检测周期 告警级别 租户内存使用率告警 单指标 租户/租户内存使用率 85 3 1 分钟 Warn 对系统的影响 租户内存不够时,可能会导致 SQL 执行变慢或者写入失败。...

常见问题-FAQ

旗舰版最快可在1分钟左右准确发现故障并切换 故障发现时间:在健康检查间隔设置为15秒,TTL1秒,连续失败次数3次的情况下,则可以在故障的1分钟左右准确发现故障。全网生效时间:GTM无法保证全网的最终生效时间,因受限于全国各地运营商的...

设备显示离线

可能原因 设备软件故障。设备到阿里云联网故障。解决方案 通过尝试在同一个运营商出口环境内 ping 其他知名网站,确认您的运营商网络正常。如果不正常,请处理运营商网络问题。如果正常,请跳转至 步骤2。请检查设备本身是否上电。电源状态...

多集群联邦发布容灾

容灾的主要目的是当自然或人为的原因导致生产系统发生灾难时,能够尽可能地保证业务的连续性。机房灾难感知 为实现容灾场景下 LHC 多集群的正常发布,可通过以下方式来判断机房灾难。集群状态:运维侧视角下,机房灾难的直接体现就是集群不...

附录:SOFAStack 产品目录

分布式链路跟踪 分布式链路跟踪(Distributed System Tracing,简称 DST)是一款面向分布式架构、微服务架构和云原生架构的应用可观察性的金融级解决方案,帮助用户厘清应用间复杂的调用关系,迅速定位故障或者缓慢节点。产品架构 产品优势...

运维服务内容说明

1.服务概述 阿里云运维服务(Alibaba Cloud Managed Services),基于阿里巴巴数字化运维解决方案,提供专属运维服务专家,帮助企业客户做好云上运维管理,降低运维开销和风险,提升运维效率和业务连续性,增强系统安全性和合规性,助力...

ECS容灾常见问题

ECS容灾中云盘异步复制和连续复制型容灾的常见问题。ECS容灾云盘异步复制型,支持哪些实例规格?云盘有限制?IP地址有限制吗?在可用地域、可用区、云盘规格、ECS网卡、配置额度均存在限制。支持绝大多数实例规格。仅支持ESSD云盘(不含...

ECS容灾常见问题

ECS容灾中云盘异步复制和连续复制型容灾的常见问题。ECS容灾云盘异步复制型,支持哪些实例规格?云盘有限制?IP地址有限制吗?在可用地域、可用区、云盘规格、ECS网卡、配置额度均存在限制。支持绝大多数实例规格。仅支持ESSD云盘(不含...

TCP健康检查

原因:黑洞是在阿里云网络和运营商网络的互联网生效的ACL策略,但阿里云IP之间的流量基本上是在云网络内部流动,降低探测效果。BGP节点和运营商节点的差别:BGP节点会优选运营商网络线路,例如以上海市BGP节点为例,若上海移动线路故障,...

云盘异步复制容灾常见问题

相比连续复制型容灾(CDR),云盘异步复制技术与其差异如下表格所示:对比项 连续复制型容灾 云盘异步复制容灾 主要支持场景 适用 单虚机 容灾。适用不介意系统侵入的客户。适用 虚机组一致性 容灾。适用于不希望有系统侵入的客户。系统...

自动或手动主备切换

当主实例发生故障或不可用时(例如操作系统错误、硬件故障等),系统会自动触发主备切换,主实例和备实例将进行互换,切换后实例地址保持不变,应用程序会自动连接到新的主实例(原备实例),从而保障业务的连续性和高可用性。此外,您还...

混沌工程缓存实战系列-Redis

2秒 successThreshold 连续成功几次算成功。2 url 需要探测的URL。http://www.example.com(购物车的查询地址)method GET或POST方法。GET 最终配置成如下完整演练流程:重要 在演练前需要确保业务系统处于正常状态,所以在故障注入前需要...

Ping健康检查

重试次数 在执行ping监控时,如果连续多次监控出现异常,系统才将应用服务判断为异常,以防止因为一些网络瞬间抖动等其他原因影响监控准确率。连续失败次数可选值为:1次、2次、3次。1次,即健康检查监控到一次报警,就将应用服务判断为...

Ping健康检查

连续失败次数 在执行Ping监控时,如果连续多次监控出现异常,系统才将应用服务判断为异常,防止因为一些网络瞬间抖动等其他原因影响监控准确率。连续失败次数可选值为:1次、2次、3次。1次,即健康检查监控到一次报警,就将应用服务判断为...

归档存储服务等级协议

阿里云将对不可用时间进行赔偿,但不包括以下原因所导致的服务不可用时间:(1)阿里云预先通知用户后进行系统维护所引起的,包括割接、维修、升级和模拟故障演练;(2)任何阿里云所属设备以外的网络、设备故障或配置调整引起的;(3)...

TCP健康检查

概述 TCP健康检查是GTM对目标地址进行健康检查使用的一种网络协议。主要是监控IP地址的网络可达性、端口可用...(原因:黑洞是在阿里云网络和运营商网络的互联网生效的ACL策略,但阿里云IP之间的流量基本上是在云网络内部流动,降低探测效果。

HTTP(S)健康检查

BGP节点和运营商节点的差别:BGP节点会优选运营商网络线路,例如以上海市BGP节点为例,若上海移动线路故障,探测点可能会选择上海电信线路探测,除非所有线路均故障。而运营商节点表示探测节点就使用该运营商网络,没有优选机制。若您在...

虚拟机场景

本文列出了虚拟机常见的故障演练场景。JvmCodeCache满 制造JVM CodeCache区域满的故障,CodeCache区域满会直接导致JIT编译关闭,从而引起业务系统性能下降。一般用于验证业务系统在高并发且系统性能下降的情况下,是否能够通过限流、快速扩...

产品服务等级协议

2.3 除外情形 因 下述原因导致的服务不可用的时长不计入服务不可用时间:(1)阿里云预先通知客户后进行系统维护所引起的,包括割接、维修、升级和模拟故障演练;(2)任何阿里云所属设备以外的网络、设备故障或配置调整引起的;(3)任何...

通过向导模式生成API

在API编辑页面的右侧导航栏中,单击 版本,找到待申请版本单击 申请发布 跳转到申请页面,申请类型默认为 发布数据服务API,填写 申请原因 后单击 申请权限 完成发布申请。说明 工作空间定义审批流后需要走流程审批才可以发布API,详情请...

ECS灾备解决方案

同时云备份基于 云盘异步复制功能,还提供ECS跨地域、跨可用区容灾方案,具备多机一致性、多机编排能力,可快速实现应用级别的故障切换、故障恢复等操作,保障用户业务的连续性。更多信息,请参见 ECS容灾(云盘异步复制型)。通过高可用...

HTTP(S)健康检查

运营商节点 武汉市联通、大连市联通、南京市联通、天津市联通、青岛市电信、长沙市电信、西安市电信、郑州市电信、深圳市移动、大连市移动、南京市移动 重要 如果地址池的地址均为阿里云地址,且使用黑洞策略进行故障测试,监控节点请选择...

功能概览

告警恢复 告警防抖机制,告警规则只有连续 N 个检测周期都触发,会产生一个告警记录,当告警规则在连续 N 个检测周期都不触发,会产生一个告警恢复记录。告警静默 若告警规则一直处于触发状态,首次触发告警后,静默期后才会发送第二次告警...

计划内事件

注意事项 您需要登录 消息中心,确保 云数据库故障或运维通知 的通知开关处于开启状态并设置消息接收人(推荐设置为数据库运维人员),否则将无法收到相应的通知信息。云数据库的待处理事件(如实例迁移、版本升级等)通常至少在执行前的 3...

事件管理

通过事件管理可以实现快速定位问题、提高解决效率、减少重复问题的发生频率、增强业务连续性、提高用户体验、规范企业工作流程。事件管理包括以下几点:事件的识别与记录:通过监控工具、日志分析、人工上报等方式发现事件,并将其记录。...

CLB健康检查FAQ

为了避免由于健康检查频繁失败引起的切换对系统可用性造成的冲击,健康检查只有在健康检查时间窗内连续多次检查成功或失败后,才会进行状态切换。更多信息,请参见 配置和管理CLB健康检查。以下是TCP、HTTP和HTTPS监听建议使用的健康检查...

设置健康检查

将应用部署在 SAE 后,您可以使用健康检查功能查看应用实例与业务运行是否正常,以便运行异常时定位问题...说明 如果您需要查看检查失败原因,您可以单击 失败,跳转至 应用事件 页面,查看健康检查的详细信息。表示健康检查通过,实例健康。

如何排查Java场景下故障注入不生效的问题

为解决此类问题,在创建或编辑演练时,您可以在故障执行阶段选择开启Debug模式,并通过相关的日志信息来了解故障注入失败的原因。开启Debug模式 在查看目标演练的故障注入日志前,您需要先确认该演练的故障执行步骤是否已开启Debug模式。若...

运维事件中心

提供丰富的监控集成、强大的报警降噪、可靠的通知、灵活的事件流转、基于ITIL的故障管理等功能,一站式管理、多端协同,帮助企业实现更实时的数字化管理、更快的故障响应、更短的故障时长、更连续的业务体验。

0007-00000105

问题原因 您发送的请求中存在用于上传回调的Callback参数和 callback-var 参数,但是解析 callback-var 中提供的用户变量,并为Callback参数中的callbackBody赋值时出现错误,导致接口报错。callbackBody指的是发起回调时请求body的值,...

故障演练常见问题

故障不生效的原因较多,可能是参数配置不正确或无对应的请求命中,但故障规则已成功下发,故需要计费。刚刚购买的资源包为什么会被扣减次数?因为购买前已产生欠费,购买资源包后会先扣减所欠的次数。子账号的消费是否独立计费?不是,与主...

Windows系统的ECS实例ping外网地址提示“一般故障”...

本文介绍Windows系统的ECS实例ping外网地址提示“一般故障”的错误原因和解决方案。问题现象 Windows系统的ECS实例ping外网地址时提示“一般故障”错误。问题原因 出现该问题可能有以下原因:可能原因 排查方案 ECS实例中安装了第三方杀毒...

Windows操作系统云虚拟主机耗资源(客户程序故障)...

本文主要介绍Windows操作系统云虚拟主机耗资源(客户程序故障)问题的原因分析及处理意见。调用Access程序问题(最常见)原因:Access数据库大小超过30M,频繁调用时耗用系统资源。解决方法:将数据库大小压缩到30M以内,或者升级到SQL ...

网站耗资源(客户程序故障)常见问题

本文汇总了使用云虚拟主机出现网站耗资源(客户程序故障)时的常见问题。什么是网站耗资源(客户程序故障)?网站程序占用CPU及内存过多,是对资源的一种浪费。当您使用普通版共享云虚拟主机建站后,可能会因为网站程序编写不合理、代码...

变更管理简介

变更管理是运维流程的重要环节,有效防控变更风险,降低由变更操作引起的故障,保证业务连续性。变更管理的目标:规范化、标准化变更。降低变更风险。有计划、受管控的变更操作降低故障发生率、业务连续性异常。规范变更准备及变更方案,...

DeviceWanLinkDown

告警信息 事件名称 事件级别 状态码 状态描述 DeviceWanLinkDown CRITICAL down Wan Link Down 可能原因 WAN链路出现故障。处理方法 请提交工单,联系阿里云工程师。icmsDocProps={'productMethod':'created','language':'zh-CN',};

AccessGatewayFailover

告警信息 事件名称 事件级别 状态码 状态描述 AccessGatewayFailover INFO agwfailover Access Gateway Failover 可能原因 IPsec链路网络故障。处理方法 无需处理。icmsDocProps={'productMethod':'created','language':'zh-CN',};
共有183条 < 1 2 3 4 ... 183 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 数据库备份 应用高可用服务 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用