产品优势

本文档描述产品的主要使用优势。主要优势 多监控系统集成:支持10+常见监控系统集成,简单配置即可快速完成对接;灵活的报警降噪能力:支持横向抑制、...阿里巴巴故障管理最佳实践输出:帮助云上企业构建故障管理体系,持续提升业务连续性。

故障管理

故障管理概述 故障管理是源于ITIL的一个概念,在IT企业或者互联网企业进行故障管理的目的是当生产环境出现重大宕机时尽快恢复正常的服务运营,将组件失败对业务所造成的负面影响降到最低,从而确保满足事先与业务客户之间所约定的服务级别...

故障应急

故障管理体系是围绕故障全生命周期采取的一系列控制流程,包括故障基础数据管理(故障等级定义、应急场景监控覆盖、服务组&值班表管理、故障订阅管理),故障发现(7*24监控值班、智能基线告警),故障应急协同(故障通告及更新、故障应急...

运营阶段

通过前期的设计,到构建,服务进入日常运营环节。在这个阶段往往会产生大量的运营事件,比如日常的资源申请。企业在持续运营过程中也会产生或大或小的生产故障,需要做好线上故障管理,提升服务SLA。

RAM子账号授权

运维事件中心包含以下3种初始权限。AliyunGEMPFullAccess」-管理运维事件中心的权限(除人员新增、群协同组织绑定...授权后的子账号,一是可以直接自助开通本产品(无需主账号开通),二是可以添加至人员中心,进行相关的报警/事件/故障管理

请求通过CDN回源后正常启用Gzip压缩

启用CDN后 请求头含有 Accept-Encoding:gzip,deflate,但响应头返回的是 Content-Length,并未响应 Content-Encoding:gzip。问题原因 源站Nginx服务器中Gzip相关配置错误,CDN的回源请求未启用Gzip压缩功能,详情如下:客户端请求经过CDN...

事件告警被收敛的问题

本文介绍告警被收敛导致用户不能及时收到通知的问题及解决方案。用户场景 基于流转规则产生事件后,...可通过配置升级策略,将长时间未响应或未完结的事件进行故障升级,并及时处理。如果需要接收所有报警通知,可通过流转规选择"报警"模式。

基本概念

故障管理 网络故障的发现、分析、定位等维护管理,包括告警信息的收集入库、规则匹配、关联分析以及告警清除等一系列流式处理过程。Netconf netconf协议一般用于网络业务配置,使用结构化可描述语言实现快速的网络设备下发。gRPC 高性能、...

故障基础数据管理

服务组&值班表管理故障应急的相关人员群体,通过前置到故障场景的干系人做绑定配置,同时支持服务组和值班表,实现故障启动后自动快速通知负责人上线处理的效果。在设计相应的管理方案时,需要考虑以下内容:服务组:提供服务的人员群体...

响应云盒维修事件

流程说明 运行中的ECS实例出现故障风险时,会向您发送ECS故障 事件(Reboot事件)通知,收到ECS故障事件通知后,您可以响应故障事件并按照建议进行处理,例如:将现有业务迁移到冗余资源保证业务正常运行,将出现故障风险的ECS实例作为备机...

监控、诊断和故障排除

相对于传统应用程序,开发云端应用虽然降低了用户在基础设施搭建、运维等方面的成本,但却增大了监控、诊断和故障排查的难度。OSS存储服务为您提供了丰富的监控和日志信息,帮助您深刻洞察程序行为,及时发现并快速定位问题。本文主要描述...

故障应急协同

应急处理人(研发、测试、稳定性接口人等):根据应急指挥人明确的分工,负责故障定位、快速恢复,按照SLA的要求响应故障、兜底同步进展;应急指挥人:根据故障等级由不同人员担任,如P1P2故障由业务部门稳定性负责人或值班长承担;P3P4由...

设计方案

基于稳定性支柱设计原则,整体稳定性设计方案可参考如下:架构设计原则 软件系统从...相比较计划演练,突袭演练涉及到的人员,场景,流程也会更加复杂,同时不但确保演练计划的私密性,还需要充分评估在红军及时处理故障时的影响面控制。

产品简介

配置灵活:升级策略支持同时关联多个服务,支持按照事件优先级/影响程度配置升级条件,事件未响应完结可作为独立的升级类型单独配置升级通知规则,支持按照不同升级时长进行多次升级。多级通知:一个升级条件最多可支持10级升级,通过...

功能发布记录

V1.0.14 2022-4-28 用户绑定”企业移动应用”并关联人员后,运维事件中心支持在每天早8点至晚8点以四小时一次的频率对未响应及未完结的事件进行统计并播报,支持详情查看及响应、完结、故障升级等操作。播报以钉钉的渠道推送,可推送至个人...

日志字段详情

FI:请求被故障注入指定的响应码中止。RL:请求在本地被HTTP速率限制过滤器限制,除了429响应码之外。UAEX:请求被外部授权服务拒绝。RLSE:请求被拒绝,因为速率限制服务出现错误。IH:请求被拒绝,因为在严格检查的标头中设置了无效值。...

变更管理

运维事件中心是阿里云提供的云上变更管理服务,提供丰富的监控集成、强大的报警降噪、可靠的通知、灵活的事件流转、基于ITIL的故障管理等功能,一站式管理、多端协同,帮助企业实现更实时的数字化管理、更快的故障响应、更短的故障时长、更...

使用ASM构建分布式系统的容错能力

reset 如果上游服务未响应就发生了连接断开、重置、读取超时事件,进行重试。5xx 如果上游服务返回任何5XX的响应码(例如500、503等),或上游服务无响应,进行重试。说明 5XX包含connect-failure和refused-stream的条件。gateway-error 当...

使用ASM构建分布式系统的容错能力

reset 如果上游服务未响应就发生了连接断开、重置、读取超时事件,进行重试。5xx 如果上游服务返回任何5XX的响应码(例如500、503等),或上游服务无响应,进行重试。说明 5XX包含connect-failure和refused-stream的条件。gateway-error 当...

开启网关日志投递

FI:请求被故障注入指定的响应码中止。RL:请求在本地被HTTP速率限制过滤器限制,除了429响应码之外。UAEX:请求被外部授权服务拒绝。RLSE:请求被拒绝,因为速率限制服务出现错误。IH:请求被拒绝,因为在严格检查的标头中设置了无效值。...

ECS系统事件概述

如果用户提前响应计划类运维事件,故障风险发生时会导致ECS实例出现宕机或重启。是 说明 当发生计划内运维事件的实例为大数据型或本地SSD型(不包含i4p、d3c),该事件将在 本地盘实例事件 下展示。关于更多本地盘事件信息,请参见 本地...

无法连接Windows实例

检查重置实例密码后是否重启实例 检查防火墙配置是否异常 检查安全组公网规则是否异常 检查远程访问端口配置是否异常 检查CPU负载是否过高 尝试重启实例 步骤一:使用管理终端登录实例 无论何种原因导致无法远程连接实例,请先尝试用阿里...

应用场景

例如支持故障恢复通知与状态更新、故障未及时处理自动升级告警等。智能运维(AIOps)开发人员和IT运维人员可结合使用日志服务的机器学习服务和告警功能,对海量的日志、时序数据进行智能监控,包括智能聚类、异常检测、异常预测等。日志...

事件告警概览

在操作审计中,事件告警是一种自动化安全监测机制,它根据用户设定的参数和规则,实时监测与识别云上的异常事件,并通过多种方式向相关人员发送告警通知,以便及时采取适当的响应措施。本文为您介绍事件告警的应用场景、功能特性和操作步骤...

状态卡片

说明 正常-绿色 故障-红色 连接-白色 单击页面左上角的 图标,进入 蓝图 页面。在 图层节点 页签下,添加所有组件至主画布中。在 逻辑节点 页签下,添加一个串行数据处理节点到主画布中。连接组件。配置串行数据处理节点的处理方法。...

访问策略

概述 访问策略是针对用户配置相应的访问策略,在此环节...注意:如设置备用地址池,则代表当默认地址池出现故障时,系统将摘除故障地址,但不支持智能切换。如默认地址池摘除故障地址后,还有存活的IP地址,那么则响应剩余存活的IP地址。

查询和响应ECS系统事件

本文介绍如何通过ECS控制台、阿里云CLI查询和响应ECS系统事件。背景信息 除了通过ECS控制台等方式查询和响应ECS系统事件外,您还可以通过云监控查询包括ECS在内的多款产品的系统事件,并为关注的系统事件设置事件通知。具体操作,请参见 ...

附录:SOFAStack 产品目录

运维管理 SOFAStack CAFE(Cloud Application Fabric Engine)云应用引擎,提供应用管理、发布部署、运维编排、监控分析、容灾应急等全生命周期管理的 PaaS 平台产品,满足金融场景中经典架构和云原生架构的运维需求,帮助传统架构平滑过渡...

访问策略配置

如主地址池集合摘除故障地址后,还有存活的IP地址,那么则响应剩余存活的IP地址。基于访问延时的访问策略配置 在 基本配置 页面,点击 基于访问延时的访问策略 处的 配置 按钮。点击 新增访问策略,进行访问策略配置。在 新增访问策略 ...

即时日志

通过即时日志,您可以在 DCDN 控制台上实时查看站点访问日志,能够帮助您定位攻击、排查系统故障、调试或测试站点网络连接等。不同套餐的支持情况 基础版 标准版 高级版 企业版 是否支持即时日志 不支持 支持 支持 支持 注意事项 同一个...

入门指南

该入门指南帮助您配置使用运维事件中心全流程,从配置人员的个人信息到接收到系统自动触发的报警、事件、故障并自动分派流转。运维事件中心操作步骤添加 前提条件:开通阿里云企业账号,若开通,可前往 阿里云官网 注册并开通企业账号;...

事件管理

支持将影响恶化的事件一键升级为故障,实现事件全生命周期的在线化管理。集成告警数据:可集成多种告警源例如:ARMS、SLS、云监控、Prometheus、Dynatrace等数十种监控系统。同时支持自定义集成,可自动解析告警信息。事件分类与分派:首先...

限流防护

全局限流的典型用例是当多个请求端向较少数量的服务端发送请求时,在这种情况下,多个客户请求端可能会压垮服务端,而全局限流可以帮助防止级联故障。例如,您可以在入口网关配置全局限流,并控制进入网格的请求总数。一旦这些请求在网格内...

公共云基础服务说明书

3.服务SLA 电话/官网在线咨询/工单支持响应时间如下表:支持子项 支持时间/响应时间 电话支持 400-80-13260 7×24小时电话支持 官网在线咨询 7×24小时智能客服 7×16小时人工服务(早8:00-晚24:00)云产品技术工单支持 7×24小时工单支持 ...

点播CDN常见问题

如果您的域名审核通过,请在 视频点播控制台>配置管理>分发加速配置>域名管理 的域名列表页查看通过原因,并将审核失败的域名删除后,根据域名审核通过的原因,调整网站内容,重新添加域名等待审核即可。如何提升视频点播缓存命中率 ...

数据管理服务协议

《数据管理服务协议》是阿里云计算有限公司(以下简称“阿里云”)与您就数据管理服务的相关事项所订立的有效合约。《数据管理服务协议》以下或简称“本服务协议”、“服务协议”或“本协议”。背景信息 在接受本协议之前,请您仔细阅读...

产品动态

2020-05 全部 什么是阿里云CDN CDN支持外链改写功能,解决IPv6“天窗”问题 当网页包含其它网站内容的链接(外链),即使采取双栈技术路线,全面升级网络和修改程序,但被引用的其它网站升级,IPv6用户访问该网站时会出现响应缓慢,部分...

负载均衡SLB产品家族介绍

负载均衡SLB(Server Load Balancer)是一种对流量进行按需分发的服务,通过将流量分发到不同的后端服务器来扩展应用系统的吞吐能力,并且可以消除系统中的单点故障,提升应用系统的可用性。负载均衡SLB产品家族包括应用型负载均衡ALB...

概述

云数据库 OceanBase 为您提供告警服务,支持 OceanBase 集群以及数据评估、...3 Info 普通 邮件+钉钉机器人 操作提醒,本质上不是告警,通常是管理员执行重要操作,如管理员执行集群下线操作。该级别的告警恢复后,不会产生告警恢复的通知。

基本概念

[回到顶部]I IAM 蚂蚁科技身份访问管理(Identity and Access Management,IAM)控制台是管理成员、分配权限、管理身份源、查看操作记录的平台。IDC 视角 从 IDC(机房)维度进行指标数据的聚合,从单机的空间分布和时间分布上对应用监控...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
商标服务 云安全中心 负载均衡 弹性公网IP 短信服务 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用