服务等级目标SLO概述

告警规则 告警规则能够根据故障的严重程度,在故障发生时及时发出不同等级的提醒,帮助您在错误预算被过多消耗之前及时响应。ASM基于“多窗口多燃烧率告警策略”生成告警规则,适用于大多数场景。多燃烧率策略下,短时间内的高故障率或持续...

服务等级目标SLO概述

告警规则 告警规则能够根据故障的严重程度,在故障发生时及时发出不同等级的提醒,帮助您在错误预算被过多消耗之前及时响应。ASM基于“多窗口多燃烧率告警策略”生成告警规则,适用于大多数场景。多燃烧率策略下,短时间内的高故障率或持续...

如何管理故障

更新故障通知:在故障处理的过程中,当故障进展发生变化,包括进度更新、影响恶化、故障等级变化、原因明确、根因定位等场景下,可更新故障过程中的内容,并在 故障详情 页点击更新故障通知,选择需要的故障通告类型,并最终确认发出故障...

函数概述

漏斗数据分析函数 地理空间函数:地理空间函数 JSON函数:JSON函数 数学函数:数学函数 手机号码函数:手机号码函数 事件路径分析函数:事件路径分析函数支持按照事件时间和时间戳得到事件顺序发生的时间序列 SQL分析函数:SQL分析函数 ...

应用场景

如果主地域发生故障,您可以将用户请求切换到灾备地域。异地多活 随着业务的快速发展和用户数量的增长,如果业务部署在单个地域中,可能会面临如下问题:用户在地理位置上分布较广,地理位置较远的用户访问延迟较高,影响用户体验。单个...

EasyCkpt:AI大模型高性能状态保存恢复

因此,在发生故障时,迫切需要一种以低成本的方法来保存最新的Checkpoint。这样在重新启动训练时就无需重复计算,从而减少时间和成本的浪费。功能介绍 针对频繁故障的情况,PAI通过之前的故障失败场景总结出以下GPU和深度学习场景故障的...

查看血缘关系

背景信息 在数据的来源和变更历史无法追踪的情况下,数据的质量和安全难以保障,且数据的分析故障排查效率很低。此时,您可以使用数据血缘功能。数据血缘关系描述了数据在来源、处理、传输和消费过程中形成的关系,包括元数据之间的流向...

AIOps 解决方案专家服务内容说明

依托阿里巴巴多年AI能力沉淀,以及阿里云专家经验,通过算法对监控指标进行建模与实时智能分析,当业务异常发生时,实时进行告警关联分析与收敛,帮助用户减少故障影响时间(MTTR),提高用户业务稳定性。它融合“人工智能+大数据+云计算”...

附录:SOFAStack 产品目录

传统实现方式是在系统代码里指定任务的执行顺序,当业务发生变化时需要修改代码才可以正常工作,可维护性很差。使用 SOFAStack 任务调度中的任务编排功能,可以轻松完成任务之间的依赖调整,大大提高了可维护性,并可以直观地看到任务的...

App端性能体验功能说明

性能监控产品通过轻量级的集成接入即可拥有实时、可靠、全面的应用崩溃、ANR、自定义异常等捕获能力,及卡顿、启动分析等性能能力,支持多场景、多通道智能告警监控,帮助开发者高效还原异常、卡顿用户的访问路径和业务现场,缩短故障排查...

用户窃电识别

例如通过采集电量异常、负荷异常、终端报警、主站报警及线损异常等信息监测窃漏电情况及计量装置故障,或根据报警事件发生前后客户计量点电流、电压及负荷数据情况,构建基于指标加权的用电异常分析模型,从而检查用户是否窃电或计量装置...

混沌工程缓存实战系列-Redis

分析影响这些指标可能的因素、故障场景、参数等。因为客户端层面的影响面可控,所以可以尝试从客户端层面去制造故障。因为服务端出现故障更加真实,所以可以从服务端层面去制造故障,但对于问题定位和排查的要求会更高。注入故障,观察指标...

故障协同处理(基于钉钉)

时间线:展示故障的时间线记录,其中有7个节点必须完善详细内容,节点已用红星标注,包含:故障发生故障发现、故障通告、业务响应、初因定位、恢复执行和故障恢复。节点记录和PC端故障时间线保持一致。复盘 按钮:故障恢复后,需进行故障...

代码逻辑场景

受影响的请求数 否 0 限制最多发生故障的请求总数,每生效一次故障计数加1,累计发生故障请求数超出设定值后,请求则不再发生故障。填写数值小于等于0时,则表示不限制。受影响的请求占比(%)否 0 限制发生故障的请求数占所有应该发生故障...

分析概述

路径分析 路径分析将用户在产品中的使用路径用桑吉图呈现,展现用户在页面与页面流转中的流量走向。通过路径分析可以帮助企业验证产品运营策略,优化产品设计思路。用户洞察 人群洞察 人群洞察支持圈选在某一时间段内有相同的行为特征和...

事件路径分析函数

事件路径分析函数支持按照事件时间和时间戳得到事件顺序发生的时间序列。通过以下步骤在DLA中准备好测试数据。将 sample 上传至OSS中,详情请参见 上传文件。在DLA中创建Schema。​CREATE SCHEMA event_schema with DBPROPERTIES(catalog='...

故障复盘

复盘文档一般包含以下内容:故障简述:故障概述、影响面、处理人等 故障背景:故障发生时的业务链路 故障时间线:着重强调故障引入、故障发生故障发现、业务响应、恢复执行、故障恢复几个时间点 故障原因分析:建议先一句话总结,再进行...

路径分析

说明 留存:指从该步骤(事件)向后继续访问其他步骤(事件)流失:指从该步骤(事件)后离开应用 应用场景 路径分析可以解决 可视化用户日志数据,挖掘出用户在产品使用中的频繁访问的路径 验证运营思路,查看用户在偏离预想的路径后的...

JVM注入动态脚本

受影响的请求数 否 0 限制最多发生故障的请求总数,每生效一次故障计数加1,累计发生故障请求数超出设定值后,请求则不再发生故障。填写数值小于等于0时,则表示不限制。受影响的请求占比(%)否 0 限制发生故障的请求数占所有应该发生故障...

概览

路径 对已设置巡检的所有路径,逐一执行路径分析,并汇总断联的路径列表。事件 对巡检周期内所有已发生的事件进行汇总,并提示问题事件和风险事件及待解决事件数量。说明 实例和路径作为巡检对象支持增删改查,巡检对象目前支持最多20个...

混合云解决方案

如果MASTER 宕机,发生故障转移,此时SLAVE如果要提供服务,日志读取器会等待镜像日志先同步,再做发布,但如果MASTER发生硬件故障,此时SLAVE需要打开一个跟踪标记1448,在镜像故障的情况下可以继续分发数据。说明 1448标记用于在事务...

常驻筛选

概述 在日常分析数据时,除了整体的数据分析,也会需要查看下钻到其他分析维度的相关数据。如果您需要更细致的看板分析,可以创建常驻筛选配置到可视化看板中。常驻筛选支持「时间筛选」、「属性筛选」、「人群筛选」三种维度的筛选,当...

CreateNetworkPath-创建网络分析路径

路径分析不支持源与目的的公网IP和ECS实例ID(%s和%s)具有绑定关系。400 IllegalParam.SourceAndTargetInternetIp Both source ID and target ID are IP addresses,but are not Internet IP addresses.Reachability Analyzer does not ...

如何通过 mPaaS 框架解决 App 线上问题

如果真的在线上发生故障,开发者就可以通过服务器推送开关,及时将故障代码关闭。这种推拉结合的方式,即时到达率 100%。发布 H5 离线包更新如果某些故障是发生在离线包内,在定位到问题后,可以直接通过实时发布控制台发布新的版本即可。...

故障处理流程

当智能接入网关设备发生网络故障后,您可以先观察现象、收集信息,然后对现象和信息进行分析诊断,尝试修复问题。本文为您介绍智能接入网关设备故障处理流程。SAG-100WM故障处理流程说明 通过SAG-100WM访问阿里云,发现故障,请参见以下...

功能特性

转发路由器TR(Transit Router)支持连接VPC实例、VBR实例、IPsec连接、CCN实例,可以帮助您实现VPC间网络互通、跨地域网络互通、...路径分析 云企业网接入网络智能服务,支持路径分析功能。您可以使用路径分析功能诊断资源之间的网络连通性。

CreateAndAnalyzeNetworkPath-发起网络可达性分析任务

路径分析不支持源与目的的公网IP和ECS实例ID(%s和%s)具有绑定关系。400 IllegalParam.SourceAndTargetInternetIp Both source ID and target ID are IP addresses,but are not Internet IP addresses.Reachability Analyzer does not ...

趋势分析

通过延时、丢包率、探测次数三个指标在不同维度、不同汇聚粒度的表现来判断网络趋势,可以用来定位网络故障发生的时间点以及业务的网络质量趋势。首页点击 详情分析 按钮,进入“趋势分析”页面。筛选条件:说明 筛选条件“统计时间段”,...

围绕混沌工程的平台实践

因此混沌工程是一门学科,它提供了基本的理论指导,而故障演练是混沌工程的具体实践,通过向目标系统注入真实可能发生故障来考量系统的稳定性。混沌工程和AHAS Chaos AHAS Chaos是以混沌工程为理论指导的故障演练平台,目标是成为混沌...

功能概述

数据库发生故障后,无法在发生故障时定位到原因,可以通过智能压测功能,在克隆库上复现故障场景,定位故障原因。功能架构 智能压测的功能架构如下图所示:源数据库:将要进行大促、将要业务变更或者已经发生故障,需要进行流量捕获的数据...

诊断决策树

对于已知的明确故障,可以根据诊断现象,编排诊断决策树,进而故障发生时执行,完成故障定位。对于未知的故障,您可以依据运维经验,编排出常见的排查路径,辅助快速故障定位。新建诊断决策树 登录高可用管理控制台。在左侧导航栏上,单击 ...

集群系列

且单个只读实例没有灾备,因此为了保障业务的可用性和连续性,建议至少创建两个只读实例,以确保某一个只读实例发生故障时,另一个只读实例可以继续提供服务。购买集群系列实例时,建议您选择多可用区部署,以实现跨可用区的容灾能力。架构...

标准版-单副本

当数据库节点发生故障时,数据会丢失,系统会重新拉起一个Redis进程(没有数据),当节点故障业务自动切换完成后,应用程序需要将数据重新预热。单副本架构不支持以下功能:自动或手动备份、离线全量Key分析 和 实例回收站。若您对数据有...

演练场景

故障演练是业务系统上线前必要的演练环节,旨在对应急预案的可行性,进一步完成应急预案,从而帮助提升产品、集群、机房的稳定性,减少故障发生,提高故障应急效率,进而提升产品竞争力。一个完整的故障演练过程为 创建故障原子服务>创建...

BI分析器交互使用说明

在DataV数据集和组件分析模式的基础上,分析器交互给组件附加了下钻、联动筛选等交互式动态数据查询的能力,将基于您交互反馈的数据模型变更纳入可视化应用的交互,形成完整的可视化分析循环。所有交互可在预览模式和发布结果中进行。本文...

功能特性

此外,在数据库实例发生故障且无法定位原因时,可以利用克隆库复现故障场景,以便更好地定位故障原因。智能压测 搜索分析 查询并导出SQL语句对应的日志信息。搜索 SQL洞察 SQL洞察聚类分析,用作深度异常的排查。SQL洞察 安全审计 内置了...

什么是故障

本文主要介绍什么是故障。定义 在日常运营中,无论什么原因导致业务服务中断、服务品质...故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘后的故障都能对业务连续性形成改进,避免历史同类故障重复发生

监控与日志

路径分析 使用 EIP 进行公网连接时,您可以使用路径分析功能检测资源之间的公网连通性,诊断网络配置错误引起的连接问题。如何对 EIP 实例进行路径分析,请参见 路径分析。自助问题排查 自助问题排查可以帮助您排查 EIP 实例访问不通、访问...

CLB访问日志功能简介

CLB结合阿里云日志服务提供的访问日志功能,可帮助您大幅提升日志数据分析故障定位处理的效率。什么是CLB访问日志 CLB的访问日志功能收集了所有发送到CLB的请求的详细信息,包括请求时间、客户端IP地址、延迟、请求路径和服务器响应等。...

更新故障时间线

PROBLEM_KEY_NODE content String Body 否 故障分析 节点内容 time String Body 否 2021-01-08 10:10:10 发生时间 problemId Long Body 否 234 故障id clientToken String Body 否 c26f36de-1ec8-496a-a828-880676c5ef81 幂等标识 返回数据...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
检索分析服务 Elasticsearch版 云安全中心 实时数仓 Hologres 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用