故障演练

故障演练就是这个背景下诞生的,沉淀通用的故障场景,以可控成本在线上故障重放,以持续性的演练和回归方式的运营来暴露问题,不断验证和推动系统、工具、流程、人员能力的提升,从而提前发现并修复可避免的重大问题,或通过验证故障发现...

应用场景

物联网设备无时无刻不在产生海量的设备状态数据和业务消息数据,这些数据有助于进行设备监控、业务分析预测和故障诊断。背景信息 设备将原始数据通过 MQTT 协议发送到物联网平台,经由物联网平台将数据转发到消息服务系统,继而通过流计算...

什么是Quick Tracking

产品简介 全域采集与增长分析(Quick Tracking)是阿里云推出的企业级流量统计分析产品,提供APP/程序/H5/Web/IoT等数字应用终端的行为采集分析、私域标签画像、性能体验监控、隐私采集授权管理等数据采集与洞察服务,助力企业实现全域数据...

即席分析概述

即席分析面向一线业务人员,以表格形式提供拖拽式的表格分析能力,让懂业务的人自助实现数据分析。即席分析只适用于Quick BI专业版的群工作空间下,个人空间不支持。产品定位 千万级别规模数据量下的低门槛数据探查及分析工具。核心能力 ...

什么是应用诊断分析平台ATP

差异分析 有时我们需要对比查看多份分析结果,比如查看应用一小时时间间隔的两份分析结果,以此来判断应用某些指标的变化趋势,并进一步做故障排查,针对这种需求,我们提供了 差异分析,它将两次分析结果一起呈现,方便用户对比。差异分析...

功能架构

分布式链路 分布式链路帮助运维人员、开发人员和架构师看清楚复杂的大规模微服务架构下的应用及服务之间的复杂调用关系、性能指标、出错信息与关联日志,从而实现故障根因分析、服务治理、应用开发调试、性能管理、性能调优、架构管控、...

网站耗资源(客户程序故障)常见问题

本文汇总了使用云虚拟主机出现网站耗资源(客户程序故障)时的常见问题。什么是网站耗资源(客户程序故障)?网站程序占用CPU及内存过多,是对资源的一种浪费。当您使用普通版共享云虚拟主机建站后,可能会因为网站程序编写不合理、代码...

AIOps 解决方案专家服务内容说明

智能故障发现解决方案 基于调研与评估的结果,为客户设计智能故障发现解决方案,包含:多账号统一监控数据接入,并根据应用分组为客户设计AI算法能力用于实时故障发现,并根据分析结果智能定位根因,提供实时异常检测的稳定性方案,保障...

程序内嵌H5数据上报

各个程序的业务希望用户在商城程序浏览该H5时数据与商城程序一起分析,用户在会员程序浏览该H5时数据与会员程序一起分析,而通过浏览器直接访问H5的数据由H5业务自己分析。在QuickTracking的后台中为该H5创建独立的应用和appkey ...

产品优势

支持企业级管理组件,降低运维复杂度和运维能力要求 更专业的数据安全和治理,满足数据合规要求 提供完整一套基于元数据的安全和治理技术 简化多用户的数据访问和分析,对数据访问进行授权、跟踪和审核 符合法规要求,以减少安全原因导致的...

主备方案介绍

主备容灾:当云数据库HBase实例因不可预料的原因(例如设备故障、机房断电断网等)发生故障,容灾机制可用于保障数据的一致性和业务可用性。功能优势 主备双活:请求低毛刺。故障自动容错。资源利用率高。主备容灾:支持云数据库HBase、EMR...

基本概念

更多请查看 什么是事件 故障 在日常运营中,无论什么原因导致业务服务中断、服务品质下降或用户服务体验下降的现象,称为故障,但不包括用户侧环境或用户自身操作引起的问题。故障比事件优先级更高,事件在处理过程中出现影响扩大或恶化时...

运维服务内容说明

因客户自身原因导致的问题故障,不属于阿里云运维服务范围。如客户有不定期现场服务需求,可按天购买运维专家现场服务。运维服务专家可帮助客户进行疑难问题现场处理,故障现场救援,变更现场保障、现场运维培训等服务。运维专家现场服务需...

分析预警

本文为您介绍辅助线、趋势线、预测、异常检测、波动原因、聚类六种 分析方式。背景信息 分析预警支持从多个角度对当前数据进行分析,通过该功能可以直观了解数据的变化趋势和异常点。分析预警目前支持辅助线、趋势线、预测、异常检测、波动...

故障基础数据管理

故障场景等级定义 日常运营中,除用户方环境或自身操作引起的问题外,无论什么原因导致的服务中断、服务品质下降或用户服务体验下降的现象,都称为故障。对故障影响程度的划分就是故障等级定义。定义故障等级是为了指定故障等级定义作为各...

分析视图简介

Java GC日志分析视页面中每个视图的主要功能 基础信息 基础信息视图首先展示本GC日志的一些基本信息,gc算法,gc线程数,日志覆盖的时间段,当前所选的时间段以及日志时长。接下来问题诊断部分会将gc日志中应用存在的较为严重的问题,标在...

常见问题-FAQ

重要 标准版最快可在4分钟左右准确发现故障并切换 故障发现时间:GTM可保障故障发现时间,目前默认的健康检查配置可以在故障的4分钟左右准确发现故障并切换;全网生效时间:GTM无法保障全网的最终生效时间,因受限于全国各地运营商的TTL...

故障诊断

文件 选项,即可看到刚才生成的堆快照文件,转储至云端后如下图所示:同样提供了两种分析方式,下面逐一介绍:MAT 分析 点击上图中的第一个 分析 按钮,则进入 MAT 分析,如下图所示:可以看到,泄漏点是 test-alinode.js 文件中的一个 ...

强弱依赖治理概述

强弱依赖治理就是通过科学的手段持续稳定地得到应用间依赖关系、流量、强弱等数据,提前发现因为依赖问题可能导致的故障,避免依赖故障影响用户体验,积累数据持续推进系统稳定性提升。什么是强弱依赖?异常发生时,不影响核心业务流程,不...

变更管理

通过不同的对比、展示方式,可以分析问题、事件等产生的原因,以助于后续的知识管理与沉淀。可针对不同的问题类型,作出快速应急方案。使用变更改进技术流程,从而不断增强组织提供更好的服务能力。运维事件中心是阿里云提供的云上变更管理...

FAQs

重要 故障发现时间:GTM可保障故障发现时间,目前默认的健康检查配置可以在故障的4分钟左右准确发现故障并切换;DNS切换同步时间:GTM无法保障全网的最终生效时间,因受限于全国各地运营商的TTL缓存设置以及网络环境不同,所以全网生效时间...

规格容量评估

规格实例参考:单个数据节点的Shard数量=当前节点的内存大小*30 大规格实例参考:单个数据节点的Shard数量=当前节点的内存大小*50 说明 评估Shard数量时,还需结合数据量进行分析,建议TiB级别以下的数据量参考规格实例进行评估。...

快速入门Java堆分析

本文演示如何通过ATP的Java堆分析,寻找应用出现内存不足错误的原因 1.生成数据源,上传到ATP 假设我们观察到生产环境中的应用出现如下内存不足的报错:java.lang.OutOfMemoryError:Java heap space Exception in thread"Thread-3...

通过仪表板分析数据

本入门教程使用Quick BI专业版,通过Quick BI连接外部数据源,进行数据分析和报表搭建,为您展示如何快速上手Quick BI。入门概述 Quick BI 是一款专为云上用户和企业量身打造的新一代自助式智能BI服务平台,其简单易用的可视化操作和灵活...

应用场景

场景四:异地容灾 由于地区断电、断网等客观原因,产品可用性并不能达到 100%。当出现这些故障时,如果用户业务部署在单个地区,那么就会因为地区故障导致服务不可用,且不可用时间完全依赖故障恢复时间。通过构建灾备库,使用数据同步服务...

分析视图简介

Java堆分析中每个视图的主要功能 综合报表 列出堆转储的基础信息,同时概括的列出堆中占比最大的一些类、对象、类加载器等信息。综合报表可以看作是其他视图的一个摘要,将其他视图中最重要的信息摘要出来。我们可以获得堆的基本使用情况,...

多维分析

多维分析表是一种更复杂且灵活的数据分析方式,它可以从多个维度对数据进行切片,以便从不同角度深入洞察数据间的关联。本文为您介绍如何为多维分析表添加数据并配置样式。前提条件 已完成数据建模,数据集必须包含日期字段,且日期字段为...

服务等级协议

本服务等级协议(Service Level Agreement,以下简称“SLA”)规定了阿里云向客户提供的基因分析平台(简称“平台”)的服务可用性等级指标及补偿方案。1.定 义 1.1 服务周期:一个服务周期为一个自然月。1.2 服务周期总分钟数:服务周期内...

支持计划

故障应急 ✔ 关键时刻保障 ✔ 业务监控设计 ✔ 用云成本分析 ✔ AK及子账号治理 4.2电话支持 电话支持(4008013260):提供售后电话咨询。服务定义:7x24小时的电话支持,解决客户的咨询问题。4.3专属企业钉钉群支持 专属企业群支持范围...

灾备规划

需求分析 数据保护和业务连续性对数据中心的意义重大,关键应用的故障或数据丢失会对您的业务造成重大损失。混合云容灾服务提供了两个层次的能力来保护数据,并确保业务连续性。异地备份 服务器镜像和数据备份后会直接上传至阿里云灾备库,...

可视化图表概述

可视化图表可以帮助您直观、清晰地展示数据分析结果,本文为您介绍不同类型图表的适用场景,以及不同版本支持的图表类型,辅助您快速选取合适的图表进行数据呈现和展示。Quick BI提供了40余种图表样式,包含了表格类、指标类、线/面图类、...

SDK安装与使用

使用SDK提交作业的代码如下所示:/*提交一个作业到数据湖分析Serverless Spark*@param regionId 使用的数据湖分析的REGION_ID*@param accessKeyId 用户AccessKeyId*@param accessKeySecret 用户AccessKeySecret*@param virtualClusterName ...

围绕混沌工程的平台实践

原则3在生产环境中运行实验 混沌工程推荐故障演练是在生产环境中进行,主要的原因有以下两点:系统的行为会根据环境和流量模式的变化,例如系统依赖的组件在测试环境和生产环境会有比较大的差异。系统的监控和人员的应急响应在测试环境和...

产品简介

什么是运维事件中心 运维事件中心是企业业务连续性的运营管理平台,提供丰富的监控集成、强大的报警降噪、可靠的通知、灵活的事件流转、基于ITIL的故障管理等功能;一站式管理、多端协同,帮助企业实现更实时的数字化管理、更快的故障响应...

使用集群诊断

容器智能运维平台 提供一键故障诊断能力,包括节点诊断、Pod诊断、Service诊断、Ingress诊断、内存诊断、网络诊断,可以辅助您定位集群中出现的问题。本文介绍如何在ACK集群中使用集群诊断功能。前提条件 已创建Kubernetes托管版集群。具体...

通过可观测性能力进行故障处理最佳实践

三级指标:三级指标可作为对二级指标的进一步分析,通过三级指标能够高效定位二级指标波动的具体原因。消费异常场景实践方案 使用消息处理延迟时间(ConsumerLagLatencyPerGidTopic)作为监控指标项并创建报警规则。具体操作,请参见 监控...

故障诊断

lastState.terminated.reason="OOMKilled"]|any'#对jq表达式的结果进行匹配,结果是否匹配'true'-type:regexp expression:"true"#问题严重等级:Critical/Warning/Info level:Critical#问题总结 summary:Pod因OOM被Kill#问题原因,支持...

I-V曲线诊断

数据服务中提供光伏智能运维的IV曲线诊断算法,结合环境光强度、环境温度等影响因素,对组串式光伏发电阵列的电流-电压曲线(I-V曲线)进行分析,检测系统可能出现的故障,进而提高设备的运行效率,保障电站高效运行。本文介绍光伏智能运维...

归档存储服务等级协议

阿里云将对不可用时间进行赔偿,但不包括以下原因所导致的服务不可用时间:(1)阿里云预先通知用户后进行系统维护所引起的,包括割接、维修、升级和模拟故障演练;(2)任何阿里云所属设备以外的网络、设备故障或配置调整引起的;(3)...

气泡地图

图表事件配置 配置项 名称 配置图 说明 数据事件 钻取 当需要对维度进行 不同层次 的分析时,您可以通过配置某个维度字段的钻取,单击后层次会发生变化,从而变换分析的粒度。具体设置请参见 钻取设置。联动 当需要分析的数据存在于不同的...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
检索分析服务 Elasticsearch版 实时数仓 Hologres 负载均衡 云安全中心 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用