视图计算 功能集 功能 功能描述 参考文档 空间管理 创建空间 视图计算产品的空间是指一个监控业务的集合,集中对业务进行设置与管理。创建空间需设置基本信息和接...转码规则中可设置输出码流的编码方式、码流、帧率、分辨率等信息。转码模板
客户价值 DAS服务让DBA可以提前洞察到数据库的运行趋势,及时做好预案,系统故障率降低了60%以上,大幅提高了客户满意度和用户体验。DAS服务自动SQL限流和自动SQL调优,帮助DBA从救火员转向数据库架构师,有更多时间和精力帮助研发优化系统...
获取用户指标(转化率信息)。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。调试 授权信息 当前API暂无授权信息透出。请求语法 GET/v2/openapi/instances...
在 监控与报警 页面的 标准监控 中,查看CPU利用率信息。详情请参见 查看标准监控。基本概念 CPU利用率:CPU执行的工作时间的比例,包含了所有符合条件的活动的时钟周期,例如阻塞等待I/O而导致较高的利用率。CPU利用率又被分为内核时间和...
结合阿里云云监控服务和云企业网健康检查功能,您可以查看边界路由器VBR(Virtual Border Router)关联的专线的监控信息,包括流出带宽、流入带宽、延时和丢包率。本文为您介绍如何在健康检查页面查看专线的监控信息。背景信息 在您查看...
免责声明:本文档可能包含第三方产品信息,该信息仅供参考。阿里云对第三方产品的性能、可靠性以及操作可能带来的潜在影响,不做任何暗示或其他形式的承诺。概述 本文介绍在Linux实例中,CPU资源使用率异常时的排查说明。详细信息 阿里云...
调用GetShareRateData获取PCDN分享率信息。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求参数 名称 类型 是否必选 示例值 描述 Action String 是 ...
步骤一:分析内存使用情况 查询指定时段的内存使用率信息,具体操作,请参见 查看监控数据。以下示例中,内存使用率(即 Memory Usage 监控指标)持续接近100%,如下图所示:图 1.内存使用率示例 说明 对于 集群架构 或 读写分离架构 的...
本文为您介绍如何通过监控图表查看云企业网实例下的转发路由器实例监控信息、带宽包监控信息、跨地域连接监控信息、边界路由器VBR(Virtual Border Router)关联的物理专线监控信息以及转发路由器连接的网络实例流量的监控信息。背景信息 ...
3 选择容灾方案 云原生内存数据库Tair 实例若因不可预料的原因(例如设备故障、机房断电等)发生故障,容灾机制保障数据的一致性和业务可用性。云原生内存数据库Tair 提供多种灾备方案供您选择,可满足不同的业务场景。4 预估内存规格 提前...
答:经过测试团队对GTM多次测试验证,当应用服务发生故障时,GTM能在 3分钟左右 准确发现故障并切换。全网故障恢复时间=故障发现时间+全网生效时间。说明 受限于拨测平台探点发生变化和全国各地运营商TTL缓存原因,如使用不同的拨测平台、...
答:经过测试团队对GTM多次测试验证,当应用服务发生故障时,GTM最快可在1分钟左右准确发现故障并切换。全网故障恢复时间=故障发现时间+全网生效时间。说明 受限于拨测平台探点发生变化和全国各地运营商TTL缓存原因,如使用不同的拨测平台...
选择容灾方案 当云数据库Redis实例因不可预料的原因(例如设备故障、机房断电等)发生故障,容灾机制可用于保障数据的一致性和业务可用性。云数据库Redis提供多种灾备方案供您选择,可满足不同的业务场景。选择大版本 推荐使用更新的大版本...
节点健康状态展示了当前节点的运行状态是否正常,它是由多个健康检查项结果汇总而成的。本文将介绍如何查看节点的健康状态和相关的健康检查项。...host_fault_compensation_check 检测是否发生故障补偿。无阈值,有故障补偿发生即为异常。
风险预测:风险预测是指在发生故障前,通过数据分析、机器学习等方式,预测系统的风险情况,提前进行预防和处理。在故障应急响应中,风险预测可以作为重要参考,帮助快速识别问题的根本原因,提高故障处理效率和精度。故障响应 在发现故障...
通过此类监控手段,可以提前规避许多问题,例如LIST数据类型的消费程序故障造成对应Key的列表数量持续增长,将告警转变为预警从而避免故障的发生,更多信息,请参见 报警设置。对过期数据进行定期清理 堆积大量过期数据会造成大Key的产生,...
专线+Internet备份:智能接入网关支持Internet链路和专线互为备份链路,当主用链路发生故障时,自动切换至备用链路接入阿里云。说明 目前仅 SAG-1000支持专线功能,SAG-100WM不支持专线功能。更多信息,请参见 什么是高速通道。路由方式 ...
通过此类监控手段,可以提前规避许多问题,例如LIST数据类型的消费程序故障造成对应Key的列表数量持续增长,将告警转变为预警从而避免故障的发生,更多信息,请参见 报警设置。对过期数据进行定期清理 堆积大量过期数据会造成大Key的产生,...
此外,在数据库实例发生故障且无法定位原因时,可以利用克隆库复现故障场景,以便更好地定位故障原因。智能压测 搜索分析 查询并导出SQL语句对应的日志信息。搜索 SQL洞察 SQL洞察聚类分析,用作深度异常的排查。SQL洞察 安全审计 内置了...
当新版本v2存在问题或者发生故障时,可以快速切回旧版本v1。蓝绿部署的优点:部署结构简单,运维方便。服务升级过程操作简单,周期短。蓝绿部署的缺点:资源冗余,需要部署两套生产环境。新版本故障影响范围大。A/B测试 A/B测试基于用户...
通过延时、丢包率、探测次数三个指标在不同维度、不同汇聚粒度的表现来判断网络趋势,可以用来定位网络故障发生的时间点以及业务的网络质量趋势。首页点击 详情分析 按钮,进入“趋势分析”页面。筛选条件:说明 筛选条件“统计时间段”,...
当查询成功率发生异常下降时,考虑是否出现了集群、节点的故障。查询平均耗时 集群每分钟所有查询生命周期结束的平均时间。ms 99th 查询耗时 展示给定时间内,统计升序排列排在第99%位置的请求的响应时间,可以反映集群慢查询的速度。ms ...
当查询成功率发生异常下降时,考虑是否出现了集群、节点的故障。查询平均耗时 所选中集群每分钟内所有查询的平均耗时。ms 99th 查询耗时 所选中集群 给定时间内升序排列排在第99%位置的请求的响应时间;用于反映集群慢查询的速度。ms 导入...
事件名称 事件所属类型 说明 IP流量告警 数据监控告警 您可以设置数据监控报警通知,及时获知指标数据发生的异常,并在发生故障时及时发现问题,缩短故障处理时间,以便尽快恢复业务。连接数告警 QPS告警 状态码告警 DDoS黑洞事件告警 事件...
多可用区的地域:所有托管组件均严格采用多副本、多AZ均衡打散部署策略,确保在单个可用区或节点发生故障时,集群仍然能够正常提供服务。单可用区地域:所有托管组件均严格采用多副本、多节点打散部署策略,确保在单个节点发生故障时,集群...
订阅事件通知:当 Tair 实例产生了主动运维事件(如实例迁移)、实例发生了故障或触发了高可用切换,系统将自动发送报警通知,帮助您及时接收报警通知并处理。包含InstanceMaintenance(主动运维事件)、实例异常、实例维护等。常见问题 ...
订阅事件通知:当 Redis 实例产生了主动运维事件(如实例迁移)、实例发生了故障或触发了高可用切换,系统将自动发送报警通知,帮助您及时接收报警通知并处理。包含InstanceMaintenance(主动运维事件)、实例异常、实例维护等。常见问题 ...
安装AI助手并开启PAI的作业监控和恢复功能后,当训练任务发生故障或异常时,能自动上报故障信息、隔离问题节点,无需人工干预即可快速恢复任务。本文为您介绍AI助手的具体配置方法。前提条件 已创建带有ACK灵骏托管版的集群。具体操作,请...
如果发生故障,您可以下载日志或提供日志上传路径给阿里云工程师定位问题。下载日志 在浏览器中,输入 https://<块网关IP地址>访问本地块网关控制台。输入用户名和密码,单击 确认。单击 关于,进入 关于系统 页面。找到 日志信息 区域,...
同时,告警机制能让您在故障发生后第一时间发现问题,缩短故障处理时间,以便尽快恢复业务。前提条件 在开始设置云监控前,您需要完成以下操作:检查ECS监控插件运行情况,确保监控信息能够正常采集。如果安装失败则需要手动安装插件,具体...
传统监控只能去发现和通知那些已知可能会发生的故障,而可观测性则能够协助发现并定位未知的问题。OpenTelemetry作为当下可观测领域主流的开源项目,旨在提供可观测性领域的标准化方案,解决观测数据的数据模型、采集、处理、导出等标准化...
如果发生故障,您可以下载日志或提供日志上传路径给阿里云工程师定位问题。下载日志 在浏览器中,输入 https://<文件网关IP地址>访问本地文件网关控制台。输入用户名和密码,单击 确认。单击 关于,进入 关于系统 页面。找到 日志信息 区域...
合理使用监控相关的功能可以帮助您及时发现和排查实例问题,在故障发生前处理掉潜在风险,避免影响业务。诊断实例的健康状态 实例健康诊断功能可以全方位诊断实例的操作系统配置、网络状态、磁盘状态等。诊断报告中针对异常诊断项目的影响...
告警描述 用于描述告警的详细信息,例如问题发生的时间、持续时间、影响范围等。告警处理方式 指示出现告警时的处理方式和责任人,例如由谁负责处理、处理时间要求等。在配置这样一个告警时需要指定该告警的通知方式,通知人等信息。而在大...
背景信息 随着数据量及业务的发展,MongoDB实例的性能资源使用率可能会逐步提升,直至被消耗殆尽。某些场景下MongoDB实例的性能资源可能被大量地异常消耗。如大量的慢查询引起的CPU使用率上升,大量数据写入导致磁盘空间被急剧消耗等情况。...
借助混沌工程可以了解到问题发生时对系统、业务的影响面是否符合预期。梳理演练场景 对于示例应用,可以按照以下思路来梳理演练场景:明确缓存监控的指标。分析影响这些指标可能的因素、故障场景、参数等。因为客户端层面的影响面可控,...
说明 演练前,基于MSHA流量监控或其他监控产品,确定业务稳态的监控指标(如日常情况RT≤200ms,错误率),以便在故障发生时判断故障影响面以及在故障恢复后判断业务的实际恢复情况。步骤二:应用故障注入 这里使用阿里云故障演练产品,对...
在企业数字化转型过程中,基于云计算平台服务,可以让企业快速构建新业务、减少业务故障率、持续观测业务指标、提升业务稳定性,使企业更加专注于业务本身。总体而言,主要包括以下几个关键领域:卓越运营第一个关键领域是确定组织的运营...
但是,如果由于某些要求苛刻的硬件设备(中断率相应增加)而发生上下文切换,则可能是其驱动程序问题。等待线程队列长度 Critical WMI(ProcessorQueueLength)处理器队列中的线程已就绪且可运行,但由于其他线程正在使用处理器,导致当前...
但是,如果由于某些要求苛刻的硬件设备(中断率相应增加)而发生上下文切换,则可能是其驱动程序问题。等待线程队列长度 Critical WMI(ProcessorQueueLength)处理器队列中的线程已就绪且可运行,但由于其他线程正在使用处理器,导致当前...