存储资源

磁盘性能下降,读写速度变慢,任务执行时间增加,系统的实时性降低,当磁盘IO负载过大无法承受时,可能导致磁盘故障系统崩溃或数据丢失。常见的容错策略如下:数据缓存:将数据暂时存储在内存中,减少对磁盘IO的频繁访问。可以利用内存...

报警设置

订阅事件通知:当 Tair 实例产生了主动运维事件(如实例迁移)、实例发生了故障或触发了高可用切换,系统将自动发送报警通知,帮助您及时接收报警通知并处理。包含InstanceMaintenance(主动运维事件)、实例异常、实例维护等。常见问题 ...

报警设置

订阅事件通知:当 Redis 实例产生了主动运维事件(如实例迁移)、实例发生了故障或触发了高可用切换,系统将自动发送报警通知,帮助您及时接收报警通知并处理。包含InstanceMaintenance(主动运维事件)、实例异常、实例维护等。常见问题 ...

自动/手动主备切换

系统发生故障时,PolarDB 集群会自动进行主备切换。您也可以手动进行主备切换,指定一个只读节点为新的主节点。注意事项 不论是自动切换还是手动切换,当只读节点未开启热备时,主备切换过程中可能会出现20~30秒左右的闪断,因此切换前请...

主备方案介绍

灾备方案 说明 单可用区高可用方案 主备节点部署在同一可用区中的不同机器上,当任一节点发生故障时,由高可用HA(High Availability)系统监控主备节点的健康状态并自动执行故障切换,避免单点故障引起的服务中断。同城容灾方案 主备节点...

大数据安全治理的难点

因此,其存在错综复杂的数据流转链路,包括但不限于即席查询链路、离线传输链路、实时传输链路、数据服务API链路、其他底层API/SDK流出通道。这些链路都是数据机密性受损的直接渠道,数据流转安全策略定义不清楚或未定义、底层链路未禁用、...

节点诊断

ECSControllerManager 检查ECS实例常见问题,检查项包括ECS实例状态、网络链路、操作系统、磁盘IO等。GPUNode 检查使用GPU设备的节点,检查项包括NVIDIA模块状态、驱动配置等。Node 检查项名称 检查项说明 修复方案 集群API Server连接状态...

阈值检测

应用场景 当您发现经常收到某条告警,但是系统又没有发生任何故障时,可能是因为当前的阈值设置得不够合理,或者是该阈值不适合某些应用或接口。这种场景下,您可以使用 建议阈值 功能,对告警规则的阈值进行调整,或对部分应用、接口的...

RDS与自建数据库对比优势

高可用系列和集群系列提供自研高可用系统,实现30秒内故障恢复。只读实例 自动实现负载均衡。读写分离 使用方便。未来会推出分析节点,满足分析型场景需求。基础系列约30分钟完成故障转移。需要单独购买高可用系统。需要单独实现或者购买...

通过SkyWalking上报Java应用数据

通过SkyWalking为应用埋点并上报链路数据至 可观测链路 OpenTelemetry 版 后,可观测链路 OpenTelemetry 版 即可开始监控应用,您可以查看应用拓扑、调用链路、异常事务、慢事务和SQL分析等一系列监控数据。本文介绍如何使用SkyWalking ...

常见问题

运维管理 容器应用服务常见问题 经典应用服务常见问题 中间件 SOFABoot 常见问题 微服务常见问题 微服务故障排查之 DRM 微服务故障排查之限流 微服务故障排查之 RPC 服务网格-故障排查 消息队列常见问题 任务调度常见问题 分布式链路跟踪...

测试指标

错误率 定义及解释 错误率指系统在负载情况下,失败交易的概率。错误率=(失败交易数/交易总数)×100%。稳定性较好的系统,其错误率应该由超时引起,即为超时率。简称 Virtual Failure Ratio:FR:VU 标准 不同系统对错误率的要求不同,但...

通过物理专线实现本地IDC与云上VPC互通

健康检查探测到物理专线链路故障时,如果云企业网实例中存在冗余的路由,健康检查则会立刻触发路由切换使用可用链路。若您关闭本功能,健康检查仅执行链路探测功能。若健康检查探测到物理专线链路故障,则不会触发路由切换。警告 若您选择...

网络诊断

容器服务平台提供网络诊断功能,帮助您诊断网络常见问题,例如Pod之间不通、集群到公网访问不通、公网到LoadBalancer不通。本文介绍网络诊断的基本原理、使用方式、以及如何针对常见网络不通的场景定位网络问题和使用网络诊断。重要 使用...

计算资源

计算资源常指用于执行计算任务的软硬件资源,包括CPU、GPU、内存、操作系统和特定计算任务的软硬件环境等。计算资源的主要作用是执行各种计算任务,包括数据处理、算法运算、业务逻辑执行等。计算资源的性能和容量直接影响到系统的计算能力...

可观测性的设计原则

可观测性设计是指为了更好地监控、分析和管理系统运行状态而进行的设计。在云原生、微服务等技术越发流行的今天,系统的可观测性变得越来越复杂。云上的可观测性主要从监控指标、链路追踪、日志记录、监控看板和事件告警五大方面来进行设计...

DeviceWanLinkSwitched

告警信息 事件名称 事件级别 状态码 状态描述 DeviceWanLinkSwitched WARN up Device Wan Link Switched 可能原因 WAN链路原有链路发生了故障,切换到备用链路。处理方法 提醒用户WAN链路发生了切换,用户查看原有WAN链路并决定是否主动切...

直播公告(2020~2022年)

ZooKeeper在阿里巴巴的服务形态演进 2022-05-24 服务发现与配置管理高可用最佳实践 注册中心位于微服务体系的核心链路,牵一发而动全身,任何一个抖动都可能会较大范围地影响整个系统。微服务体系在阿里巴巴内部广泛使用,历经10多年双十一...

诊断项与诊断结果说明

实例健康诊断功能是一种自助诊断方式,可以对实例的计算服务状态、存储服务状态、网络服务状态、实例配置管理和实例操作系统内相关配置进行全方位的诊断,帮助您了解实例的健康情况,及时发现并解决常见的问题。本文介绍轻量应用服务器支持...

应用场景

服务网格 ASM主要适用于需要对应用服务进行流量管理、安全管理、故障恢复、观测监控以及微服务架构迁移的应用场景。本文介绍ASM的常见应用场景。流量管理 通过ASM,可以轻松实现基于配置的流量管理:将流量管理与基础设施管理分隔开来,并...

常见问题

本文汇总使用SchedulerX过程中的常见问题和对应解决方法。任务管理常见问题 Spring应用找不到Bean怎么办?任务失败,报错“submit jobInstanceId to worker timeout”任务失败,报错“used space beyond 90.0%!任务失败,报错...

常见问题

本文汇总使用SchedulerX过程中的常见问题和对应解决方法。任务管理常见问题 Spring应用找不到Bean怎么办?任务失败,报错“submit jobInstanceId to worker timeout”任务失败,报错“used space beyond 90.0%!任务失败,报错...

常见问题

本文汇总使用SchedulerX过程中的常见问题和对应解决方法。任务管理常见问题 Spring应用找不到Bean怎么办?任务失败,报错“submit jobInstanceId to worker timeout”任务失败,报错“used space beyond 90.0%!任务失败,报错...

AIOps 解决方案专家服务内容说明

调研的服务范围包含:基础资源调研、业务现状调研、应用系统调研《调研报告》2 智能故障发现方案设计 基于业务数据、资源组维度建立业务组单元,将业务组单元指标通过智能AI算法进行实时分析,帮助企业快速发现故障,列出可疑根因事件,并...

诊断应用卡顿问题

排查、解决网站卡顿、页面加载过慢等问题过程复杂,耗时较长,原因如下:应用链路太长 从前端页面到后台网关,从Web应用服务器到后台数据库,任何一个环节出现故障都有可能导致整体卡顿。采用微服务架构的应用,链路更加复杂,而且不同组件...

日志说明

load.test 判断当前是否为全链路压测:T:表示当前为全链路压测。当前线程中能获取到日志上下文,且上下文中有压测信息。F:表示当前非全链路压测。当前线程中不能获取到日志上下文,或上下文中没有压测信息。HttpClient 日志 SOFATracer ...

告警中心大盘

故障级别 故障类型 故障详情 故障说明 解决方案 error AlertPolicyNotConfigured Alert xxx has no alert policy configured 未在告警监控规则中设置告警策略,告警无法被路由分组合并,导致对应的告警被忽略。修改告警监控规则,设置正确...

可观测链路 OpenTelemetry 版服务协议

欢迎您与阿里云计算有限公司(以下简称“阿里云”)共同签署本《可观测链路 OpenTelemetry 版 协议》(下称“本协议”)并使用阿里云服务!协议中条款前所列索引关键词仅为帮助您理解该条款表达的主旨之用,不影响或限制本协议条款的含义或...

Pod诊断

容器智能运维平台 构建了基于专家经验的故障诊断系统,并基于海量数据训练了AI智能故障诊断模型。Pod诊断融合了基于专家经验和AI智能诊断两种诊断模式,进一步深入定位问题根因。Pod诊断包括诊断检查项和诊断根因。诊断检查项:包括Pod检查...

Pod诊断

容器服务平台构建了基于专家经验的故障诊断系统,并基于海量数据训练了AI智能故障诊断模型。Pod诊断融合了基于专家经验和AI智能诊断两种诊断模式,进一步深入定位问题根因。Pod诊断包括诊断检查项和诊断根因。诊断检查项:包括Pod检查、...

产品架构介绍

架构上通常将业务系统自上而下分为接入层、应用层和数据层三层。配合产品提供的管控和数据面组件,实现多活架构的创建和管控。MSHA产品架构图 控制台 控制台是用户侧控制台入口,提供MSFE、HSF、Dubbo、MQ、RDS和DRDS等各类技术架构下的容...

常见问题

ECS网络问题 Windows实例ping外网地址提示“一般故障”Linux系统的ECS中没有禁ping却ping不通的解决方法 使用ping命令测试ECS实例时ping不通的排查方法 如何在Linux实例中自定义配置DNS 使用ping命令丢包或不通时的链路测试方法 ...

什么是读写分离

读写属性处理逻辑 读写属性 权限分配方式 主实例权重 正常情况 删除最后一个只读实例 只读实例全部故障 只读 系统分配或自定义 主实例权重不可设置 主实例:不可读不可写(不转发)代理地址:可读不可写 主实例:不可读不可写(不转发)...

使用集群诊断

容器智能运维平台 提供一键故障诊断能力,包括节点诊断、Pod诊断、Service诊断、Ingress诊断、内存诊断、网络诊断,可以辅助您定位集群中出现的问题。本文介绍如何在ACK集群中使用集群诊断功能。前提条件 已创建Kubernetes托管版集群。具体...

事件中心

物理链路丢包对业务的影响风险 带宽流量用量突增突减的故障风险 实例欠费即将停机风险 事件等级 按照对实例正常运行的影响程度进行划分,事件分为以下几个等级:严重:影响重大,需要尽快处理,否则可能导致实例无法使用。警告:有一定影响...

SSL-VPN连接常见问题

本文汇总了建立SSL-VPN连接时出现客户端连接失败、流量不通现象的常见原因并提供了相应的解决方案。常见问题快捷链接 客户端连接问题 客户端连接失败怎么办?客户端之前连接成功,但间歇性中断下线怎么办?仅部分客户端连接成功怎么办?SSL...

数据库优化

数据库选型 阿里云拥有丰富的云数据库产品选项,涵盖关系型数据库、非关系型数据库、数据仓库、数据库生态工具四大板块,可以为企业数据生产和集成、实时处理、分析与发现、开发与管理提供全链路生命周期的服务。主要关系型数据库包括 云...

什么是应用实时监控服务ARMS?

友邦人寿 我们采用ARMS搭建根据业务价值自上而下设计的可观测系统,在采集层使用ARMS Agent采集调用链路/性能数据、Prometheus Exporter采集容器集群数据,在存储层使用阿里云Prometheus存储容器集群和应用监控数据、SLS存储日志和调用链...

什么是应用监控

告警集成 ARMS监控针对JVM、主机、接口服务情况等指标类型,预置了50种以上的告警规则,您可以对这些规则进行灵活的调整与组合,并通过ARMS告警管理,实现告警的收敛、通知、升级、协同处理,确保及时发现并修复线上故障。开源集成 ARMS...

迁移可用区

迁移完成后系统会按您指定的切换时间(立即切换 或 在可维护时间段内进行切换)进行实例切换(同时若您选择的交换机发生了变更,实例将切换到新链路),请确保应用具有自动重连机制。若应用没有自动重连机制,需手动重连。由于客户端DNS...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
可观测链路 OpenTelemetry 版 应用实时监控服务 数据库自治服务 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用