应用场景

当出现这些故障时,如果用户业务部署在单个地区,那么就会因为地区故障导致服务不可用,且不可用时间完全依赖故障恢复时间。通过构建灾备库,使用数据同步服务实时增量同步主库数据以确保主库与灾备库数据的完全一致,当业务中心发生地区...

标准架构

主节点提供日常服务访问,从节点提供HA高可用,当主节点发生故障,系统会自动在30秒内切换至从节点,保证业务平稳运行。标准架构高可用类型的特点如下:可靠性 服务可靠 采用双机主从(master-replica)架构,主从节点位于不同物理机。主...

以太网接口频繁Up/Down

本文介绍以太网接口频繁Up/Down的原因和处理方法。问题现象 以太网接口频繁Up/Down。可能原因 线缆没有连接好。双绞线过长、光纤超长或链路损耗太大。接口、接口模块或设备故障。解决方案 检查本端和对端设备线缆、模块是否插好。检查设备...

使用gig流控插件

当节点服务质量出现问题(一般体现为查询延迟飙升或错误率上升)时,插件能够通过PID算法实时收集分析服务节点指标,快速做出反应,屏蔽异常节点,实现故障后的秒级切流。当新节点上线加入集群时,为避免业务流量直接输入到服务能力未达标...

服务等级协议

本服务等级协议(Service Level Agreement,以下简称“SLA”)规定了阿里云向客户提供的基因分析平台(简称“平台”)的服务可用性等级指标及补偿方案。1.定 义 1.1 服务周期:一个服务周期为一个自然月。1.2 服务周期总分钟数:服务周期内...

混沌工程缓存实战系列-Redis

分析影响这些指标可能的因素、故障场景、参数等。因为客户端层面的影响面可控,所以可以尝试从客户端层面去制造故障。因为服务端出现故障更加真实,所以可以从服务端层面去制造故障,但对于问题定位和排查的要求会更高。注入故障,观察指标...

通过可观测性能力进行故障处理最佳实践

本文为您介绍如何将 云消息队列 RocketMQ 版 可观测性功能应用于 云消息队列 RocketMQ 版 的故障管理场景中,为您的日常运维和故障处理提供实践方案。设计思路 核心问题 运维场景下,故障处理的核心问题如下:服务出现异常如何预警并上报 ...

故障诊断

lastState.terminated.reason="OOMKilled"]|any'#对jq表达式的结果进行匹配,结果是否匹配'true'-type:regexp expression:"true"#问题严重等级:Critical/Warning/Info level:Critical#问题总结 summary:Pod因OOM被Kill#问题原因,支持...

I-V曲线诊断

数据服务中提供光伏智能运维的IV曲线诊断算法,结合环境光强度、环境温度等影响因素,对组串式光伏发电阵列的电流-电压曲线(I-V曲线)进行分析,检测系统可能出现的故障,进而提高设备的运行效率,保障电站高效运行。本文介绍光伏智能运维...

使用集群诊断

容器智能运维平台 提供一键故障诊断能力,包括节点诊断、Pod诊断、Service诊断、Ingress诊断、内存诊断、网络诊断,可以辅助您定位集群中出现的问题。本文介绍如何在ACK集群中使用集群诊断功能。前提条件 已创建Kubernetes托管版集群。具体...

归档存储服务等级协议

阿里云将对不可用时间进行赔偿,但不包括以下原因所导致的服务不可用时间:(1)阿里云预先通知用户后进行系统维护所引起的,包括割接、维修、升级和模拟故障演练;(2)任何阿里云所属设备以外的网络、设备故障或配置调整引起的;(3)...

集群负载不均问题的分析方法及解决方案

导致阿里云Elasticsearch(简称ES)的负载不均问题的原因很多,目前主要包括shard设置不合理、segment大小不均、冷热数据需求、负载均衡及多可用区架构部署的长连接不释放等。本文介绍ES集群负载不均问题的分析方法及解决方案。问题现象 ...

发现并处理大Key和热Key

在使用 云原生内存数据库Tair 的过程中,如果未能及时发现并处理Big keys(下文称为“大Key”)与Hotkeys(下文称为“热Key”),可能会导致服务性能下降、用户体验变差,甚至引发大面积故障。本文将介绍大Key与热Key产生的原因、其可能...

概述

通过 DST,运维人员、开发人员和架构师能看清楚复杂的大规模微服务架构下的应用及服务之间的 复杂调用关系、性能指标、出错信息 与 关联日志,从而实现故障根因分析、服务治理、应用开发调试、性能管理、性能调优、架构管控、故障定责等运...

常见问题

此模式适用于业务峰值较为平稳,可预测的场景。同时也可以保障整体使用资源可控,避免异常流量导致的额外费用,是对于成本可控场景的更优选择。说明 有关评估选型的更多信息,请参见 资源预估选型。计费项包括计算能力、数据存储量和外网...

设备显示离线

本文介绍智能接入网关设备显示离线的原因和处理方法。问题现象 登录 智能接入网关控制台,查看设备状态为 离线。可能原因 设备软件故障。设备到阿里云联网故障。解决方案 通过尝试在同一个运营商出口环境内 ping 其他知名网站,确认您的...

分布式链路概述

分布式链路(原 SOFAStack 中间件中的 概述)会逐步融合到业务智能可观测服务中,实现监控和链路分析一体化,方便用户对问题进行跟踪定位,对应用性能、调用链路进行实时分析。背景信息 分布式链路是面向分布式架构、微服务(比如 Spring ...

什么是业务实时监控

分布式链路:提供应用拓扑和链路查询功能,观测应用及服务之间的复杂调用关系、性能指标、出错信息与关联日志,从而实现故障根因分析、服务治理、应用开发调试、性能管理、性能调优、架构管控、故障定责等运维开发工作。日志查询和日志关联...

GTM如何实现异地容灾

两地三中心容灾架构,是指在同城双中心的基础上,在异地的城市建立一个备份的灾备中心,用于双中心的数据备份,当双中心出现自然灾害等原因而发生故障时,异地灾备中心可以用备份数据进行业务的恢复。目标读者 企业网络部、业务运维部工作...

如何排查Java场景下故障注入不生效的问题

为解决此类问题,在创建或编辑演练时,您可以在故障执行阶段选择开启Debug模式,并通过相关的日志信息来了解故障注入失败的原因。开启Debug模式 在查看目标演练的故障注入日志前,您需要先确认该演练的故障执行步骤是否已开启Debug模式。若...

SignalResource-发送信号

故障信号会导致无法创建或更新资源栈,如果所有信号都是警告信号,则将无法创建或更新资源栈。取值:SUCCESS FAILURE WARNING SUCCESS RegionId string 是 资源栈所属的地域 ID。您可以调用 DescribeRegions 查看最新的阿里云地域列表。...

移动端概述

您可以通过Quick BI移动端在手机上轻松查看报表、随时随地分析数据、获得数据洞察,并且可以结合 钉钉、企业微信、飞书 等能力追踪执行落地。让数据在企业中流动起来,真正将数据贯穿在业务决策的过程中。移动端的使用需要将您的阿里云账号...

常见问题

答:基因分析平台任务出错原因建议按如下步骤排查:查看任务页面报错提示,根据提示定位报错位置及原因 如果页面报错提示无法定位原因,则查看任务的stdout、stderr以及任务重定向的输出文件中是否包含错误提示 如果stdout及stderr中报错...

故障演练常见问题

故障不生效的原因较多,可能是参数配置不正确或无对应的请求命中,但故障规则已成功下发,故需要计费。刚刚购买的资源包为什么会被扣减次数?因为购买前已产生欠费,购买资源包后会先扣减所欠的次数。子账号的消费是否独立计费?不是,与主...

ALIYUN:ROS:WaitConditionHandle

CurlCli、WindowsCurlCli、PowerShellCurlCli的请求体中均可通过设置 reason字段(字符串)设置信号成功或失败原因,这个原因会出现在ROS资源栈事件(信号通知类型)当中。例如:d"{\"status\":\"SUCCESS \",\"reason\":\"nginx is ...

滤波

趋势线拟合滤波的原理是基于信号中的趋势分析。它假设信号由一个趋势成分和一个噪声成分组成,通过拟合趋势线来估计和提取趋势成分,从而实现信号的平滑处理。指数 线性 对数 多项式 乘幂 FIR滤波:对输入信号做FIR滤波操作。算法采用的是...

主备方案介绍

主备容灾:当云数据库HBase实例因不可预料的原因(例如设备故障、机房断电断网等)发生故障,容灾机制可用于保障数据的一致性和业务可用性。功能优势 主备双活:请求低毛刺。故障自动容错。资源利用率高。主备容灾:支持云数据库HBase、EMR...

什么是云网管

观测平台(Observation Platform)基础设施运行状态维护和管理,包含性能数据和告警数据,实现对各类监控对象的异常数据判定,网络故障的发现、分析、定位等维护管理。高效采集,分钟级故障定位发现。自定义采集方式和分析过程,兼容所有...

灾备方案

Tair 容灾架构演进 当 Tair 实例因不可预料的原因(例如设备故障、机房断电等)发生故障,容灾机制可用于保障数据的一致性和业务可用性。Tair 提供多种灾备方案供您选择,可满足不同的业务场景。图 1.Tair 容灾架构演进 灾备方案 灾备级别 ...

灾备方案介绍

云数据库Redis容灾架构演进 当云数据库Redis实例因不可预料的原因(例如设备故障、机房断电等)发生故障,容灾机制可用于保障数据的一致性和业务可用性。云数据库Redis提供多种灾备方案供您选择,可满足不同的业务场景。图 1.Redis容灾架构...

监控与日志

例如您可以根据通过捕获的流量信息分析带宽使用情况、排查网络故障、优化流量使用成本、分析异常流量等。云企业网流日志 流日志会在指定的捕获窗口捕获转发路由器之间的跨地域流量信息和边界路由器VBR(Virtual border router)连接的流量...

单实例快速恢复

当出现1分钟容器响应超时(可能是内存溢出、硬件故障、软件Bug等原因导致),Resource Manager会自动拉起新的计算节点,并迁移数据分片(Shard)职责到新的节点上(例如Worker Node3响应超时,Resource Manager拉起Worker Node4取代Worker ...

Java堆分析报错

1.ATP自动失败探测 在使用Java堆分析过程中,偶尔您可能会遇到分析失败的情况,如下图所示:ATP会尝试尽可能探测分析错误,并给出失败原因和潜在解决方案,您可以点击分析细节查看:或者您也可以参考本文剩余部分尝试解决。2.常见分析失败...

Java GC日志分析报错

1.ATP自动失败探测 在使用Java GC日志分析过程中,偶尔您可能会遇到分析失败的情况,如下图所示:ATP会尝试尽可能探测分析错误,并给出失败原因和潜在解决方案,您可以点击分析细节查看:或者您也可以参考本文剩余部分尝试解决。2.常见分析...

故障取消

cancelReason Long Body 否 取消原因 取消原因 problemNotifyType Long Body 否 PROBLEM_NOTIFY PROBLEM_NOTIFY 通告类型 PROBLEM_NOTIFY:故障通告 PROBLEM_UPDATE:故障更新 PROBLEM_UPGRADE:故障升级 PROBLEM_DEGRADE:故障降级 ...

DeviceLinkDown

告警信息 事件名称 事件级别 状态码 状态描述 DeviceLinkDown CRITICAL linkdown Device Link State Change 可能原因 用户侧交换机设备故障。用户侧交换机配置故障。用户侧交换机和设备的连线问题。处理方法 检查用户侧交换机。...

Java GC日志分析

Java GC日志分析 通过对GC日志进行分析,帮助用户找出日志中潜在的GC问题以及可能引发问题的GC,从暂停时间,对象统计,GC原因等多个维度进行分析,协助问题的排查。除此之外,Java GC日志分析还提供了丰富的GC性能指标,帮助用户评估GC...

ping不通云服务ECS(SAG-1000)

本文介绍SAG-1000设备无法ping通ECS实例的原因和处理方法。问题现象 终端无法连接到阿里云,例如ping不通同CEN的ECS。可能原因 终端到设备的链路故障。设备到阿里云的VPN链路故障。目标ECS故障。运营商网络故障。解决方案 登录 智能接入...

微服务强弱依赖治理

在应用强弱依赖治理的基础上,微服务强弱依赖治理功能,通过接入MSE,可分析出应用所依赖的Dubbo、Spring Cloud服务,并能够快速的发起方法级别的故障注入,帮助您快速分析出应用与所依赖的各种方法之间的强弱依赖关系。本文介绍如何进行微...

标准版-双副本

主节点提供日常服务访问,备节点提供HA高可用,当主节点发生故障,系统会自动在30秒内切换至备节点,保证业务平稳运行。特点 可靠性 服务可靠 采用双机主从(master-replica)架构,主从节点位于不同物理机。主节点对外提供访问,用户可...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
检索分析服务 Elasticsearch版 负载均衡 实时数仓 Hologres 云安全中心 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用