通过可观测性能力进行故障处理最佳实践

具体使用时可将这些指标大致分为以下三类:一级指标:建议将没有歧义的、可衡量业务正常运行的指标作为一级指标,这些指标出现异常则一定是业务链路出现问题一般可用做监控报警项。例如,消息收发TPS超过规格限制可触发实例流控,您可以...

DeviceWanLinkDown

告警信息 事件名称 事件级别 状态码 状态描述 DeviceWanLinkDown CRITICAL down Wan Link Down 可能原因 WAN链路出现故障。处理方法 请提交工单,联系阿里云工程师。icmsDocProps={'productMethod':'created','language':'zh-CN',};

同城双活

在日常业务链路中,会出现多次跨机房调用,增加性能损耗。同城双活模式:会优先调用同可用区,同可用区找不到调用目标,再调用其他可用区。最佳实践 最佳实践方案建议包含下述逻辑:每个应用的所有节点对等部署在同城的两个可用区。每个...

通过物理专线实现本地IDC与云上VPC互通

申请LOA后,物理专线实例的 状态 为 LOA申请中,阿里云审核人员一般会在2个工作日内对您的LOA申请进行审核。审核通过后,物理专线实例的 状态 为 LOA已批准,此时您可以在控制台下载LOA文件。说明 非中国境内接入点,阿里云审核人员会在3个...

ConnectionDisconnect

ConnectionDisconnect事件提示您智能接入网关的主备IPsec链路出现故障。告警信息 事件名称 事件级别 状态码 状态描述 ConnectionDisconnect CRITICAL disconnect Connection Disconnected 可能原因 主备IPsec链路均出现网络故障。处理...

什么在控制台看不到数据?

使用开源客户端上报数据后,如果遇到控制台或日志中打印了错误日志,或者控制台上没有观察到报错数据,可以根据本文档进行问题排查。控制台没有数据的可能原因:网络无法连通 控制台中上报开关设置有误 SLS数据源上报失败 HTTP上报数据失败...

什么在控制台看不到数据?

使用开源客户端上报数据后,如果遇到控制台或日志中打印了错误日志,或者控制台上没有观察到报错数据,可以根据本文档进行问题排查。控制台没有数据的可能原因:网络无法连通 控制台中上报开关设置有误 SLS数据源上报失败 HTTP上报数据失败...

通过调用链路和日志分析定位业务异常问题

当应用出现业务异常问题时,应用指标统计图会出现明显波动,您可据此粗略地分析异常问题;通过完整的调用链路和业务日志分析,可以精准定位业务异常问题。关联业务日志与TraceId 登录 ARMS控制台,在左侧导航栏选择 应用监控>应用列表。在 ...

OnsInstanceDelete-删除实例

仅推荐在管控链路集成,消息收发的核心数据链路中严禁依赖 OpenAPI 实现,否则可能导致链路产生风险。该接口一般是在应用下线等资源回收场景下使用。待删除实例下的 Topic 和 Group 为空时才可删除。实例删除后将无法恢复,请慎重调用。...

OnsTopicStatus-查询Topic状态

仅推荐在管控链路集成,消息收发的核心数据链路中严禁依赖 OpenAPI 实现,否则可能导致链路产生风险。本接口一般用于判断 Topic 资源的使用率。调用本接口后返回的信息包含当前服务器上该 Topic 所有的消息数,以及最后消息写入时间。...

TagResources-为资源绑定标签

仅推荐在管控链路集成,消息收发的核心数据链路中严禁依赖 OpenAPI 实现,否则可能导致链路产生风险。本接口一般在需要对云消息队列 RocketMQ 版的资源进行归类时使用,便于搜索和资源聚合。调试 您可以在OpenAPI Explorer中直接运行该...

OnsMessageTrace-查看消息消费结果

仅推荐在管控链路集成,消息收发的核心数据链路中严禁依赖 OpenAPI 实现,否则可能导致链路产生风险。本接口一般在消费异常,需要判断消息消费状态,初步排查原因时使用。本接口的实现基于云消息队列 RocketMQ 版的内部位点机制,在大...

0041-00000009

问题描述 请求触发的镜像回源出现了循环回源。问题原因 您发起的请求触发了镜像回源,在镜像回源过程中出现了循环回源。...当请求Bucket A中的文件时,会出现循环回源报错。解决方案 梳理镜像回源链路,修改镜像回源规则。相关文档 镜像回源

功能特性

建议您从运营商处购买一个可以传输数据的4G卡,该4G卡插入智能接入网关设备后可作为宽带备份链路,在宽带链路故障时为您传输数据。专线备份:在客户网络中已有专线链路的情况下,可增加智能接入网关作为备份上云链路。专线+Internet备份:...

使用ping命令丢包或不通时的链路测试方法

网络区域 通常情况下,从客户端到目标服务器的整个链路显著的包含如下区域:客户端本地网络 本地局域网和本地网络提供商网络,如前文链路测试结果示例图中的区域A,一般为前2~3个节点。如果该区域出现异常,如果是客户端本地网络相关...

配置同可用区优先路由

背景信息 当应用部署在多个可用区时,应用之间互相调用会出现跨可用区的情况。例如下图中可用区1的A应用调用可用区2的B应用,即节点A1上的应用调用节点B2上的应用。跨可用区调用会出现网络延时增加,并延长HTTP响应时间。调用链路如下图所...

设置SSL加密

RDS SQL Server的SSL(Secure Socket Layer)...常见问题 Q:SSL证书到期后不更新什么影响?影响实例运行或数据安全吗?A:SSL证书到期后不更新,仅导致使用加密连接的客户端程序无法正常连接实例,但不会影响实例运行或数据安全。

日志关联

当应用出现业务异常问题时,您可以分析业务日志,精准定位业务异常。本文介绍如何在调用链分析中关联日志服务SLS的日志。前提条件 已将应用数据上报至 可观测链路 OpenTelemetry 版,具体操作,请参见 接入指南。已创建Project。具体操作,...

链路流量控制简介

多应用问题排查 当部署在EDAS中的HSF微服务应用出现问题时,可以通过全链路流量控制将特定流量引入到某个应用,排查链路中具体应用的问题,保证整个微服务应用正常运行。入口应用与流量控制规则 在全链路流量控制中首先要指定入口应用,并...

与可观测链路 OpenTelemetry 版前后端打通

如果API请求与页面域名非同源时,要实现前后端链路追踪,则需要同时配置enableApiCors:true,并且需要后端服务支持请求跨域及自定义header值,重要 请确认所有请求都配合联调正常,否则会出现请求失败的问题。若请求失败,请参见上述在Node...

故障复盘

复盘文档一般包含以下内容:故障简述:故障概述、影响面、处理人等 故障背景:故障发生时的业务链路 故障时间线:着重强调故障引入、故障发生、故障发现、业务响应、恢复执行、故障恢复几个时间点 故障原因分析:建议先一句话总结,再进行...

异常分析

将应用数据上报至 可观测链路 OpenTelemetry 版 后,可...相关文档 为避免在出现问题后被动诊断错误原因,您还可以使用告警功能针对一个接口或全部接口创建告警,即可在出现问题时向运维团队发送通知。如何创建告警,请参见 创建告警规则。

调用链分析

将应用数据上报至 可观测链路 OpenTelemetry 版 后,可观测链路 OpenTelemetry 版 即可开始监控应用,可观测链路 OpenTelemetry 版 的调用链分析功能是基于已存储的全量链路明细数据,自由组合筛选条件与聚合维度进行实时分析,可以满足...

提供服务

将应用数据上报至 可观测链路 OpenTelemetry 版 后,可...相关文档 为避免在出现问题后被动诊断错误原因,您还可以使用告警功能针对一个接口或全部接口创建告警,即可在出现问题时向运维团队发送通知。如何创建告警,请参见 创建告警规则。

如何使用全链路流量控制排查应用问题

当部署在EDAS中的HSF微服务应用出现问题时,可以通过全链路流量控制排查链路中具体应用的实际问题,提升排查效率,保证整个微服务应用正常运行。本文将以一个示例介绍如何通过全链路流量控制排查链路中的应用问题。限制说明 使用灰度发布...

实时诊断

接下来,您就能以出现性能问题的调用链路为起点,通过方法栈瀑布图和线程剖析等功能定位问题原因。应用限制 EDAS标准版不支持应用的实时诊断功能,专业版和铂金版支持应用的实时诊断功能。功能入口 登录 EDAS控制台。在左侧导航栏,单击 ...

可观测性的设计原则

链路追踪 当系统出现问题时,需要能够追踪系统中每个组件的行为和交互情况。通过在系统中实现分布式跟踪,可以快速定位问题并进行有效的故障排除。链路跟踪可以通过在系统中添加跟踪标识符来实现。当请求进入系统时,标识符将被添加到请求...

MSE快速入门

在微服务场景中,应用间的调用是随机的,当您部署灰度版本的应用时,可能会出现流量乱窜的情况(如左图)。全链路流量控制功能将应用的相关版本隔离成一个独立的运行环境(即分流泳道如右图),通过设置泳道规则,将满足规则(如name=gray...

基本概念

本文介绍在使用 可观测链路 OpenTelemetry 版 之前需要了解的基本概念,包括分布式追踪系统的作用,什么是调用链,可观测链路 OpenTelemetry 版 所依赖的OpenTracing数据模型,以及在 可观测链路 OpenTelemetry 版 产品里数据是如何上报的...

性能监控最佳实践

提高故障排查效率:当系统或应用出现故障时,传统的性能监控方案通常需要IT运维人员手动分析监控数据来确定故障原因,这样浪费大量的时间和精力。而一体化性能监控能够对多种关联的监控数据进行自动分析和处理,帮助IT运维人员快速定位...

等待资源

什么会出现等待资源?为什么任务一直在等待gateway调度资源?为什么数据集成任务一直显示wait?为什么会出现等待资源?问题现象 调度将任务下发到对应执行引擎上,此过程可能会出现以下等待资源问题:等待调度资源组。数据集成任务等待...

通过Jaeger上报Go应用数据

通过Jaeger为应用埋点并上报链路...常见问题 Q:在运行过程中,为什么会出现以下报错?2021/06/28 21:11:54 ERROR:error when flushing the buffer:error from collector:403 A:出现上述报错,说明输入的接入点信息不正确。请更正并重试。

通过Zipkin上报Go应用数据

通过Zipkin为应用埋点并上报链路数据至 可观测链路 OpenTelemetry 版 后,可观测链路 OpenTelemetry 版 即可开始监控应用,您可以查看应用拓扑、调用链路、异常事务、慢事务和SQL分析等一系列监控数据。本文介绍如何使用Zipkin为Go应用埋点...

调用链采样配置最佳实践

调整采样是目前解决这类问题最高效且主流的方式,但具体配置什么样的采样策略,能够在可控的资源开销和费用成本内,最大程度保证错、慢、异常等链路被采集,从而最大限度保障性能监控和问题排查的使用需求。本文将重点围绕不同业务场景下...

诊断应用卡顿问题

排查、解决网站卡顿、页面加载过慢等问题过程复杂,耗时较长,原因如下:应用链路太长 从前端页面到后台网关,从Web应用服务器到后台数据库,任何一个环节出现故障都有可能导致整体卡顿。采用微服务架构的应用,链路更加复杂,而且不同组件...

2023年

无 缺陷修复 修复带SORT KEY的内存攒批任务执行后可能会出现的查询报错问题。修复Serverless实例读取字符串类型数据可能出错的问题。修复WHERE子句中过滤条件过多可能出错的问题。修复SQL包含like语句时可能出现报错的问题。修复扩缩容等锁...

应用防护页面看不到应用或资源?

资源要有访问量才在请求链路页面显示。AHAS刚接入应用之后,应用防护页面各个应用数据显示为空,这是因为应用没有实时流量就不会有数据。此时您可以通过PTS发起少量压测流量或手动访问,例如通过浏览器访问应用即可看到请求,控制台中将...

分布式链路概述

分布式链路(原 SOFAStack 中间件中的 概述)逐步融合到业务智能可观测服务中,实现监控和链路分析一体化,方便用户对问题进行跟踪定位,对应用性能、调用链路进行实时分析。背景信息 分布式链路是面向分布式架构、微服务(比如 Spring ...

强弱依赖治理概述

如果商品详情页对下游依赖是强依赖,例如当下游依赖 库存、优惠、物流 出现故障的时候,将导致业务流程无法推进,会出现类似如下的说明,严重影响用户体验。如果商品详情页对下游依赖是弱依赖,例如当下游依赖 评价、店铺 等系统出现故障的...

通过ALB链路追踪实现业务全链路分析

阿里云 ALB 支持链路追踪功能,通过该功能您可以获得完整的 ALB 请求追踪数据,包括请求的来源、经过的节点、响应时间等信息,有助于您快速定位和解决业务问题。背景信息 链路追踪为分布式应用的开发者提供了完整的调用链路还原、调用请求...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
可观测链路 OpenTelemetry 版 负载均衡 商标服务 弹性公网IP 短信服务 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用