可观测性的设计原则

通过在系统中实现分布式跟踪,可以快速定位问题并进行有效的故障排除。链路跟踪可以通过在系统中添加跟踪标识符来实现。当请求进入系统时,标识符将被添加到请求中,并在整个系统中传递。每个组件都可以将标识符添加到它们的日志中,以便在...

服务支持

NLP自然语言处理 常见问题 调用异常自助排查(错误码汇总)服务协议 NLP自学习平台 常见问题 实体抽取项目常见问题 故障排除 私有化部署 企业智能搜索 错误码对照表 常见问题

使用OpenAPI诊断工具进行故障排查

阿里云OpenAPI平台提供使用诊断工具。本文介绍如何使用OpenAPI诊断工具进行故障排查。您可以登录 OpenAPI使用诊断,输入完整的RequestID或SDK报错信息,然后...如果诊断工具仍未能解决您的问题,您可以参考 故障排除、常见问题 获取解决方案。

监控服务概览

OpenAPI访问监控数据 OSS服务的相关监控指标数据可以通过云监控提供的OpenAPI访问,使用方法请参见:云监控SDK参考 访问监控数据 监控、诊断和故障排除 监控诊断和故障排除 通过详细介绍以下各个方面的内容帮助您更好地了解OSS服务的运行...

支持计划

配置指导以及故障排除 配置指导以及故障排除 配置指导以及故障排除 专属技术服务经理 不支持 不支持 专属技术服务经理(TAM)健康检查 可免费使用智能顾问Advisor 可免费使用智能顾问Advisor 可免费使用智能顾问Advisor。专属技术服务经理...

故障排除

CC API在调用时可能会遇到一些错误,遇到错误时以错误码为依据进行故障排除,本文为您介绍 常见错误码的解决方案。云产品运行时错误码 云产品API运行时返回的错误码。以下两个错误码为云产品运行时错误,如想获取云产品详细错误信息,需...

常见问题FAQ

4.HDMI无信号 故障示意图如下:故障排除方案如下:1.见下遥控器说明,按电源键,重启魔盒。2.重复插拔HDMI线 3.重启屏幕 屏幕操作指南由屏幕供应商给出。4.屏幕的信号源切换到HDMI输入。屏幕操作指南由屏幕供应商给出。如无法排除故障:...

诊断网页加载过慢的问题

针对这类问题,ARMS前端监控的慢会话追踪功能提供页面静态资源加载的性能瀑布图,可深入定位页面资源加载情况,全方位地诊断故障根源,从而快速排除故障。问题描述 网页加载较慢是经常出现且前端非常关注的问题之一。定位、排查解决这类...

事件分析概述

链路追踪:提供事件轨迹能力,还原事件整体链路状态,帮助您快速排除故障,定位链路问题。低成本 事件总线EventBridge 支持事件以云服务事件总线和自定义事件总线形式接入,云服务事件总线支持接入所有阿里云产品事件,无缝支持云服务事件...

应用场景

故障恢复 通过ASM,可以轻松实现开箱即用的故障恢复功能:分布式系统存在高度复杂性,在基础设施、应用逻辑、运维流程等环节都可能存在稳定性风险导致业务系统的失效。提供了基于Istio的混沌工程能力,包括如何使用连接池配置和异常检测...

监控、诊断和故障排除

故障排除:提供常见的问题场景和故障排除方法。服务监控 监视总体运行状况 可用性和有效请求率 可用性和有效请求率是有关系统稳定性和用户是否正确使用系统的最重要指标,指标小于100%说明某些请求失败。可能因为一些系统优化因素出现暂时...

设备显示离线

如果是静态路由接入,尝试通过交换机,能否 ping 通设备的每个接口IP,如果其中有无法 ping 通的接口,请参见 设备和交换机之间的链路故障排除接口互联问题。如果是单机设备,观察设备机身的状态指示灯,确认右侧第二个和第三个灯是否为...

无法连接到同一个云连接网内的本地客户端

如果是静态路由接入,尝试通过交换机,能否 ping 通设备的每个接口IP,如果其中有无法 ping 通的接口,请参见 设备和交换机之间的链路故障排除接口互联问题。如果是单机设备,观察设备机身的状态指示灯,确认右侧第2和第3个灯是否为黄色...

ping不通云服务ECS(SAG-1000)

如果是静态路由接入,尝试通过交换机,能否ping通设备的每个接口IP,如果其中有无法ping通的接口,请参见 设备和交换机之间的链路故障排除接口互联问题。如果是单机设备,观察设备机身的状态指示灯,确认右侧第2和第3个灯是否有红色的。...

Gmail 投递帮助

Gmail发送者指南,请参考 文档。一、投递失败的原因 一般来说,投递失败会出于以下一种或多种原因:发送邮件...6、使用故障排除工具 如果按照本文中的指南进行操作后仍然遇到邮件传送问题,请尝试 对发件人的电子邮件传送问题进行故障排除

卡方分布拟合

功能说明 卡方分布拟合组件支持对给定数据点进行卡方分布拟合,利用KS检验数据是否服从卡方分布,输出拟合后的概率分布,以及KS检验结果、卡方分布自由。计算逻辑原理 卡方分布:卡方分布是统计推断中应用最广泛的概率分布之一。其定义为...

什么是消息演练

AHAS提供了强大且高灵活故障演练功能,可以根据不同的场景注入对应的故障类型。为了使您的演练服务更便捷,故障演练还提供消息演练功能。本文介绍消息演练的基本概念。消息演练概述 目前市面上有RocketMQ、Kafka、RabbitMQ等流行的消息...

设计原则

面向精细的运维管控原则 由于业务的扩展和系统服务进一步拆分,分布式系统的复杂剧增。再加上产品迭代加快,版本繁多,同时某些业务对实时性有较高要求,运维的不确定性和复杂性大幅增加。建议通过精细化的管理和可观测手段,如版本控制...

设计方案

容错 容错是指在分布式系统中,系统出现故障时,通过设计和实现可靠的机制和策略,使系统能够自动检测、排除或者纠正错误,保证系统能够正常运行,从而提高系统的可靠性和稳定性。容量 容量是在一定时间内,系统能够处理的最大工作量或数据...

故障演练

故障隶属于单机或是分布式系统之一,分布故障包含单机故障。对于单机或同机型的故障,以系统为视角,故障可能是当前进程内的故障,比如:如FullGC,CPU飙高;进程外的故障,比如其他进程突然抢占了内存,导致当前系统异常等。对于大多数...

概述

分布式系统将计算任务和数据分布在多个节点上以实现更高的性能、可靠性和可扩展性,当一个节点发生故障或错误时,其他节点可以继续工作,相比于单机系统,架构本身就有较高的节点容错性。但随着服务拆分,更多组件的引入,分布式系统的复杂...

基础设施安全

算力健康检测 进行AI训练时,DLC提供算力健康检测能力,对分布式训练任务的算力资源健康与性能进行检查。在创建DLC训练任务时可以开启该功能,健康检测会对参与训练的资源进行全面检测,自动隔离故障节点,并触发后台自动化运维流程,...

什么是云工作流(CloudFlow)

方便您快速识别故障位置,并快速排除故障问题。支持长时间运行流程 云工作流 可以跟踪整个流程,持续长时间执行确保流程执行完成。有些流程可能要执行几个小时、几天、甚至几个月。例如运维相关的Pipeline和邮件推广流程。流程状态管理 云...

什么是Serverless工作流

方便您快速识别故障位置,并快速排除故障问题。支持长时间运行流程 Serverless 工作流 可以跟踪整个流程,持续长时间执行确保流程执行完成。有些流程可能要执行几个小时、几天、甚至几个月。例如运维相关的Pipeline和邮件推广流程。流程...

监控报警概述

实时监控提供终端用户登录云电脑的实时数据(例如用户在线数量、在线时长的前十用户、平均登录时间和云电脑网络延迟分布情况)以及相关故障预警信息,以便快速准确定位,迅速处理故障,避免因资源、网络问题或者外部操作原因造成不必要的...

分布式训练DLC 算力健康检测发布

新增功能/规格 算力健康检测(Sanity Check)功能,旨在对分布式训练任务的算力资源健康与性能进行检查。在创建DLC训练任务时可以开启该功能,健康检测会对参与训练的资源进行全面检测,自动隔离故障节点,并触发后台自动化运维流程,...

概述

但随着各公司业务范围的扩展和软件系统架构持续迭代升级,系统的复杂随之增加,面对更多的非预期事件风险,如各类软硬件故障、错误的变更、突发流量,甚至到光纤挖断、自然灾害等引起的整个机房不可用情况,如何保障系统稳定性具有很大...

分布式链路概述

分布式链路(原 SOFAStack 中间件中的 概述)会逐步融合到业务智能可观测服务中,实现监控和链路分析一体化,方便用户对问题进行跟踪定位,对应用性能、调用链路进行实时分析。背景信息 分布式链路是面向分布式架构、微服务(比如 Spring ...

功能概览

应用下钻和性能分析 支持基于应用>上下游应用>接口等逐层下钻分析,并展现其黄金性能指标(比如吞吐量、平均响应时、错误率、满意等),建立由底层到上层间的数据关联信息,从而深度分析分布式场景下的影响应用性能的问题根因。...

基础术语

术语 说明 应用 泛指用于组成业务系统的应用,可以为单体应用也可以为基于分布式框架构成的微服务应用。应用拓扑 拓扑是对应用间调用关系和依赖关系的可视化展示。SOFATracer SOFATracer 是一个用于分布式系统调用跟踪的组件,通过统一的 ...

全场景解决方案

针对金融行业客户在分布式架构转型过程和上云过程中的痛点,提供的产品和服务解决方案,帮助运维人员有效地整合现有工具、经验,标准化、自动化、流程化提升应急效率,以及分布式架构下全业务链路的故障定位能力。方案优势 双模应用部署 ...

查看应用拓扑图

指标说明 RMS 分布式链路使用不同的拓扑图标颜色进行标识,蓝色表示应用健康、黄色表示应用出现异常情况、红色表示应用出现错误,方便用户迅速聚焦到非健康应用,快速定位异常链路,完成故障排查。此外,将鼠标悬在代表应用的节点或者节点...

实时分析链路数据

如果异常请求分散在多台机器,那么大概率可以排除单机故障因素,可以重点分析下游依赖服务或程序逻辑是否异常。在 调用链分析 页面筛选错误调用或慢调用,并设置按IP进行分组统计,如果异常调用集中出现在特定机器,则有较大概率是机器故障...

附录:SOFAStack 产品目录

分布式链路跟踪 分布式链路跟踪(Distributed System Tracing,简称 DST)是一款面向分布式架构、微服务架构和云原生架构的应用可观察性的金融级解决方案,帮助用户厘清应用间复杂的调用关系,迅速定位故障或者缓慢节点。产品架构 产品优势...

网络架构容灾

简称GTM)可以有效解决上面几个问题,它基于阿里云DNS入口调度和分布式云监控,旨在帮助企业实现用户访问应用服务的就近接入、高并发负载均摊、应用服务的健康检查,并能够根据健康检查结果实现故障隔离或流量切换,方便企业灵活快速的构建...

关键技术竞争力

生产运维智能化:技术风险体系保障业务连续性 TRaaS(Tech Riskdefend as a Service)技术风险防控平台,以蚂蚁内部 SRE 长期实践方法论和内部工具沉淀为依托,解决用户上云和分布式改造过程中所面临的可观测、故障应急、容灾、混沌工程、...

基本概念

发起方 Initiator,分布式事务的发起方负责启动分布式事务,通过调用参与者的服务,将参与者纳入到分布式事务当中,并决定整个分布式事务是提交还是回滚。一个分布式事务有且只能有一个发起方。分组标识 用于在网关上做全局的唯一标识,...

采集客户端数据的高可用方案

通过该机制,存储系统确保3个数据副本分布在不同服务器的不同物理磁盘上,单个硬件设备的故障不会造成数据丢失,同时确保3个数据副本之间的数据强一致性。因此对于单硬件设备故障风险,日志服务天然具备了可用性特征。但是在一些相对极端的...

NVMe协议介绍

NVMe共享盘可以帮助应用实现高可用、高并发、可扩展的业务,可以帮助基于传统SAN的业务无缝上云,共享盘常见的应用场景包括数据共享、高可用故障转移、分布式缓存加速、机器模型训练等。数据共享 NVMe最简单的应用场景为数据共享,当数据被...

灾备方案

借助阿里云的 Tair 全球分布式缓存功能,可帮助您解决业务因跨地域访问导致延迟大的问题,分布式缓存功能具有如下优势:可直接创建或指定需要同步的子实例,无需通过业务自身的冗余设计来实现,极大降低业务设计的复杂,让您专注于上层...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
文件存储 CPFS 负载均衡 弹性公网IP 短信服务 人工智能平台 PAI 金融分布式架构
新人特惠 爆款特惠 最新活动 免费试用