可观测性的设计原则

每个组件都可以将标识符添加到它们的日志中,以便在出现问题时进行故障排除分布式跟踪可以使用开源工具Jaeger、Zipkin、skywalking或CAT等,阿里云上有ARMS服务来实现。日志记录 系统需要记录关键事件和故障,以帮助诊断问题和解决故障。...

服务支持

NLP自然语言处理 常见问题 调用异常自助排查(错误码汇总)服务协议 NLP自学习平台 常见问题 实体抽取项目常见问题 故障排除 私有化部署 企业智能搜索 错误码对照表 常见问题

使用OpenAPI诊断工具进行故障排查

阿里云OpenAPI平台提供使用诊断工具。本文介绍如何使用OpenAPI诊断工具进行故障排查。您可以登录 OpenAPI使用诊断,输入完整的RequestID或SDK报错信息,然后...如果诊断工具仍未能解决您的问题,您可以参考 故障排除、常见问题 获取解决方案。

监控服务概览

OpenAPI访问监控数据 OSS服务的相关监控指标数据可以通过云监控提供的OpenAPI访问,使用方法请参见:云监控SDK参考 访问监控数据 监控、诊断和故障排除 监控诊断和故障排除 通过详细介绍以下各个方面的内容帮助您更好地了解OSS服务的运行...

错误码

错误码 描述 故障排除指导 0 成功 无-1 通用错误 请根据示例Demo进行比对排查,调用逻辑是否正确。2 输入参数错误 请检查输入参数是否正确。3 输入的缓冲区大小不足 请检查输入参数缓冲区大小是否太小。4 请求数据长度过长 请检查输入参...

错误码

错误码 描述 故障排除指导 07001 认证类型参数错误 检查IotAuthType参数是否设置正确,现支持:ID2:阿里云Link ID² 07002 IoT设备服务提供方参数错误 检查IotIdSource参数是否设置正确,现支持:1:开放平台。2:物联网平台。07003 IoT...

Gmail 投递帮助

Gmail发送者指南,请参考 文档。一、投递失败的原因 一般来说,投递失败会出于以下一种或多种原因:发送邮件...6、使用故障排除工具 如果按照本文中的指南进行操作后仍然遇到邮件传送问题,请尝试 对发件人的电子邮件传送问题进行故障排除

查看和运行SMC客户端

具体操作,请参见 故障排除。说明 如果您需要停止客户端迁移或修改客户端配置,可参考以下操作步骤退出SMC客户端。Linux Linux版本客户端默认在后台运行,可执行以下命令退出后台进程:./go2aliyun_client-abort Windows Windows版本客户端...

支持计划

配置指导以及故障排除 配置指导以及故障排除 配置指导以及故障排除 专属技术服务经理 不支持 不支持 专属技术服务经理(TAM)健康检查 可免费使用智能顾问Advisor 可免费使用智能顾问Advisor 可免费使用智能顾问Advisor。专属技术服务经理...

运行Demo源码

故障排除 使用内置UI集成部分播放器Demo时,当出现下图中报错时,请根据下述步骤排除故障。打开 app/AndroidManifest.xml 文件,在 application 标签中添加如下代码。android:allowBackup="true"打开 values/themes.xml 及 values-night/...

故障排除

CC API在调用时可能会遇到一些错误,遇到错误时以错误码为依据进行故障排除,本文为您介绍 常见错误码的解决方案。云产品运行时错误码 云产品API运行时返回的错误码。以下两个错误码为云产品运行时错误,如想获取云产品详细错误信息,需...

常见问题FAQ

4.HDMI无信号 故障示意图如下:故障排除方案如下:1.见下遥控器说明,按电源键,重启魔盒。2.重复插拔HDMI线 3.重启屏幕 屏幕操作指南由屏幕供应商给出。4.屏幕的信号源切换到HDMI输入。屏幕操作指南由屏幕供应商给出。如无法排除故障:...

诊断网页加载过慢的问题

针对这类问题,ARMS前端监控的慢会话追踪功能提供页面静态资源加载的性能瀑布图,可深入定位页面资源加载情况,全方位地诊断故障根源,从而快速排除故障。问题描述 网页加载较慢是经常出现且前端非常关注的问题之一。定位、排查解决这类...

事件分析概述

链路追踪:提供事件轨迹能力,还原事件整体链路状态,帮助您快速排除故障,定位链路问题。低成本 事件总线EventBridge 支持事件以云服务事件总线和自定义事件总线形式接入,云服务事件总线支持接入所有阿里云产品事件,无缝支持云服务事件...

设计方案

容错 容错是指在分布式系统中,系统出现故障时,通过设计和实现可靠的机制和策略,使系统能够自动检测、排除或者纠正错误,保证系统能够正常运行,从而提高系统的可靠性和稳定性。容量 容量是在一定时间内,系统能够处理的最大工作量或数据...

实时分析链路数据

如果您的应用遇到流量不均、单机故障、慢接口治理、业务流量统计、灰度发布监控等问题,可以通过应用监控的调用链分析快速定位问题代码。本文介绍如何通过调用链分析快速定位五种经典线上问题,更直观地了解调用链分析的用法与价值。背景...

监控、诊断和故障排除

故障排除:提供常见的问题场景和故障排除方法。服务监控 监视总体运行状况 可用性和有效请求率 可用性和有效请求率是有关系统稳定性和用户是否正确使用系统的最重要指标,指标小于100%说明某些请求失败。可能因为一些系统优化因素出现暂时...

设备显示离线

如果是静态路由接入,尝试通过交换机,能否 ping 通设备的每个接口IP,如果其中有无法 ping 通的接口,请参见 设备和交换机之间的链路故障排除接口互联问题。如果是单机设备,观察设备机身的状态指示灯,确认右侧第二个和第三个灯是否为...

无法连接到同一个云连接网内的本地客户端

如果是静态路由接入,尝试通过交换机,能否 ping 通设备的每个接口IP,如果其中有无法 ping 通的接口,请参见 设备和交换机之间的链路故障排除接口互联问题。如果是单机设备,观察设备机身的状态指示灯,确认右侧第2和第3个灯是否为黄色...

ping不通云服务ECS(SAG-1000)

如果是静态路由接入,尝试通过交换机,能否ping通设备的每个接口IP,如果其中有无法ping通的接口,请参见 设备和交换机之间的链路故障排除接口互联问题。如果是单机设备,观察设备机身的状态指示灯,确认右侧第2和第3个灯是否有红色的。...

设置开关推送

灰度推送即分批推送,可先推送一批机器试看推送效果,防止因全量推送而引起应用故障灰度批次:指推送的批次数,范围为2至机器总数。每批的机器数为总机器数/批次数。按机器顺序推送,同一批次内推送机器并行,多批次间按顺序推送。例如有...

故障演练

故障隶属于单机或是分布式系统之一,分布故障包含单机故障。对于单机或同机型的故障,以系统为视角,故障可能是当前进程内的故障,比如:如FullGC,CPU飙高;进程外的故障,比如其他进程突然抢占了内存,导致当前系统异常等。对于大多数...

业务流量隔离功能实践

安全生产环境 区别于一般的灰度发布,安全生产环境是搭建一套与生产环境中间件隔离的环境,包含独立配套的监控告警系统,便于灰度发布、故障演练、链路压测、算法调优等,能有效优化研发流程和线上产品服务稳定性。由于中间件隔离,上游...

性能监控最佳实践

这些工具可以根据监控数据自动化地进行故障排除、性能优化等操作,提高系统的稳定性和性能。建设一体化性能监控平台需要根据监控需求选择合适的监控工具,进行配置和整合,实现数据可视化和自动化运维,以提高系统的稳定性和性能。从 0 到 ...

如何使用全链路流量控制排查应用问题

灰度分组上通过 流量监控 可查看流量的分布,判断灰度规则是否生效,以及流量的分布是否符合预期。具体操作,请参见 监控灰度流量。通过灰度流量,在应用D的灰度分组上排查问题。如果排查过程顺利,准备排查目标应用B,为应用B创建灰度...

直播公告(2020~2022年)

微服务体系在阿里巴巴内部广泛使用,历经10多年双十一考验,甚至经历多次断网、节点全挂、存储不可用等各种高危故障,由此沉淀出了许多宝贵经验,阿里云微服务引擎 MSE 生长在此基础之上,默认具备许多项高可用能力。服务发现与配置管理高...

什么是云工作流(CloudFlow)

方便您快速识别故障位置,并快速排除故障问题。支持长时间运行流程 云工作流 可以跟踪整个流程,持续长时间执行确保流程执行完成。有些流程可能要执行几个小时、几天、甚至几个月。例如运维相关的Pipeline和邮件推广流程。流程状态管理 云...

什么是Serverless工作流

方便您快速识别故障位置,并快速排除故障问题。支持长时间运行流程 Serverless 工作流 可以跟踪整个流程,持续长时间执行确保流程执行完成。有些流程可能要执行几个小时、几天、甚至几个月。例如运维相关的Pipeline和邮件推广流程。流程...

监控报警概述

实时监控提供终端用户登录云电脑的实时数据(例如用户在线数量、在线时长的前十用户、平均登录时间和云电脑网络延迟分布情况)以及相关故障预警信息,以便快速准确定位,迅速处理故障,避免因资源、网络问题或者外部操作原因造成不必要的...

全场景解决方案

针对金融行业客户在分布式架构转型过程和上云过程中的痛点,提供的产品和服务解决方案,帮助运维人员有效地整合现有工具、经验,标准化、自动化、流程化提升应急效率,以及分布式架构下全业务链路的故障定位能力。方案优势 双模应用部署 ...

什么是应用配置管理ACM?

凭借配置变更、配置推送、历史版本管理、灰度发布、配置变更审计等配置管理工具,ACM能帮助您集中管理所有应用环境中的配置,降低分布式系统中管理配置的成本,并降低因错误的配置变更造成可用性下降甚至发生故障的风险。迁移到MSE Nacos ...

设计原则

面向风险的应急快恢原则 在一些场景下,即使设计了各种技术手段去提高系统的冗余、保持业务的高可用,但还是避免不了生产系统故障的发生,所以需要面对故障建立一个高效的故障应急流程机制和稳定的技术平台,实现故障风险实时发现、应急...

关于网络分析

APM 网络分析对客户端侧的网络请求情况进行检测、分析、诊断,帮助您快速查找和排除网络故障,提升网络性能,增大网络可用性价值。在网络监控指标分析中,APM 针对不同网关类型,提供网络请求响应时长、网络请求错误率、请求次数等网络监控...

关键技术竞争力

生产运维智能化:技术风险体系保障业务连续性 TRaaS(Tech Riskdefend as a Service)技术风险防控平台,以蚂蚁内部 SRE 长期实践方法论和内部工具沉淀为依托,解决用户上云和分布式改造过程中所面临的可观测、故障应急、容灾、混沌工程、...

应用场景

服务网格 ASM主要适用于需要对应用服务进行流量管理、安全管理、故障恢复、观测监控以及微服务架构迁移的应用场景。本文介绍ASM的常见应用场景。流量管理 通过ASM,可以轻松实现基于配置的流量管理:将流量管理与基础设施管理分隔开来,并...

错误码

常见 PolarDB-X 数据节点连接失败的原因如下:后端数据节点连接数已满 计算节点到数据节点的连接超时 数据节点拒绝连接 如果排除后端数据节点问题后仍然出现该错误,请联系技术支持。PXC-4103 ERR_ATOM_CONNECTION_POOL_FULL 描述:PolarDB...

EDAS直播公告

企业级分布式应用服务EDAS 3.0重磅发布 安利的企业微服务架构转型之路 云途时代数字化转型实践 EDAS 3.0核心功能演示 2020-05-15 微服务治理实践之金丝雀发布 应用的有些故障是因为发布直接或间接引起的,因此提升发布的质量,减少错误的...

功能发布记录(2018~2022年)

优化 选择注册中心运维方式 支持为多语言应用配置故障注入 通过给应用注入特定故障,来检测该应用的消费者处理异常情况的能力。新增 已下线 支持为多语言应用配置服务超时 服务超时机制可以在请求的处理时间超过设置的时间时直接返回错误...

基于Mixerless Telemetry实现渐进式灰度发布

通过结合Flagger这一自动化发布工具,您可以实时监控Prometheus中的访问指标,精准控制灰度发布的流量比例,逐步将新版本部署至生产环境,有效降低线上故障风险,提升发布效率与用户使用体验。前提条件 已使用Prometheus采集应用监控指标。...

Nginx Ingress Controller使用建议

在部署Nginx Ingress Controller时,请确保Nginx Ingress Controller分布在不同的节点上,避免不同Nginx Ingress Controller之间资源的抢占和单点故障。您也可以为其使用独占节点来保证性能与稳定性,具体操作,请参见 使用独占节点保证...
共有136条 < 1 2 3 4 ... 136 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 云数据库Cassandra版 负载均衡 云数据库 OceanBase 版 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用