监控服务概览

OpenAPI访问监控数据 OSS服务的相关监控指标数据可以通过云监控提供的OpenAPI访问,使用方法请参见:云监控SDK参考 访问监控数据 监控、诊断和故障排除 监控诊断和故障排除 通过详细介绍以下各个方面的内容帮助您更好地了解OSS服务的运行...

可观测性的设计原则

通过在系统中实现分布式跟踪,可以快速定位问题并进行有效的故障排除。链路跟踪可以通过在系统中添加跟踪标识符来实现。当请求进入系统时,标识符将被添加到请求中,并在整个系统中传递。每个组件都可以将标识符添加到它们的日志中,以便在...

概述

系统容错的目标是使系统能够在面对硬件故障、软件错误、通信故障或其他异常情况时,能够继续执行,并且不会导致整个系统崩溃或数据损坏。分布式系统常按云端部署架构划分为IaaS、PaaS、SaaS,每层又都依赖计算、存储、网络资源进行构建,在...

支持计划

配置指导以及故障排除 配置指导以及故障排除 配置指导以及故障排除 专属技术服务经理 不支持 不支持 专属技术服务经理(TAM)健康检查 可免费使用智能顾问Advisor 可免费使用智能顾问Advisor 可免费使用智能顾问Advisor。专属技术服务经理...

故障排除

CC API在调用时可能会遇到一些错误,遇到错误时以错误码为依据进行故障排除,本文为您介绍 常见错误码的解决方案。云产品运行时错误码 云产品API运行时返回的错误码。以下两个错误码为云产品运行时错误,如想获取云产品详细错误信息,需...

常见问题FAQ

4.HDMI无信号 故障示意图如下:故障排除方案如下:1.见下遥控器说明,按电源键,重启魔盒。2.重复插拔HDMI线 3.重启屏幕 屏幕操作指南由屏幕供应商给出。4.屏幕的信号源切换到HDMI输入。屏幕操作指南由屏幕供应商给出。如无法排除故障:...

诊断网页加载过慢的问题

针对这类问题,ARMS前端监控的慢会话追踪功能提供页面静态资源加载的性能瀑布图,可深入定位页面资源加载情况,全方位地诊断故障根源,从而快速排除故障。问题描述 网页加载较慢是经常出现且前端非常关注的问题之一。定位、排查解决这类...

产品高可用

为了防止集群中某台机器故障导致的会话中断,您可以在业务逻辑中加入重试机制,降低对用户访问造成的影响。单CLB实例的高可用 为了向广大用户提供更稳定可靠的负载均衡服务,阿里云负载均衡已在大部分地域部署了多可用区以实现同地域下的跨...

实时分析链路数据

如果异常请求分散在多台机器,那么大概率可以排除单机故障因素,可以重点分析下游依赖服务或程序逻辑是否异常。在 调用链分析 页面筛选错误调用或慢调用,并设置按IP进行分组统计,如果异常调用集中出现在特定机器,则有较大概率是机器故障...

设计方案

基于稳定性支柱设计原则,整体稳定性设计方案可参考如下:架构设计原则 软件系统从所有的功能都在一个应用程序内运行的单体应用架构,到不同的功能模块分别部署在不同的服务器上的传统分布式应用架构,再到服务细分通过轻量级的通信机制...

安装探针概述

为您的主机等资源安装应用高可用探针后,即可使用AHAS架构感知和故障演练功能,能直观地看到应用对基础架构的依赖关系、组件间的依赖关系,以及对指定机器进行故障演练。接入 AHAS架构感知和故障演练可以接入云服务器ECS、自建Kubernetes、...

创建演练

指定IP选择:选中机器列表中的机器即可,精确指定机器执行故障注入。百分比选择:当演练对象为应用时,可使用 百分比选择 方式。滑动指针,设置1~100的百分比数值,每次执行演练时,系统会随机从所选应用分组下的存活机器中,按百分比选取...

ping不通云服务ECS(SAG-1000)

如果是静态路由接入,尝试通过交换机,能否ping通设备的每个接口IP,如果其中有无法ping通的接口,请参见 设备和交换机之间的链路故障排除接口互联问题。如果是单机设备,观察设备机身的状态指示灯,确认右侧第2和第3个灯是否有红色的。...

网络资源

网络闪断故障可能由多种原因引起,如网络设备故障、电力波动、通信线路故障等。网络闪断会导致数据传输中断,影响系统和应用程序之间的数据传输,频繁的网络闪断可能导致系统或应用程序无法正常运行。常使用的容错策略如下:设备冗余:使用...

监控、诊断和故障排除

故障排除:提供常见的问题场景和故障排除方法。服务监控 监视总体运行状况 可用性和有效请求率 可用性和有效请求率是有关系统稳定性和用户是否正确使用系统的最重要指标,指标小于100%说明某些请求失败。可能因为一些系统优化因素出现暂时...

安装故障演练探针

对指定机器进行演练时,需要在机器上面安装故障演练探针,探针的作用是下发故障演练执行命令。背景信息 一次完整的故障演练包括以下四个阶段:安装探针>创建演练>执行演练>停止演练 操作步骤 登录 AHAS控制台。在左侧导航栏选择 探针管理,...

演练概述

完整的故障演练包括以下四个阶段:安装故障演练探针 对指定机器进行演练,需要在机器上面安装故障演练探针,探针的作用是下发故障演练执行命令。创建演练 配置演练基本信息、演练对象和演练全局参数。可同时选择多个故障类型。执行演练 将...

DDH常见问题

如果您因为过保迁移等原因被分配了一台新的物理服务器,您的DDH会对应一个新的机器码,该机器码就是这台新物理服务器的唯一识别码。DDH故障时是否会自动迁移到健康的DDH?阿里云为您提供DDH故障迁移服务,开启服务后,DDH因故障停机时,会...

产品架构

图中实线表示现有的连接,图中虚线表示当机器1出现故障或进行维护时,这部分流量会走到一台可以正常运行的机器2上。因而负载均衡集群支持热升级,并且在机器故障和集群维护时最大程度对用户透明,不影响用户业务。说明 对于连接未建立(三...

异地双活切流

说明 单元(地域)间通信出现故障,将流量,主数据库全部切换到主单元(地域)。a.MSHA会自动将备单元的流量切零。b.单击 下一步,进入 容灾切换预览,在预览页,可以看到单元前后比例的对比,和 当前切流服务,如果和您预期不符,请返回 ...

故障协同处理(基于钉钉)

2.故障应急场景群:事件升级故障后,群内推出 故障处理中 消息卡片,如果满足自动生成故障场景群的需求(下文详细介绍创建故障场景群逻辑),故障场景群内同时推出 故障处理中 消息卡片。本群故障消息卡片包含按钮:签到、签到记录、应急...

什么是AI分布式训练通信优化库AIACC-ACSpeed

当线性度不高(例如小于0.8)并且排除了数据IO和CPU的本身因素影响后,可以判断此时分布式通信存在瓶颈。在该场景下使用ACSpeed进行分布式训练,可以加速分布式训练的整体性能,并且原始基线的线性度越差,ACSpeed的提升空间越大。单机内...

灾备方案

同城容灾方案★主备节点分别部署在同一地域下两个不同的可用区,当任一可用区因电力、网络等不可抗因素失去通信时,高可用HA系统将执行故障切换,确保整个实例的持续可用。跨地域容灾方案★由多个子实例构成全球分布式实例,所有子实例通过...

灾备方案介绍

同城容灾方案★主备节点分别部署在同一地域下两个不同的可用区,当任一可用区因电力、网络等不可抗因素失去通信时,高可用HA系统将执行故障切换,确保整个实例的持续可用。跨地域容灾方案★由多个子实例构成全球分布式实例,所有子实例通过...

主备方案介绍

灾备方案 说明 单可用区高可用方案 主备节点部署在同一可用区中的不同机器上,当任一节点发生故障时,由高可用HA(High Availability)系统监控主备节点的健康状态并自动执行故障切换,避免单点故障引起的服务中断。同城容灾方案 主备节点...

NVMe协议介绍

NVMe共享盘可以帮助应用实现高可用、高并发、可扩展的业务,可以帮助基于传统SAN的业务无缝上云,共享盘常见的应用场景包括数据共享、高可用故障转移、分布式缓存加速、机器模型训练等。数据共享 NVMe最简单的应用场景为数据共享,当数据被...

应用场景

常用于订单提醒、风险告知、故障提醒、配送服务、退票提醒等场景。尊敬的${mcUserName}您好,您的云通信账号余额不足,请尽快续费以免停机。语音验证码 通过调用API向指定号码发起呼叫,呼叫被应答后,播放一段含验证码内容的音频。当短信...

接入Kubernetes Go程序性能数据

另外,Go程序的性能指标涉及Go进程之间的通信,Kubernetes资源选择可能命中大量非相关进程,因此Logtail增加了一个特殊的环境变量ILOGTAIL_PROFILE_PORT,用于进一步精确指定采集目标。Go语言已内置Pprof性能数据暴露机制。在Go程序中启动...

接入Kubernetes JVM监控数据

但不同的是由于RMI涉及Java进程之间的通信,Kubernetes资源选择可能命中大量非相关进程,Logtail增加了一个特殊的环境变量 ILOGTAIL_JMX_PORT 进行进一步精确限定目标选择范围。准备工作 针对部署于Kubernetes中的Java应用,如果您要通过...

功能发布记录

全部 使用Fluid加速OSS文件访问 GitOps支持钉钉机器人通知变更 在多集群的GitOps持续交付的场景中,在应用的高可用部署、系统组件多集群分发等基础功能之上,提升了化通知服务的多样性,可使用钉钉机器人通知GitOps应用变更。全部 使用钉钉...

故障复盘

故障复盘规范 故障复盘作为故障体系中的重要一环,整体复盘流程包括故障处理过程、改进分析、故障定责,基于包含标准化的复盘SOP、对应预防action推荐、问责管理机制,全面地回溯线上故障的发生,产出故障复盘报告和改进措施,避免故障重复...

功能特性

智能语音服务 功能集 功能 功能描述 参考文档 智能语音机器人标准版 基础服务 使用智能联络中心为您提供语音通信前,需购买专属号码,调用接口通过购买的号码发送语音通信。智能外呼机器人 AI坐席 AI坐席是可自动执行外呼任务的机器人,...

接入演练应用

重要 在已部署故障演练探针的机器上,修改JVM启动参数并重启,应用会自动识别并生效,无需重新部署故障演练探针。启动应用。登录 AHAS控制台,在左侧导航栏选择 故障演练>概览。在左侧导航栏单击 探针管理,然后单击右上角的 接入探针。在 ...

同城多活架构实践

虽然故障最终得以解决,但故障导致的客户流失和企业口碑影响,对快速发展的业务造成不小的打击,迫使企业开始重视同城多活容灾能力的建设,以及定期做故障演练确保故障恢复能力的有效性。同城多活架构改造 基于MSHA多活容灾解决方案,您...

执行演练

在执行故障演练过程中,您可以实时查看演练进度、每个演练活动的运行状态及结果,同时也能够随时结束演练,进行恢复阶段的活动,清除故障演练影响。背景信息 一次完整的故障演练包括以下四个阶段:安装故障演练探针 创建演练 执行演练 停止...

使用可视化演练

全局架构视图 可视化演练的全局架构视图展示应用的机器数量、演练数量以及应用之间的调用关系等。登录 AHAS控制台,在左侧导航栏选择 故障演练>概览。在故障演练页面的左侧导航栏选择 可视化演练。界面展示可视化演练的全局架构视图。左侧...

什么是故障演练

适用场景 故障演练可适用于以下典型场景:衡量微服务的容错能力 通过模拟调用延迟、服务不可用、机器资源满载等,查看发生故障的节点或实例是否被自动隔离、下线,流量调度是否正确,预案是否有效,同时观察系统整体的QPS或RT是否受影响。...

如何排查Java场景下故障注入不生效的问题

在 执行情况 区域,单击故障执行节点,然后在右侧 机器 区域单击需要查看的机器地址。在弹出的对话框中,单击 故障注入日志 页签,查看故障执行的状态信息。若状态类型为INJECTION_FAILURE,则表示故障执行失败。您可以通过 错误 区域显示...

网络类场景

排除端口 无需注入网络延迟调用故障的端口,与本地服务端口和远程服务端口功能互斥。可以指定多个,使用逗号分隔,使用连接符表示范围。例如80,8000-8080。远端服务IP 指定演练对象访问的远端服务IP。可以通过子网掩码来指定一个网段的IP...

语音服务的审计事件

BatchRobotSmartCall 发起机器人外呼任务。BindNumberAndVoipId 绑定融合通信账号和手机号。BoundVmsVirtualNumber 调度号绑定真实号码接口。CancelCall 取消ClickToDial发起的拨号。CancelOrderRobotTask 取消还未启动的定时智能语音任务...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
短信服务 物联网无线连接服务 负载均衡 边缘网络加速 弹性公网IP 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用