故障应急协同

故障通告及更新 基于7x24监控值班工作特性,对于业务异常达到故障等级时,以用户定制的(语音、短信、IM)的方式在约定时间内将故障影响信息以及处理进展通知给对应的接收人/组,并持续更新直至故障结束。故障应急协同群 故障发生后,可以...

围绕混沌工程的平台实践

原则3在生产环境中运行实验 混沌工程推荐故障演练是在生产环境中进行,主要的原因有以下两点:系统的行为会根据环境和流量模式的变化,例如系统依赖的组件在测试环境和生产环境会有比较大的差异。系统的监控和人员的应急响应在测试环境和...

连接本地IDC

VPN网关默认包含了两个不同的网关实例形成主备双机热备,主节点故障时自动切换到备节点。VPN网关基于互联网通信,网络延迟和可用性取决于互联网。如果您对网络延迟没有特别高的需求,建议您选择VPN网关。配置详情,请参见 建立VPC到本地...

开启健康检查

开启健康检查是指对地址池中的地址配置健康检查策略,开启后可监测应用服务的可用性状态,并最终帮助企业实现自动故障隔离和自动故障切换的功效。健康检查的类型包括:Ping监控、TCP监控、HTTP(S)监控。前提条件 已完成 创建实例、创建...

为何Pod中仍存在已恢复故障的“僵尸进程”?

在K8s环境中,下发的故障已经被恢复了,但是Pod中仍存在该故障的“僵尸进程”。本文介绍该情况可能的原因以及解决方案。可能原因 这是因为容器中存在PID Namespace隔离。在容器中,故障演练进程的父进程是PID=1的进程,容器中的一号进程不...

查询网络通信距离(NCD)

PAI灵骏提供了统一的网络通信距离NCD(Network Communication Distance)查询接口,供您对GPU节点(或网卡)间的通信距离进行查询,以实现更优的任务调度,获得最佳的训练性能。本文为您介绍NCD的基本概念、使用NCD的原因以及如何使用NCD。...

应用场景

场景四:异地容灾 由于地区断电、断网等客观原因,产品可用性并不能达到 100%。当出现这些故障时,如果用户业务部署在单个地区,那么就会因为地区故障导致服务不可用,且不可用时间完全依赖故障恢复时间。通过构建灾备库,使用数据同步服务...

TCP连接超时时间配置

概述 用户的客户端调用API网关的引擎,API网关的引擎调用用户的后端服务,目前都使用的是TCP连接,关于TCP连接,一些超时时间的配置会影响到整个通信过程,配置不合理会导致不同情形的问题,甚至导致故障。本文档站在API网关的角度对API...

GetProblem-故障详情

故障详情。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求头 该接口使用公共请求头,无特殊请求头。请参见公共请求参数文档。请求语法 POST/problem/...

故障基础数据管理

故障场景等级定义 日常运营中,除用户方环境或自身操作引起的问题外,无论什么原因导致的服务中断、服务品质下降或用户服务体验下降的现象,都称为故障。对故障影响程度的划分就是故障等级定义。定义故障等级是为了指定故障等级定义作为各...

使用说明

背景信息 设备基于物联网平台的消息通信能力开展业务,由于不同设备业务的复杂性,以及业务需要定期变更升级,导致设备的业务程序容易出现故障,导致设备不可用。如果设备的业务程序与远程登录程序在同一进程,会导致设备不可使用远程登录...

Dataphin短信告警推送失败通信渠道异常

问题描述 Dataphin短信告警推送失败报错如下:通信渠道异常:isp.RAM_PERMISSION_DENY:没有访问权限 问题原因 没有购买阿里云短信服务导致的。解决方案 购买阿里云短信服务即可。适用于 Dataphin公有云独立部署3.3

设备无法上电

可能原因 未打开设备电源开关。设备电源线缆没有插牢。设备的外接电源有故障。设备的电源适配器有故障。解决方案 确认设备电源开关是否打开。确认设备电源线缆是否插牢。确认外接电源是否有故障。更换其它可以正常供电的外接电源,如果设备...

功能特性

同时,通过大规模RDMA网络部署实践,阿里云自主研发了基于端网协同的RDMA高性能网络协议和HPCC拥塞控制算法,并通过智能网卡实现了协议硬件卸载,降低了端到端网络延时,提升了网络IO吞吐能力,并有效规避和弱化了网络故障、网络黑洞等传统...

PAI灵骏智算服务概述

阿里云通过通信库ACCL实现了GPU和网卡的智能匹配、节点内外物理拓扑自动识别及拓扑感知的无拥塞通信算法,彻底消除网络拥塞,提升网络通信效率,提高分布式训练系统的扩展性。在万卡规模下,可达80%以上的线性集群能力。在百卡规模下,有效...

更新故障详情

P1 故障等级 relatedServiceId Long Body 否 123 关联服务 progressSummary String Body 否 进展摘要xxxx 进展摘要 preliminaryReason String Body 否 原因是服务宕机 初步原因 mainHandlerId Long Body 否 678 主要处理人 feedback String...

归档存储服务等级协议

阿里云将对不可用时间进行赔偿,但不包括以下原因所导致的服务不可用时间:(1)阿里云预先通知用户后进行系统维护所引起的,包括割接、维修、升级和模拟故障演练;(2)任何阿里云所属设备以外的网络、设备故障或配置调整引起的;(3)...

设置Pod故障处理策略

如果您希望尽快得到创建结果以便及时处理故障,可以修改Pod故障处理策略。配置说明 在虚拟节点上创建ECI Pod时,可能会因为库存不足等原因导致Pod创建失败,默认情况下,系统会自动进行重调度,尝试重新创建Pod。您可以通过添加 k8s.aliyun...

主备切换

若您收到短信、邮件、控制台站内信等通知,告知您 Tair 实例已完成主备切换,您可以参考本文了解主备切换的原因、影响和处理建议等。为什么会触发主备切换?实例底层主机故障 阿里云检测到实例底层主机发生故障,例如进程异常中断、实例...

主备切换

若您收到短信、邮件、控制台站内信等通知,告知您 Redis 实例已完成主备切换,您可以参考本文了解主备切换的原因、影响和处理建议等。为什么会触发主备切换?实例底层主机故障 阿里云检测到实例底层主机发生故障,例如进程异常中断、实例...

通信消息相关问题

本文介绍设备与物联网平台和物联网平台与服务器端的通信相关问题和解决方法。类目 问题 上下行消息 设备重复收到消息,如何去重?设备使用MQTT协议接入物联网平台后,接收不到通信数据,怎么办?物联网平台发送消息比较慢,存在超时情况,...

常见问题-FAQ

重要 标准版最快可在4分钟左右准确发现故障并切换 故障发现时间:GTM可保障故障发现时间,目前默认的健康检查配置可以在故障的4分钟左右准确发现故障并切换;全网生效时间:GTM无法保障全网的最终生效时间,因受限于全国各地运营商的TTL...

使用Topic通信

定义Topic后,设备可以通过Topic与物联网平台通信,从而实现设备、物联网平台、业务服务器、其他云产品之间的通信。前提条件 使用物模型Topic通信,需要先 添加物模型。使用自定义Topic通信,需要先定义产品Topic类,具体步骤请参见 使用...

FAQs

重要 故障发现时间:GTM可保障故障发现时间,目前默认的健康检查配置可以在故障的4分钟左右准确发现故障并切换;DNS切换同步时间:GTM无法保障全网的最终生效时间,因受限于全国各地运营商的TTL缓存设置以及网络环境不同,所以全网生效时间...

获取故障通知预览

UPDATE:故障更新 PROBLEM_UPGRADE:故障升级 PROBLEM_DEGRADE:故障降级 PROBLEM_RECOVER:故障恢复 PROBLEM_REISSUE:故障补发 PROBLEM_CANCEL:故障取消 problemLevel String Body 否 P2 故障等级 effectServiceIds Array of Long Body ...

以太网接口频繁Up/Down

本文介绍以太网接口频繁Up/Down的原因和处理方法。问题现象 以太网接口频繁Up/Down。可能原因 线缆没有连接好。双绞线过长、光纤超长或链路损耗太大。接口、接口模块或设备故障。解决方案 检查本端和对端设备线缆、模块是否插好。检查设备...

任务拓扑相关问题

问题原因 任务拓扑本身可以通过 CRON 表达式或者事件触发,但可以加入拓扑的任务节点必须符合以下要求:触发方式为事件触发 通信方式为 CALLBACK 任务节点为简单任务、集群任务或其它拓扑任务 解决方案 修改待加入拓扑的任务的触发方式或...

自动或手动主备切换

当主实例发生故障或不可用时(例如操作系统错误、硬件故障等),系统会自动触发主备切换,主实例和备实例将进行互换,切换后实例地址保持不变,应用程序会自动连接到新的主实例(原备实例),从而保障业务的连续性和高可用性。此外,您还...

LocalTrack

事件参数 描述 支持的最低版本"track-ended"()=>void 音频或视频轨道被终止,终止的原因可能是:摄像头被拔出-麦克风被拔出-用户主动停止了屏幕共享-用户主动关闭了底层的 MediaStreamTrack-媒体设备故障-正在使用中的媒体设备的权限被收回...

应用场景

无明显的业务量波动 某通信公司的业务支撑系统需要全天运作,业务量一段时间内无明显波动。如果现有计算资源突然出现故障,会导致业务受到影响,很难及时进行故障修复或者替换。您可以利用弹性伸缩的高可用优势,开启健康检查模式。阿里云...

简介

观星台是阿里云音视频通信为开发者提供的通信质量监测平台,分为通信监测、用量统计、质量统计和异常诊断模块,通过提供全链路的质量监控,帮助您及时发现并定位问题,可以有效的降低业务运维成本,并提高产品的使用体验。应用场景 应用...

故障演练

故障演练是整体容灾流程中极其重要的一环。本文介绍ECS容灾中故障演练的操作流程。故障演练的意义 故障演练将被容灾保护的服务器在云上拉起并验证应用正确性,是容灾流程整体中及其重要的一环,它的核心意义在于:方便地验证被容灾保护的...

故障演练

故障演练是整体容灾流程中极其重要的一环。本文介绍ECS容灾中故障演练的操作流程。故障演练的意义 故障演练将被容灾保护的服务器在云上拉起并验证应用正确性,是容灾流程整体中及其重要的一环,它的核心意义在于:方便地验证被容灾保护的...

简介

观星台是阿里云音视频通信为开发者提供的通信质量监测平台,分为通信监测、用量统计、质量统计和异常诊断模块,通过提供全链路的质量监控,帮助您及时发现并定位问题,可以有效的降低业务运维成本,并提高产品的使用体验。应用场景 应用...

通信时长

通信时长查询功能可以查询指定AppID下通信时长数据。通过阅读本文,您可以了解通信时长的查询方法。操作步骤 登录 音视频通信RTC控制台。在左侧导航栏选择 用量查询>通信时长,进入通信时长查询界面。选择待查询的AppID、区域及时间,单击 ...

以太网接口无法接通

本文介绍以太网接口没有接通的可能原因和处理方法。问题现象 以太网接口没有接通(物理上)。可能原因 设备没有连接电源或者以太网接口连接的线缆没有插好。光纤、双绞线过长或者链路损耗太大。接口、接口模块或者设备故障。解决方案 检查...

通信时长

通信时长查询功能可以查询指定AppID下通信时长数据。通过阅读本文,您可以了解通信时长的查询方法。操作步骤 登录 音视频通信RTC控制台。在左侧导航栏选择 用量查询>通信时长,进入通信时长查询界面。选择待查询的AppID、区域及时间区域,...

通信监测

通信监测功能可以查询指定AppID下全链路通话数据(包含通信质量和频道数据)。通过阅读本文,您可以了解通信监测的查询方法和通信监测作用。操作步骤 登录 音视频通信RTC控制台。在左侧导航栏选择 观星台>通信监测,进入通信监测界面。选择...

通信监测

通信监测功能可以查询指定AppID下全链路通话数据(包含通信质量和频道数据)。通过阅读本文,您可以了解通信监测的查询方法。操作步骤 登录 音视频通信RTC控制台。在左侧导航栏选择 观星台>通信监测,进入通信监测界面。选择待查询的AppID...

I-V曲线诊断

数据服务中提供光伏智能运维的IV曲线诊断算法,结合环境光强度、环境温度等影响因素,对组串式光伏发电阵列的电流-电压曲线(I-V曲线)进行分析,检测系统可能出现的故障,进而提高设备的运行效率,保障电站高效运行。本文介绍光伏智能运维...
共有186条 < 1 2 3 4 ... 186 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
短信服务 物联网无线连接服务 边缘网络加速 负载均衡 弹性公网IP 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用