功能特性

设备诊断 针对设备运行数据提供的一系列运维场景智能服务,帮助您分析判断设备故障、探测设备潜在风险并及时预知业务异常。查看运维大盘 展示设备的地区热力图分布,方便您直观、快速地了解所有设备的状态。在线调试 直接从物联网平台控制...

ping不通云服务(SAG-100WM)

可能原因 终端到设备的链路故障设备到阿里云的VPN链路故障。目标ECS故障。运营商网络故障。解决方案 登录 智能接入网关控制台。单击智能接入网关实例ID,查看设备状态是否为 可用。如果离线,请参见 设备显示离线 处理。如果在线,请参见...

无法连接到同一个云连接网内的本地客户端

本文介绍SAG-1000设备无法连接到同一个云连接网内的本地客户端的原因和处理方法。问题现象 SAG-1000设备无法连接到同一个云连接网内的其他本地客户端。可能原因 终端到设备的链路故障设备到阿里云的VPN链路故障。目标PC环境的网络故障。...

ping不通云服务ECS(SAG-1000)

可能原因 终端到设备的链路故障设备到阿里云的VPN链路故障。目标ECS故障。运营商网络故障。解决方案 登录 智能接入网关控制台。单击智能接入网关实例ID,查看设备状态是否为 可用。如果离线,请参见 设备显示离线 处理。如果在线,请跳转...

演练原子操作

故障演练原子操作指最小单元的故障。在 故障演练>演练原子操作 页面中,展示了平台上可用于故障演练的原子服务。可根据原子服务状态分类...说明 仅已发布状态下的演练原子操作可引用到故障演练中的故障注入环节。已废弃的原子操作无法被引用。

故障演练

故障演练能力是ADP基于阿里云故障演练产品AHAS提供的一项能力,在线上集成环节即可对线下交付中常见的各类故障场景下产品编排的容错性、可靠性和可恢复性进行演练,保障编排稳定可靠。在进行故障演练之前,需要进行以下步骤:创建产品;...

跨可用区容灾

当生产站点因为不可抗力因素(比如机房火灾、断电)或者设备故障(软、硬件破坏)导致应用在短时间内无法恢复时,ECS容灾服务支持业务的跨可用区(Availability Zone)的容灾能力,对整体的应用做容灾备份来应对单地区的故障,满足业务的...

如何解决MSE Nacos实例域名无法解析的问题?

请 提工单 联系网络技术支持协助排查DNS服务器或NameServer故障原因。如果使用的是ACK,请 提工单 联系ACK技术支持协助排查CoreDNS故障原因。方案二:使用ping命令 使用 ping${mse.nacos.host} 指令尝试解析。如果提示 unknown host,则...

快速入门

本文以向服务器注入查询当前路径的命令为例,介绍 PelicanDT 的使用方法。安装 PelicanDT SDK 将 PelicanDT SDK 添加到项目中有两种方式:下载 SDK 源码包,并添加到您的工作目录中。在 Maven 项目的 pom.xml 文件中添加以下代码,引入 ...

Node演练场景

Kubernetes集群中Node资源故障场景,包含CPU、网络和进程等...限制节点数量 根据限制条件筛选后,最终故障注入的节点数量。默认值为0,表示不限制。基础资源类演练场景 CPU类演练场景,请参见 CPU类场景。网络类演练场景,请参见 网络类场景。

Pod演练场景

限制Pod数量 限制根据条件筛选后,最终故障注入的Pod数量(0和默认值表示不限制)。如果填写的数大于根据条件筛选的数量,则最终只展示条件筛选出的数量。网络延时场景 网络延迟场景,请参见 网络延迟。网络丢包场景,请参见 网络丢包。...

Container演练场景

Kubernetes集群中Container资源故障场景,包含容器以及容器内故障场景。每个容器故障场景下都包含通用的容器筛选参数,用于查找目标容器。通用参数 参数名称 参数说明 Pod资源名称 Pod资源名称,多个资源名称之间使用逗号分隔,表示选择多...

查询运维报表数据

NormalDeviceNum Integer 1500 正常设备数量 FaultDeviceNum Integer 12 故障设备数 HighFreqFaultDeviceNum Integer 8 频繁故障设备数量 TicketIndex Object 工单指标数据 TotalTicketNum Integer 1000 总故障数量 AutoRecoverTicketNum ...

故障管理

包括根因检查点(如故障原因、最近活动、注入方式、恢复方式等)、故障变更检查、监控检查,并需要对每一个故障明确责任人及团队;故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘后的故障都能对业务...

功能更新记录

2021年10月 功能名称 功能概述 支持资源包类型 支持地域 发布时间 微服务强弱依赖支持Dubbo 在应用强弱依赖治理的基础上,微服务强弱依赖治理功能,通过接入MSE,可分析出应用所依赖的Dubbo服务,并能够快速发起方法级别的故障注入(支持...

功能特性

故障演练 故障演练 提供了故障注入能力,通过演练平台主动触发故障,以此观测应用软件的高可用性。故障演练平台支持触发 CPU 利用率升高、内存利用率升高、内存占用、网络丢包、容器宕机、物理机宕机等常见故障,并针对故障制定出详细的...

JVM注入动态脚本

向指定的Java方法注入一段动态代码,您可通过代码方式实施任意故障场景,例如篡改方法入参、篡改方法返回值等。参数说明如下:参数名称 是否必选 默认值 参数说明 脚本类型 否 Java 动态脚本的语言类型,可选项:Java、Groovy。脚本名称 否...

开源ChaosBlade与商业化AHAS CHAOS故障演练对比

平台侧 核心能力 项目 AHAS CHAOS故障演练 ChaosBlade 基础的故障注入、应用管理等功能 支持 支持 高可用的演练服务保障 支持 不支持 演练场景参数自动识别 支持 不支持 演练流程编排(串行、并行)支持 不支持 演练流程安全防护 支持 不...

应用场景

提供了基于Istio的混沌工程能力,包括如何使用连接池配置和异常检测实现熔断能力,支持针对服务的重试和故障注入等能力。服务可观测性 通过ASM,可以轻松实现服务之间的可观测性,借助强大可靠且易于使用的监控功能,快速有效地检测和修复...

强弱依赖治理最佳实践

在对业务分析进行依赖预判后,应通过故障注入的方式验证真实依赖关系是否与预判相符,例如注入依赖的服务间的网络延迟故障。强弱依赖的验证可以有多种指标,例如监控与日志的报警,请求的返回状态码等等。本文示例预期frontend与...

共享内存通信(SMC)常见问题

解决方案1:执行 smcr d 命令,检查当前系统中是否有可用的 SMC-R(RDMA)设备,如果所需的RDMA设备为阿里云eRDMA设备,请确保该ERI设备已经在ECS控制台中添加并正确安装和配置ERI驱动。原因2:在多以太网卡环境中,连接所用的以太网卡不...

Tair选型指南

3 选择容灾方案 云原生内存数据库Tair 实例若因不可预料的原因(例如设备故障、机房断电等)发生故障,容灾机制保障数据的一致性和业务可用性。云原生内存数据库Tair 提供多种灾备方案供您选择,可满足不同的业务场景。4 预估内存规格 提前...

Mesh 常见问题

故障注入未生效 故障注入可能发生在客户端,也可能发生在服务端,通常用来注入一段时间异常或者直接注入异常。注入规则没生效时,先检查自己的注入规则是否配置正确,如客户端注入需填写客户端的应用名,服务端注入需填写服务端的应用名。...

设备和交换机之间的链路故障

本文介绍SAG-1000设备发生设备和交换机之间链路故障原因和处理方法。问题现象 设备和交换机接口之间ping不通。设备的Web端口配置页,端口前的状态灯为红色。动态路由OSPF接入时,Web端口配置页,端口前的状态灯为红色。设备的Web状态查询...

云数据库Redis版产品选型必读

选择容灾方案 当云数据库Redis实例因不可预料的原因(例如设备故障、机房断电等)发生故障,容灾机制可用于保障数据的一致性和业务可用性。云数据库Redis提供多种灾备方案供您选择,可满足不同的业务场景。选择大版本 推荐使用更新的大版本...

挂载文件系统失败故障排查

mount:can't find/root/nas in/etc/fstab 问题原因 可能是执行命令格式错误。解决方案 使用正确的挂载命令挂载NAS NFS协议文件系统。关于Linux挂载NFS协议文件系统的挂载命令参数说明,请参见 挂载命令参数说明。通用型NAS,请执行以下命令...

当实例无法启动时扩容云盘

fdisk-lu 在查询结果中找到/dev/vd*(例如/dev/vda、/vdb和/vdc),这些块存储设备故障实例的云盘。示例以系统盘(/dev/vda1)和数据盘(/dev/vdb1、/dev/vdc1)的三个分区为例,执行结果如下所示。序号 分区 说明 ①/dev/vda1 系统盘,...

挂载访问FAQ

命令格式:umount-f<挂载地址>说明 如果执行 umount-f<挂载地址>命令未解决问题,您也可以执行 umount-l<挂载地址>命令。卸载完成后,您可以重新创建挂载点,再次尝试挂载文件系统。如何避免NFS 4.0监听端口被误认为木马?问题现象 通过...

自助诊断GPU节点问题

根据 nvidia-smi 状态排查问题 nvidia-smi(NVIDIA System Management Interface)是一个监测NVIDIA GPU设备状态的命令行实用工具,可以用于管理GPU服务器性能和健康状况。您可以根据检查报告中 NVIDIASMIStatusCode 的结果,参见下表,...

开发Link Visual的功能介绍

若关闭则设备不开启所有报警事件上报,设备在状态变更及开机时主动上报 是 App和设备开发者需要关注并处理该物模型 AlarmNotifyPlan 属性 报警提醒计划 App设置和获取设备当前报警计划,定义设备何时开启报警提醒,设备在状态变更及开机时...

蓝牙Mesh设备扩展协议

本文为介绍为智能家居设备制定的蓝牙Mesh扩展消息定义,便于更多的智能家居设备通过蓝牙Mesh技术来接入生活物联网平台。自有品牌项目与天猫精灵生态项目均遵循本协议。背景信息 蓝牙技术联盟(Bluetooth SIG)定义的SIG Mesh的模型目前尚未...

常见报错及解决方案

Q:谐云组件故障排查思路 A:elasticsearch《故障排查思路》mysql《故障排查思路》redis《故障排查思路》harbor《故障排查思路》通用排查《中间件通用故障排查思路》ingress《故障排查思路》rocketmq《故障排查思路》kafka《故障排查思路》...

系统运维工具集SysAK使用说明

rs 每秒向设备发出的读取请求数 ws 每秒向设备发出的写入请求数 rsecs 每秒从设备读取的扇区数 wsecs 每秒写入设备的扇区数 rqsize 向设备发出的请求的平均大小 qusize 向设备发出的请求的平均队列长度 svctm 向设备发出的I/O请求的平均...

实例启动异常常见错误与对应解决方案

问题原因 该问题可能是因为Windows系统引导配置数据(Boot Configuration Data,BCD)配置异常或者磁盘文件系统故障,导致系统无法加载。解决方案 在存有快照的情况下,您可以使用快照来恢复系统盘。具体操作如下:警告 回滚云盘是不可逆...

节点诊断

请尝试通过命令 kubectl get apiservice,检查集群中的APIService的可用状态,并通过 kubectl describe apiservice 命令,查看状态异常的APIService并分析原因。集群Pod网段余量紧张 检查Flannel集群剩余可用PodCIDR网段是否少于5个。每个...

块存储FAQ

由于释放云盘等操作可能会导致其他云盘的设备名变动,如果在/etc/fstab 中直接使用设备名,当设备名变动时可能影响您的存储数据。如果添加了错误的信息,使用 mount-a 命令将无法挂载。解决方法如下:运行 fdisk-l 查看具体的数据盘信息。...

Pod诊断

请尝试通过命令 kubectl get apiservice,检查集群中的APIService的可用状态,并通过 kubectl describe apiservice 命令,查看状态异常的APIService并分析原因。集群Pod网段余量紧张 检查Flannel集群剩余可用PodCIDR网段是否少于5个。每个...

访问云虚拟主机中的网站速度较慢的排查方法

网站无法访问时,可参考以下故障诊断命令,定位故障点。使用 ping 命令检测IP或域名的连通性。如果出现ping丢包或ping不通的情况,请根据系统类型参见以下方案进行排查:Linux:Linux实例网站访问丢包延时高的排查方法 Windows:Windows...

更新故障复盘改进详情

problemReason":"故障原因A","recentActivity":"2","injectionMode":"1","recoveryMode":"2","discoverSource":1,"userReport":10,"monitorSourceName":"Zabbix","relationChanges":"关联变更","dutyUserId":1231,"replayDutyUserId":1213...

使用说明

本文介绍将业务程序与远程登录程序进行进程隔离,以保证设备故障时可以进行远程运维。背景信息 设备基于物联网平台的消息通信能力开展业务,由于不同设备业务的复杂性,以及业务需要定期变更升级,导致设备的业务程序容易出现故障,导致...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 物联网无线连接服务 物联网平台 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用