采集客户端数据的高可用方案

因此对于单硬件设备故障风险,日志服务天然具备了可用性特征。但是在一些相对极端的场景下,单集群可能由于一些预期外原因存在故障停服风险。针对该单集群故障风险,日志服务提供两种异地多活的客户端数据采集方案。方案比较 对比项 方案1...

名词解释

例如,某项任务完成的信息,或者设备发生故障或告警时的温度等,事件可以被订阅和推送。设备影子 是一个JSON文档,用于存储设备或者应用的当前状态信息。每个设备都会在云端有唯一的设备影子。无论该设备是否连接到Internet,您都可以使用...

Redis客户端重连指南

引发暂时性故障原因 原因 说明 故障触发了高可用机制 云数据库Redis支持节点健康状态监测,当监测到实例中的主节点不可用时,会自动触发主备切换,例如将主节点和从节点进行互换,保障实例的高可用性。此时,客户端可能会遇到下列暂时性...

电源故障定位

将有故障的电源适配器放到其它正常的设备中观察,或从其它设备中拿正常的电源适配器来交叉验证,识别故障。若交叉验证之后,故障跟随电源适配器,则将该电源适配器返修。若交叉验证之后,故障跟随设备,则请提交工单。icmsDocProps={'...

DeviceWanLinkDown

DeviceWanLinkDown事件提示您设备WAN链路发生故障。告警信息 事件名称 事件级别 状态码 状态描述 DeviceWanLinkDown CRITICAL down Wan Link Down 可能原因 WAN链路出现故障。处理方法 请提交工单,联系阿里云工程师。icmsDocProps={'...

新功能发布记录

2023-06-30 云盒计算资源配置最佳实践 维修事件 云盒中的硬件设备发生故障需要更换时,阿里云会向您发送云盒维修事件通知,您需要授权同意阿里云上门更换并维修硬件设备。2023-06-30 响应云盒维修事件 新增地域 新增以下两个地域:华东2...

光模块故障

本文介绍光模块发生故障原因和处理方法。问题现象 光模块连接后,接口指示灯没有变为绿色。可能原因 光模块不兼容或损坏。智能接入网关设备支持的光模块型号请参见 光模块型号。说明 目前仅SAG-1000设备支持光模块插入。解决方案 通用多...

基本概念

测试设备 生活物联网平台提供的虚拟测试设备,是指产品开发过程中,用于设备调试的虚拟设备,测试设备包含设备证书(ProductKey、DeviceName和DeviceSecret)。每个产品仅提供50个测试设备,且不能作为量产设备使用。设备激活码 设备激活码...

EasyCkpt:AI大模型高性能状态保存恢复

功能介绍 针对频繁故障的情况,PAI通过之前的故障失败场景总结出以下GPU和深度学习场景故障的功能特点:特点1:任务的故障是部分的。通常,故障的根因是一到两台机器的故障,这只会影响部分Worker。对于大规模分布式训练任务而言,不会所有...

基本概念

例如,某项任务完成的信息,或者设备发生故障或告警时的温度等,事件可以被订阅和推送。数据解析脚本 针对采用透传格式/自定义数据格式的设备,需要在云端编写数据解析脚本,将设备上报的二进制数据或自定义的JSON数据,转换为物联网平台...

服务协议

(2)任何阿里云所属设备以外的网络、设备故障或配置调整引起的;(3)客户的应用程序受到黑客攻击而引起的;(4)客户维护不当或保密不当致使数据、口令、密码等丢失或泄漏所引起的;(5)客户的疏忽或由客户授权的操作所引起的;(6)...

AccessGatewayFailover

AccessGatewayFailover事件提示您智能接入网关设备主IPsec链路发生故障。告警信息 事件名称 事件级别 状态码 状态描述 AccessGatewayFailover INFO agwfailover Access Gateway Failover 可能原因 IPsec链路网络故障。处理方法 无需处理。...

服务等级说明

(2)任何阿里云所属设备以外的网络、设备故障或配置调整引起的;(3)客户的应用程序或数据信息受到黑客攻击而引起的;(4)客户维护不当或保密不当致使数据、口令、密码等丢失或泄漏所引起的;(5)客户的疏忽或由客户授权的操作所引起的...

事件上报

故障设备上报运行过程中出现的故障。输出参数 语料推送标识:需与 服务调用 中输入参数的 任务标识 保持一致,用于向物联网平台反馈本次事件上报是针对具体哪一次语料推送服务调用。语料更新结果:反馈语料推送的结果:0:语料推送成功。...

SLA服务等级协议

(2)任何阿里云所属设备以外的网络、设备故障或配置调整引起的;(3)客户的应用程序或数据信息受到黑客攻击而引起的;(4)客户维护不当或保密不当致使数据、口令、密码等丢失或泄漏所引起的;(5)客户的疏忽或由客户授权的操作所引起的...

故障管理

相关设备故障:包括UPS失效引起的电力中断。自然灾害,包括洪水、火灾、地震。这里以阿里集团为例。为降低故障的影响,阿里集团故障管理体系从整体体系化治理的角度出发,将影响真实业务的场景定义、发现和应急能力以及后续治理都纳入故障...

服务等级协议

(2)任何阿里云所属设备以外的网络、设备故障或配置调整引起的;(3)客户的应用程序或数据信息受到黑客攻击而引起的;(4)客户维护不当或保密不当致使数据、口令、密码等丢失或泄露所引起的;(5)客户的疏忽或由客户授权的操作所引起的...

服务等级协议

(2)任何阿里云所属设备以外的网络、设备故障或配置调整引起的;(3)用户的应用程序或数据信息受到黑客攻击而引起的;(4)用户维护不当或保密不当致使数据、口令、密码等丢失或泄漏所引起的;(5)用户的疏忽或由用户授权的操作所引起的...

AIOps 解决方案专家服务内容说明

基于业务数据、资源组维度建立业务组单元,将业务组单元指标通过智能AI算法进行实时分析,帮助企业快速发现故障,列出可疑根因事件,并根据故障定位算法,给出可疑程度排序。根据智能AI算法和阿里多年积累的AIOps经验,在故障发生后,提供...

OTA固件升级

说明 由于设备端存在的差异化,即使固件验证升级成功,也无法完全体现设备升级后各项功能是否正常可用,建议您在设备固件升级后自行检查设备是否正常使用,避免批量升级后引起大批量的设备故障。选择要进行批量升级的固件,单击 操作 中的 ...

共享内存通信(SMC)常见问题

解决方案1:执行 smcr d 命令,检查当前系统中是否有可用的 SMC-R(RDMA)设备,如果所需的RDMA设备为阿里云eRDMA设备,请确保该ERI设备已经在ECS控制台中添加并正确安装和配置ERI驱动。原因2:在多以太网卡环境中,连接所用的以太网卡不...

基于MQTT协议的设备动态注册

设备先基于TLS建立与物联网平台的连接,获取MQTT连接所需的设备证书,再断开连接,然后使用设备证书重新建立MQTT连接进行通信。本文介绍设备的动态注册流程。前提条件 一型一密认证支持两种使用方式:一型一密免预注册、一型一密预注册,...

设备本地日志

您可以在物联网平台控制台日志服务页,查询设备本地日志,进行故障分析。前提条件 设备已使用Android SDK或C SDK开发完成,并上报日志。具体操作,请参见 设备日志上报。如果设备通过SDK开发实现了日志上报开关功能,则需要在 设备管理>...

配置算法实例

算法实例是根据算法模板创建的具体实例,可以根据您设置的检测参数结合算法模型,完成对相关数据中异常信息的检测及诊断,协助您更好地解读设备数据,监测设备运行状态,及时发现潜在故障。前提条件 已创建算法实例。具体操作,请参见 创建...

Quick BI饼图排序乱序

问题描述 Quick BI饼图排序乱序。问题原因 在字段配置中对维度字段也进行了排序,导致排序乱序。解决方案 取消维度字段排序即可。适用于 Quick BI 公共云:4.2.1

QueryDeviceEventData

调用接口QueryDeviceEventData查询指定设备的事件记录。使用说明 标准型和尊享型企业版实例:仅可查询存储时效内的数据。数据存储时效,请参见 存储配置。其他实例:仅可查询最近30天内的属性数据。QPS限制 单个阿里云账号调用该接口的每秒...

Quick BI电子表格给两个字段同时排序后只有最后一个...

问题描述 Quick BI电子表格给两个字段同时排序后只有最后一个排序生效是什么原因,如何设置两个字段排序都生效?问题原因 目前全局排序时,只会按最后一个设置的字段排序生效。可以全局排序与组内排序同时使用让两个字段排序均生效。解决...

MapReduce常见问题

FAILED:ODPS-0123144:Fuxi job failed-WorkerRestar 产生原因:出现上述报错,是因为集群的备节点在计算的过程中出现超时的情况,导致主节点认为备节点故障,所以报错。超时10分钟,即会报错,暂时不支持用户自行配置。解决措施 这个报错...

如何管理故障

可对故障根因进行原因检查并结构化录入,检查点包括:故障原因、最近活动、注入方式、恢复方式等;关联故障期间的故障变更,新增故障改进措施等操作。故障状态 处理中:处理中仍未恢复的故障;已恢复:故障对处理中的故障做 恢复 操作后是...

I-V曲线诊断

数据服务中提供光伏智能运维的IV曲线诊断算法,结合环境光强度、环境温度等影响因素,对组串式光伏发电阵列的电流-电压曲线(I-V曲线)进行分析,检测系统可能出现的故障,进而提高设备的运行效率,保障电站高效运行。本文介绍光伏智能运维...

Quick BI排行榜排序不生效什么原因

问题描述 Quick BI排行榜排序不生效什么原因。问题原因 用户的排行榜有添加查询控件,查询控件配置了多选,并且配置了默认查询值,勾选了按照添加顺序排序的选项,因此排行榜的排序以添加的字段顺序为准。解决方案 编辑查询控件,取消勾选...

运维服务内容说明

因客户自身原因导致的问题故障,不属于阿里云运维服务范围。如客户有不定期现场服务需求,可按天购买运维专家现场服务。运维服务专家可帮助客户进行疑难问题现场处理,故障现场救援,变更现场保障、现场运维培训等服务。运维专家现场服务需...

单笔数据 Top

背景信息 单笔数据 Top 是通过对单条日志的数值维度进行排序,查看最高 N 个单笔业务,如统计耗时前 10 的单笔订单。更多监控类别应用场景,请参见 监控类型概述。配置自定义监控主要包括如下的步骤:选择监控产品 填写基本信息 配置日志...

自助诊断GPU节点问题

ACK集群提供节点级别的GPU诊断功能,供您进行部分GPU相关问题的故障排查。如果您在ACK Pro版集群中使用GPU节点时遇到问题,可以启用GPU节点自助诊断,采集GPU诊断的基础指标进行问题排查。本文介绍如何使用节点诊断功能,自助排查GPU节点...

远程登录

设备在业务故障导致无法在控制台开启远程登录进行设备运维,设备可以定时主动请求最新的隧道登录信息,将隧道功能运行在独立进程中,保证当业务故障时隧道仍在运行,可以远程登录运维。步骤3:处理隧道信息 处理隧道信息回调函数,创建...

功能概述

数据库发生故障后,无法在发生故障时定位到原因,可以通过智能压测功能,在克隆库上复现故障场景,定位故障原因。功能架构 智能压测的功能架构如下图所示:源数据库:将要进行大促、将要业务变更或者已经发生故障,需要进行流量捕获的数据...

数据探索函数

集群中额外添加了一个设备,用于收集和分析集群中的其他设备信息,现需要将这个设备的信息单独提取出来。考虑到统计设备的功耗与集群设备数量增长带来的功耗增长是加性关系,因此我们采用加性模型对用电数据进行分解。可以看到集群的用电量...

GxP欧盟附录11标准合规包

16.1 为了提供支持关键过程的计算机化系统,应作出规定,确保在系统出现故障(例如手动或替代系统)时继续为这些流程提供支持。采用替代安排所需的时间应视风险而定,并适合特定系统及其所支持的业务流程。应充分记录和测试这些安排。17.1 ...

冷备操作手册

二 使用限制 替换机型限制 替换机器型号相同,新机器和被替换机器底座版本均为2.1x版本及以上(版本查看方案参考《实施手册》)应用版本限制 协议"门禁设备官方协议"版本要求:2.10.0版本及以上(升级参考6.1 协议版本升级,如故障前未升级...

产品简介

安全、稳定、高鲁棒性 服务稳定运行,并以在线工单等方式提供技术支持,具备完善的故障监控、自动告警、快速定位等一系列故障应急响应机制。基于阿里云的AccessKeyId和AccessKeySecret安全加密对,从访问接口上进行权限控制和隔离,保证...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 物联网无线连接服务 智能开放搜索 OpenSearch 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用