集群管理FAQ

journalctl-u kubelet 集群常见问题 下表罗列了一部分ACK集群常见的故障原因以及处理方法。故障场景 处理方法 API Server组件停止或Master组件停止:不能创建、停止、更新Pod、Service、Deployment等资源。已有的Pod和Service仍然能够正常...

使用须知

服务可用性不包括以下原因导致的不可用时间:运营商核心网异常、阿里云预先通知用户后进行的系统维护、任何阿里云以外的网络和设备异常、客户原因引起的异常等。边缘节点存在割接情况,一般割接频率不高于1次/月/节点,每次持续时间不多于6...

GTM实现跨网访问加速与故障切换

而自建流量管理系统成本高、传统GSLB采购设备至少是几十万起,构建容灾系统周期长。方案实施 前提条件 创建GTM实例,立即购买。说明 旗舰版发现故障和切换时间会更短,约1分钟左右;标准版约3分钟左右。如有高可用诉求的用户建议选择旗舰版...

当实例无法启动时扩容云盘

fdisk-lu 在查询结果中找到/dev/vd*(例如/dev/vda、/vdb和/vdc),这些块存储设备故障实例的云盘。示例以系统盘(/dev/vda1)和数据盘(/dev/vdb1、/dev/vdc1)的三个分区为例,执行结果如下所示。序号 分区 说明 ①/dev/vda1 系统盘,...

节点诊断

容器智能运维平台 构建了基于专家经验的故障诊断系统,并基于海量数据训练了AI智能故障诊断模型。基于专家经验和AI智能诊断两种诊断模式,节点诊断可以深入定位问题根因。节点诊断包括诊断检查项和诊断根因。诊断检查项:包括Node检查、...

图扑案例

面向工业物联网IIoT场景,图扑软件提供监控系统监控可视化解决方案,其产品可用于快速创建和部署,高度可定制化,并具有强大交互功能的拓扑图形及表盘图表等应用,非常适用于实时监控系统的界面呈现,广泛应用于电信网络拓扑和设备管理,...

I-V曲线诊断

数据服务中提供光伏智能运维的IV曲线诊断算法,结合环境光强度、环境温度等影响因素,对组串式光伏发电阵列的电流-电压曲线(I-V曲线)进行分析,检测系统可能出现的故障,进而提高设备的运行效率,保障电站高效运行。本文介绍光伏智能运维...

诊断项与诊断结果说明

实例健康诊断功能是一种自助诊断方式,可以对实例的计算服务状态、存储服务状态、网络服务状态、实例配置管理和实例操作系统内相关配置进行全方位的诊断,帮助您了解实例的健康情况,及时发现并解决常见的问题。本文介绍轻量应用服务器支持...

诊断项与诊断结果说明

实例健康诊断功能是一种自助诊断方式,可以对实例的系统状态、网络状态、磁盘状态等进行全方位的诊断,帮助您了解实例健康情况,及时发现并解决常见的问题。本文介绍该功能支持的诊断项,并提供了详细的诊断范围及建议操作供您参考。诊断项...

设备接入引导

当您希望将设备接入阿里云物联网平台,实现设备集中管理、收集和数据分析、远程控制、保障设备数据安全等能力时,请根据本文的设备接入流程引导,选择设备使用协议并进行云端和设备端开发。前提条件 开通 物联网平台服务。说明 免费开通后...

Pod诊断

容器智能运维平台 构建了基于专家经验的故障诊断系统,并基于海量数据训练了AI智能故障诊断模型。Pod诊断融合了基于专家经验和AI智能诊断两种诊断模式,进一步深入定位问题根因。Pod诊断包括诊断检查项和诊断根因。诊断检查项:包括Pod检查...

三网合一卡2.0使用入门

三网合一卡2.0设备插卡如何快速使用,无需移植SDK,如何通过结合设备检测和重启进行网络切换,实现网络选择和灾备。常见问题 重要 温馨提示:如测试期间遇到任何问题,可拨打售前技术支持电话4009032599。测试卡规格?每个客户在正式采购前...

附录:SOFAStack 产品目录

SOFAStack 源于自蚂蚁内部沉淀十多年的金融级分布式中间件技术体系,吸收了支付宝自创立以来在关键金融交易系统锤炼出来的架构实践。SOFAStack 所有的产品技术均经过蚂蚁集团自身严苛的金融场景验证,为金融交易技术保证风险安全的同时,...

系统运维工具集SysAK使用说明

SysAK(System Analyse Kit)是阿里云操作系统提供的一个全方位的系统运维工具集,可以覆盖系统的日常监控、线上问题诊断和系统故障修复等常见运维场景。本文为您介绍SysAK的安装部署和使用方法。运维场景 阿里云通过对百万服务器运维经验...

错误码

常见原因:业务方使用了中国联通或中国电信的数据网络、Wi-Fi。110027 能力不可用。常见原因:合同未绑定或合同余额不足,平台申请的配置未生效。130016 解码失败。常见原因:用户公私钥的生成未使用指定工具类方法。报备的用户公钥与私钥...

TCP健康检查

运营商节点 武汉市联通、大连市联通、南京市联通、天津市联通、青岛市电信、长沙市电信、西安市电信、郑州市电信、深圳市移动、大连市移动、南京市移动 重要 如果地址池的地址均为阿里云地址,且使用黑洞策略进行故障测试,监控节点请选择...

HTTP(S)健康检查

运营商节点 武汉市联通、大连市联通、南京市联通、天津市联通、青岛市电信、长沙市电信、西安市电信、郑州市电信、深圳市移动、大连市移动、南京市移动 重要 如果地址池的地址均为阿里云地址,且使用黑洞策略进行故障测试,监控节点请选择...

自主排查IPsec-VPN连接问题

如果对端网关设备支持自动选择IKE版本或者对端网关设备同时支持IKEv1和IKEv2两个版本,则建议为对端网关设备指定IKE版本,对端网关设备的IKE版本需和IPsec连接的IKE版本相同。推荐两端均使用为IKEv2版本。请排查IPsec连接及其对端网关设备...

Ping健康检查

监控节点 指执行ping监控的节点所在的地理位置,系统默认提供的监控节点如下:重要 如果地址池的地址均为阿里云地址,且使用黑洞策略进行故障测试,监控节点请选择运营商节点。(原因:黑洞是在阿里云网络和运营商网络的互联网生效的ACL...

存储资源

分布式存储:将数据分布到多个计算节点的存储设备上,采用分布式存储系统或数据分片的方式。这样可以分散磁盘IO负载,平衡数据访问压力,并利用多个计算节点的磁盘IO资源,提高系统的并发能力。数据压缩:对需要存储的数据进行压缩和存储...

块存储FAQ

所选配的设备名,在Linux操作系统下与磁盘设备号对应,在Windows操作系统下与磁盘管理器中的磁盘顺序一致。什么是独立云盘?独立云盘,即单独购买的按量付费数据盘,而不是随实例创建的数据盘。它可以在同一个可用区内的不同ECS实例之间...

运维服务内容说明

1.服务概述 阿里云运维服务(Alibaba Cloud Managed Services),基于阿里巴巴数字化运维解决方案,提供专属运维服务专家,帮助企业客户做好云上运维管理,降低运维开销和风险,提升运维效率和业务连续性,增强系统安全性和合规性,助力...

FAQs

重要 故障发现时间:GTM可保障故障发现时间,目前默认的健康检查配置可以在故障的4分钟左右准确发现故障并切换;DNS切换同步时间:GTM无法保障全网的最终生效时间,因受限于全国各地运营商的TTL缓存设置以及网络环境不同,所以全网生效时间...

DCDN节点运维下线说明

问题场景 阿里云DCDN产品在全球拥有3200+节点,覆盖70多个国家和地区,为了确保这数量庞大的DCDN节点能够正常运行,以及提供更好的加速服务,阿里云DCDN的工程师团队需要不定期对部分DCDN节点进行运维操作,例如:硬件设备升级、软件版本...

Linux系统的ECS实例中,系统日志中出现“blk_update_...

本文介绍在Linux系统的ECS实例中,/var/log/dmesg、/var/log/messages 等日志中出现“blk_update_request:I/O error XXXX”错误的原因和解决方案。问题现象 Linux系统的ECS实例中,/var/log/dmesg、/var/log/messages 等日志中出现类似如下...

事件监控

完成 节点网络割接 边缘节点定期网络设备维护,一般半夜执行,可能存在网络抖动或网络中断。计划、执行、完成 节点网络 边缘节点意料之外的网络中断。失联、恢复 事件级别 描述 CRITICAL 严重 WARN 警告 INFO 消息 事件类型 描述 Executing...

自助诊断GPU节点问题

ACK集群提供节点级别的GPU诊断功能,供您进行部分GPU相关问题的故障排查。如果您在ACK Pro版集群中使用GPU节点时遇到问题,可以启用GPU节点自助诊断,采集GPU诊断的基础指标进行问题排查。本文介绍如何使用节点诊断功能,自助排查GPU节点...

通过物理专线实现本地IDC与云上VPC互通

高级配置 系统默认为您选中三种高级功能,即 自动关联至转发路由器的默认路由表、自动传播系统路由至转发路由器的默认路由表 和 自动为VPC的所有路由表配置指向转发路由器的路由。本示例保持默认配置。在 连接网络实例 页面,单击 继续创建...

功能概览

系统提供的风险定位相关功能项如下:功能分类 功能名称 功能说明 链路追踪 全局应用拓扑 持续自动发现整个应用间调用,以及对中间件的依赖调用架构关系,绘制完整的全局拓扑,并在拓扑中展示节点和连线异常状态,帮助用户更快感知到故障...

全链路专家服务内容说明

客户应在阿里云承接服务后,提供场地、设备、必要的非生产环境及远程访问通道、权限、明确的业务目标(如生产系统异常描述、性能升级目标、数据同步需求等)等,协助阿里云开展服务。客户应审核阿里云制定的项目支持计划,以书面形式(包括...

配置设备级高可用

动态HA功能无需配置虚IP地址,系统会主动帮您探测设备状态,在主网关设备故障时,自动帮您切换流量。智能接入网关仅支持同一实例中的两台设备组建HA备份组,系统会指定默认的主设备和备设备,您可以登录智能接入网关管理控制台查看设备的...

应用场景

Node.js 提供的精确到虚拟机级别的深度监控,能够如实的反应应用运行状态,通过配置报警规则,用户可以在发现系统出现故障(内存泄露或者 CPU 热点等)趋势时,通过诊断接口迅速定位故障点。Node.js 性能平台特别适合业务发展迅速、应用...

什么是故障演练

故障演练是一款遵循混沌工程实验原理并融合了阿里巴巴内部实践的产品,提供丰富故障场景,能够帮助分布式系统提升容错性和可恢复性。流程 故障演练建立了一套标准的演练流程,包含准备阶段、执行阶段、检查阶段和恢复阶段。通过四阶段的...

转换物模型格式

完成设备创建后,需在物联网平台控制台为产品定义物模型,用于与电信AEP平台进行通信。阿里云的物模型和中国电信平台物模型的数据格式不同,需要在物联网平台中进行格式转换。本案例通过Python脚本完成转换。操作步骤 回到物联网平台的尊享...

设计方案

基于稳定性支柱设计原则,整体稳定性设计方案可参考如下:架构设计原则 软件系统从所有的功能都在一个应用程序内运行的单体应用架构,到不同的功能模块分别部署在不同的服务器上的传统分布式应用架构,再到服务细分通过轻量级的通信机制...

强弱依赖治理概述

强弱依赖治理的应用 强弱依赖治理主要可以被应用到以下场景:系统改造验收:对于分布式系统,至少在运行态中,不会因为依赖的系统后台出现故障,引起当前应用出现系统级可用性的故障,例如进程挂掉、频繁FullGC、负载飙高等,何时何地都应...

使用说明

本文介绍将业务程序与远程登录程序进行进程隔离,以保证设备故障时可以进行远程运维。背景信息 设备基于物联网平台的消息通信能力开展业务,由于不同设备业务的复杂性,以及业务需要定期变更升级,导致设备的业务程序容易出现故障,导致...

测试物联网平台与电信AEP平台下行通信

完成物模型数据格式转化后,在中国电信AEP平台自定义一个物模型属性和服务,测试接收从物联网平台设备下发的数据。操作步骤 在 中国电信AEP平台 左侧导航栏,选择 产品中心,找到并单击产品 NBProduct1,在产品页面,单击 服务定义 页签。...

设计原则

这样可以确保一台设备故障时,数据仍然可用;容灾计划:制定容灾计划,包括灾难恢复策略、应急响应流程和恢复时间目标(RTO)等。容灾计划应该经常进行测试和演练,以确保其可行性和有效性;数据备份与恢复:定期进行数据备份,并确保备份...

PTS压测快速入门

演练阶段:在演练排查阶段,您需要对系统进行故障演练,进而发现并验证系统问题,锻炼系统及相关人员的应急能力,阿里云提供了 故障演练 平台帮助您演练预案。更多信息,请参见 什么是故障演练。容灾阶段:在容灾防护阶段,您需要构建系统...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
IoT设备身份认证 物联网无线连接服务 云安全中心 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用