EMR Kafka磁盘故障运维

磁盘故障及其运维通常伴随着磁盘上的数据销毁。在进行磁盘运维时,您应考虑数据是否需要迁移备份。对于Kafka集群,您还需要考虑Topic分区副本数据是否可以从其他Broker节点分区副本同步恢复。本文以EMR Kafka 2.4.1版本为例,介绍Kafka磁盘...

TCP连接超时时间配置

概述 用户的客户端调用API网关的引擎,API网关的引擎调用用户的后端服务,目前都使用的是TCP连接,关于TCP连接,一些超时时间的配置会影响到整个通信过程,配置不合理会导致不同情形的问题,甚至导致故障。本文档站在API网关的角度对API...

什么是AI分布式训练通信优化库AIACC-ACSpeed

当线性度不高(例如小于0.8)并且排除了数据IO和CPU的本身因素影响后,可以判断此时分布式通信存在瓶颈。在该场景下使用ACSpeed进行分布式训练,可以加速分布式训练的整体性能,并且原始基线的线性度越差,ACSpeed的提升空间越大。单机内...

应用故障自动诊断

如果发现问题,则会在应用总览页面上方闪现一个红色盾牌图标,单击该图标即可弹出故障诊断报告,故障报告上的故障定界和根因分析可以帮助您更好地发现和解决问题。常见的故障自动诊断场景 RT突增 下游业务导致的本应用的RT突增,您可以联系...

使用说明

背景信息 设备基于物联网平台的消息通信能力开展业务,由于不同设备业务的复杂性,以及业务需要定期变更升级,导致设备的业务程序容易出现故障,导致设备不可用。如果设备的业务程序与远程登录程序在同一进程,会导致设备不可使用远程登录...

什么是读写分离

主实例:不可读可 代理地址:可读可 主实例:可读可 代理地址:可读可 主实例:可读可 代理地址:可读可 自定义 大于0 主实例:可读可 代理地址:可读可 主实例:可读可 代理地址:可读可 主实例:可读可 代理地址:...

功能特性

同时,通过大规模RDMA网络部署实践,阿里云自主研发了基于端网协同的RDMA高性能网络协议和HPCC拥塞控制算法,并通过智能网卡实现了协议硬件卸载,降低了端到端网络延时,提升了网络IO吞吐能力,并有效规避和弱化了网络故障、网络黑洞等传统...

重启设备

网络故障时,重启设备可消除部分软件故障。背景信息 重启设备一般有两种方法:通过关闭或打开设备电源进行重启。通过智能接入网关控制台,远程重启设备。关闭或打开设备电源 警告 您通过关闭或打开设备电源进行重启时,请注意保存设备的...

PAI灵骏智算服务概述

阿里云通过通信库ACCL实现了GPU和网卡的智能匹配、节点内外物理拓扑自动识别及拓扑感知的无拥塞通信算法,彻底消除网络拥塞,提升网络通信效率,提高分布式训练系统的扩展性。在万卡规模下,可达80%以上的线性集群能力。在百卡规模下,有效...

故障排查

Service无法正常工作 在排除网络插件自身的问题外,最可能的是 label 配置有问题,您可以通过查看 endpoints 进行故障排查。具体操作,请参见 检查Service。如何升级集群?升级集群的Kubernetes版本,具体操作,请参见 手动升级ACK集群。从...

组复制简介

例如,5个节点的集群,3个节点收到Binlog,2个节点未收到Binlog,此时有2个节点故障:如果故障的2个节点是收到Binlog的节点,那至少还有1个节点上有数据。如果故障的2个节点是没收到Binlog的节点,那至少还有3个节点上有数据。说明 多数派...

业务连续性

比如,您可以:在应用程序中双,向当前地域的存储服务上写入数据,同时也向备地域写入数据。这么做的好处是备地域的数据和主地域几乎是一致的,但代价是写入的延迟会增大。向主地域的存储服务中写入数据后,异步地将主服务数据同步到备...

使用可视化演练

登录 AHAS控制台,在左侧导航栏选择 故障演练>概览。在故障演练页面的左侧导航栏选择 可视化演练。界面展示可视化演练的全局架构视图。左侧显示所有应用列表。列出了应用的机器数量和演练数量,并支持按名称搜索。您可通过应用名称来搜索...

使用Topic通信

定义Topic后,设备可以通过Topic与物联网平台通信,从而实现设备、物联网平台、业务服务器、其他云产品之间的通信。前提条件 使用物模型Topic通信,需要先 添加物模型。使用自定义Topic通信,需要先定义产品Topic类,具体步骤请参见 使用...

DDH常见问题

阿里云为您提供DDH故障迁移服务,开启服务后,DDH因故障停机时,会自动迁移至健康的DDH。更多信息,请参见 修改DDH故障迁移配置。购买DDH时怎么选择云盘和公网带宽?创建DDH的时候不需要选择云盘和公网带宽,在DDH上创建ECS实例的时候才...

云盒故障服务器维修流程

本文介绍当云盒内的服务器出现故障时,阿里云如何进行更换和...阿里云工厂数据擦除 故障服务器到达阿里云工厂后,由专业人员对服务器硬盘进行拆除,放入阿里云专用数据擦除服务器,通过数据的方式进行数据擦除,并保留完整的数据擦除日志。

采集客户端数据的高可用方案

本文介绍日志服务从客户端采集数据的两个高可用方案,包括双方案和数据加工复制+写入切换方案。背景 在单集群环境下,日志服务存储采用三副本机制来保证数据的可靠性,即每份数据都有3个副本,副本按照一定的分布式存储算法保存在集群的...

流水单据型业务场景多活实践

在 读多少型业务场景多活实践 中,已经将导购链路进行了异地多读改造,而该业务后续在一次大促期间,遭遇了一次订单应用大面积故障,导致大促期间下单业务长时间无法使用,于是下单业务的容灾建设也提上了议程。下单业务是典型的流水单据...

消息轨迹

您可根据TraceID或MessageId,追踪任意一条消息在物联网平台流转的全路径,还可根据出现的故障节点快速分析、定位问题。本文介绍查看消息轨迹的操作步骤。限制说明 仅中国地域的企业版实例和新版公共实例,支持使用消息轨迹功能。操作步骤 ...

以太网接口频繁Up/Down

说明 10/100/1000M接口采用RJ45连接器,接口线缆为5类或5类以上双绞线,最大传输距离100m。如果线缆长度大于100m可以采用如下方式:缩短设备间距离,以缩短双绞线长度。如果不能改变设备间的距离,设备之间可以通过中继器、HUB或交换机...

回切至本地VMware

背景信息 目前阿里云的混合云容灾服务对本地的数据中心做保护,并实现在本地虚拟机出现故障的时候以秒级RPO、分钟级RTO在阿里云ECS上进行恢复。但是对于完整的容灾场景,还要求在本地虚拟机出现问题后,将云上恢复出来的ECS回切到云下...

故障演练

故障演练是整体容灾流程中极其重要的一环。本文介绍ECS容灾中故障演练的操作流程。故障演练的意义 故障演练将被容灾保护的服务器在云上拉起并验证应用正确性,是容灾流程整体中及其重要的一环,它的核心意义在于:方便地验证被容灾保护的...

故障演练

故障演练是整体容灾流程中极其重要的一环。本文介绍ECS容灾中故障演练的操作流程。故障演练的意义 故障演练将被容灾保护的服务器在云上拉起并验证应用正确性,是容灾流程整体中及其重要的一环,它的核心意义在于:方便地验证被容灾保护的...

网络规划

您可以根据以下两点规划交换机:使用一个VPC时,也请尽量使用至少两个交换机,并且将两个交换机分布在不同可用区,这样当其中一个可用区的交换机发生故障时,可以切换到另一个可用区的交换机,从而实现跨可用区容灾。同一地域不同可用区...

一机一密

根据实际业务需求,完成设备端SDK开发,例如设备物模型Topic通信、设备自定义Topic通信、OTA升级、设备影子等功能开发。设备端开发,请参见 下载设备端SDK。在产线上,将已开发完成的设备SDK烧录至设备中。设备联网认证:设备上联网后,...

副本集架构

隐藏节点(Hidden节点)通过操作日志(oplog)同步主节点的数据,可在从节点故障时接替该故障节点成为新的从节点,也可在只读节点故障时接替该故障节点成为新的只读节点,保障高可用。隐藏节点仅用作高可用,对客户端不可见。隐藏节点不在...

应用场景

高速通道 适用于本地数据中心IDC(Internet Data Center)与云上 专有网络 VPC 建立可靠、安全和高速的私网通信场景。高速通道提供多种上云服务,您可以根据业务场景进行选择,轻松构建跨架构的融合网络。场景一:面向大中型企业的多地容灾...

数据库代理常见问题

数据库代理地址:可根据用户的SQL请求,自动判断读请求或请求,并分发到主实例或只读实例,实现读写分离,减轻主实例的压力。开通数据库代理后,实例原来的地址是否会被收回?不会收回。数据库代理是什么架构,有故障切换机制吗?数据库...

主从实例读写分离部署(共享存储)

Hologres 从V1.1版本开始,针对线上生产环境高可用的场景,提供了共享存储的主从多实例部署方式,在该模式下支持故障隔离,负载隔离,有效支撑了高可用场景。本文介绍高可用方案的一些基本原理以及如何配置共享存储的主从多实例。单实例...

范围类型

还有,要一个是空字符串的界限值,则可以成"",因为什么都不表示一个无限界限。范围值前后允许有空格,但是圆括号或方括号之间的任何空格会被当做上下界值的一部分(取决于元素类型,它可能是也可能不是有意义的)。重要 这些规则与...

混合云解决方案

利用SQL Server复制技术实现数据的同步,其典型应用场景就是数据在本地,读数据在RDS SQL Server。方案架构 方案解析 整体结构 这是SQL Server典型的2+3高可用和高扩展解决方案,主备使用镜像完成数据库同步,以提供故障转移。分发单独...

概述

故障剔除:目前支持 bolt 协议。它会自动监控 RPC 调用的情况。协议支持 SOFARPC 支持不同的通讯协议,目前主要包括:BOLT:是蚂蚁集团开放的,基于 Netty 开发的网络通信框架。RESTful:基于 HTTP 一种设计框架。Dubbo:开源分布式服务...

跨可用区容灾

当生产站点因为不可抗力因素(比如机房火灾、断电)或者设备故障(软、硬件破坏)导致应用在短时间内无法恢复时,ECS容灾服务支持业务的跨可用区(Availability Zone)的容灾能力,对整体的应用做容灾备份来应对单地区的故障,满足业务的...

开源MQTT托管设备认证

设备上联网后,携带设备认证信息向物联网平台发起认证请求。设备激活上线。物联网平台校验设备认证信息通过后,与设备建立连接,设备便可通过自定义的消息Topic与物联网平台进行通信通信原理与云网关设备通信原理相同,请参见 消息通信...

步骤五:应用容灾

当被保护的服务器完成阿里云复制服务(AReS)安装并重启后,您就可以对受保护的服务器启动、停止容灾复制、故障切换、容灾演练等一系列的应用容灾操作。前提条件 已安装阿里云复制服务。更多信息,请参见 步骤四:安装阿里云复制服务。操作...

功能特性

监控专有宿主机 存储性能指标 可以查看DDH上所有ECS实例磁盘的读/IOPS之和、读/BPS之和。监控专有宿主机 网络性能指标 可以查看DDH上所有ECS实例的出、入方向网络每秒收包数之和及其出、入方向网络每秒带宽之和。监控专有宿主机 运维 ...

跨地域容灾

容灾系统部署在阿里云的两个地域中,当生产站点发生故障(例如海啸、地震)时,业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域,提供容灾即服务,RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障,有效避免了地域性...

产品优势

本文介绍Link WAN网管核心与自建核心能力间的差异以及D2D通信技术。能力差异 能力 Link WAN(LoRaWAN)其他LoRa平台 LoRaWAN国际标准 遵循LoRaWAN国际标准协议。标准纷乱,彼此互不相通,系统维护成本高。技术 阿里云自主迭代,跟随联盟...

跨可用区容灾

当生产站点因为不可抗力因素(比如机房火灾、断电)或者设备故障(软、硬件破坏)导致应用在短时间内无法恢复时,ECS容灾服务支持业务的跨可用区(Availability Zone)的容灾能力,对整体的应用做容灾备份来应对单地区的故障,满足业务的...

跨地域容灾

容灾系统部署在阿里云的两个地域中,当生产站点发生故障(例如海啸、地震)时,业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域,提供容灾即服务,RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障,有效避免了地域性...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
物联网无线连接服务 短信服务 边缘网络加速 负载均衡 弹性公网IP 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用