可用区断网 当整个机房的外部网络出现中断后,外部请求无法进入故障机房,机房内业务同样无法访问外部网络,但机房内网络互通,形成一个局部环境。可用区断网正是为了模拟此类真实故障而提供的机房级故障模拟能力。可用区断网方式采用租户...
阿里云通过通信库ACCL实现了GPU和网卡的智能匹配、节点内外物理拓扑自动识别及拓扑感知的无拥塞通信算法,彻底消除网络拥塞,提升网络通信效率,提高分布式训练系统的扩展性。在万卡规模下,可达80%以上的线性集群能力。在百卡规模下,有效...
本文介绍光模块发生故障的原因和处理方法。问题现象 光模块连接后,接口指示灯没有变为绿色。可能原因 光模块不兼容或损坏。智能接入网关设备支持的光模块型号请参见 光模块型号。说明 目前仅SAG-1000设备支持光模块插入。解决方案 通用多...
系统容错的目标是使系统能够在面对硬件故障、软件错误、通信故障或其他异常情况时,能够继续执行,并且不会导致整个系统崩溃或数据损坏。分布式系统常按云端部署架构划分为IaaS、PaaS、SaaS,每层又都依赖计算、存储、网络资源进行构建,在...
本文介绍SAG-1000设备发生设备和交换机之间链路故障的原因和处理方法。问题现象 设备和交换机接口之间ping不通。设备的Web端口配置页,端口前的状态灯为红色。动态路由OSPF接入时,Web端口配置页,端口前的状态灯为红色。设备的Web状态查询...
若网络通信异常,建议您检查网络ACL、安全组、云防火墙、以及服务器内的iptables或主机防火墙的相关策略是否阻拦【可能原因二】堡垒机的相关配置影响 包含资产管理的主机信息(基本信息、服务端口、主机账户),运维规则(基本信息、资产/...
场景二:故障>云间网络故障,会自动选中 切流组件。说明 单元(地域)间通信出现故障,将流量,主数据库全部切换到主单元(地域)。a.MSHA会自动将备单元的流量切零。b.单击 下一步,进入 容灾切换预览,在预览页,可以看到单元前后比例的...
可能原因 终端到设备的链路故障。设备到阿里云的VPN链路故障。目标PC环境的网络故障。运营商网络故障。解决方案 登录 智能接入网关控制台。单击智能接入网关实例ID,查看当前设备状态是否为 可用。如果离线,请参见 设备显示离线 处理。...
当生产站点因为不可抗力因素(比如机房火灾、断电)或者设备故障(软、硬件破坏)导致应用在短时间内无法恢复时,ECS容灾服务支持业务的跨可用区(Availability Zone)的容灾能力,对整体的应用做容灾备份来应对单地区的故障,满足业务的...
当您需要将本地数据中心的资源扩展到云上专有网络VPC时,您可以通过阿里云的VPN网关、高速通道物理专线或智能接入网关等多款网络产品,帮助您构建一个安全可靠的混合云环境。概述 您可以在本地数据中心和阿里云专有网络间建立私网通信,...
容灾系统部署在阿里云的两个地域中,当生产站点发生故障(例如海啸、地震)时,业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域,提供容灾即服务,RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障,有效避免了地域性...
场景三:故障>云间网络故障,会自动选中 切流组件。说明 单元(地域)间通信出现故障,将流量,主数据库全部切换到主单元(地域)。a.MSHA会自动将备单元的流量切0,主数据在备单元的也会自动选中,后续会切换单主单元。b.单击 下一步,...
您可以通过 高速通道 物理专线实现本地IDC连接阿里云,打通云上 专有网络 VPC(Virtual Private Cloud)和本地IDC的网络,并可以通过本地IDC的一台服务器访问云上 专有网络 VPC 的一台 云服务器 ECS(Elastic Compute Service)。...
RTC SDK 提供了网络质量监控的功能,您可以在网络状况变化时通过回调获取网络质量,设置对应的音视频规格,以确保基础通信体验。通过阅读本文,您可以了解获取网络质量及设置音视频规格的方法。功能简介 在网络质量不理想的情况下,音视频...
2.故障应急场景群:事件升级故障后,群内推出 故障处理中 消息卡片,如果满足自动生成故障场景群的需求(下文详细介绍创建故障场景群逻辑),故障场景群内同时推出 故障处理中 消息卡片。本群故障消息卡片包含按钮:签到、签到记录、应急...
阿里云通过通信库ACCL实现了GPU和网卡的智能匹配、节点内外物理拓扑自动识别及拓扑感知的无拥塞通信算法,彻底消除网络拥塞,提升网络通信效率,提高分布式训练系统的扩展性。在万卡规模下,可达80%以上的线性集群能力。在百卡规模下,有效...
RTC SDK为您提供了网络质量监控的功能,您可以通过网络状况变化时回调获取网络质量,设置对应的音视频规格,以确保基础通信体验。通过阅读本文,您可以了解获取网络质量及设置音视频规格的方法。功能简介 在网络质量不理想的情况下,音视频...
RTC SDK为您提供了网络质量监控的功能,您可以通过网络状况变化时回调获取网络质量,设置对应的音视频规格,以确保基础通信体验。通过阅读本文,您可以了解获取网络质量及设置音视频规格的方法。功能简介 在网络质量不理想的情况下,音视频...
网络层 在网络层,ACSpeed通过对阿里云的VPC、RDMA或者eRDMA网络基础设施进行适配优化,实现网络层无感的通信优化。AIACC-ACSpeed使用说明 当使用ACSpeed启动训练出现 AIACC-2.0 ACSpeed c10d-plugin init 字段Log时,表示已成功初始化...
协议支持 SOFARPC 支持不同的通讯协议,目前主要包括:BOLT:是蚂蚁集团开放的,基于 Netty 开发的网络通信框架。RESTful:基于 HTTP 一种设计框架。Dubbo:开源分布式服务框架 H2C:开放的网络通信框架。实现原理 SOFARPC 中的远程调用是...
阿里云托管版容器服务ACK集群,支持自研的Terway网络插件,该插件可以有效减少因容器而引入的网络性能下降,可以基本达到服务器之间直接通信的网络性能。本最佳实践主要是一个性能测试方面的实践,指导客户进行POC测试等。解决问题 Pod之间...
故障原因 可能是网卡驱动未开启或网卡配置有问题。解决方法 使用管理终端 登录实例,检查网卡驱动,如果存在异常,则重新安装。步骤三:检查重置实例密码后是否未重启实例 确认是否存在故障现象,如果存在,则参考本步骤解决问题,如果不...
可能原因 终端到设备的链路故障。设备到阿里云的VPN链路故障。目标ECS故障。运营商网络故障。解决方案 登录 智能接入网关控制台。单击智能接入网关实例ID,查看设备状态是否为 可用。如果离线,请参见 设备显示离线 处理。如果在线,请参见...
容器服务平台提供网络诊断功能,帮助您诊断网络常见问题,例如Pod之间不通、集群到公网访问不通、公网到LoadBalancer不通。本文介绍网络诊断的基本原理、使用方式、以及如何针对常见网络不通的场景定位网络问题和使用网络诊断。重要 使用...
可能原因 终端到设备的链路故障。设备到阿里云的VPN链路故障。目标ECS故障。运营商网络故障。解决方案 登录 智能接入网关控制台。单击智能接入网关实例ID,查看设备状态是否为 可用。如果离线,请参见 设备显示离线 处理。如果在线,请跳转...
问题原因 专有网络 VPC下没有和数据库相同可用区的虚拟交换机。解决方案 在切换网络时,如果无法选择虚拟交换机,可以在VPC下创建一个和数据库同一可用区的虚拟交换机,然后再切换数据库的网络即可。创建虚拟交换机步骤参见 管理交换机。...
慢加载详情 页面顶部的 页面信息 区域展示了本次访问的客户端IP地址、浏览器、操作系统等信息,帮助您确认故障原因。慢加载详情 页面的 页面资源加载瀑布图 区域展示了页面静态资源加载的瀑布图,帮助您快速定位资源加载的性能瓶颈。慢加载...
安全组的原因 自建SNAT策略的网关是通过ECS搭建,所有客户端ECS的请求会到达该网关ECS上,所以要保证客户端ECS和网关ECS之间网络通信正常。因此在ECS层面,如果不在同个安全组下,需要安全组之间互相打通。SNAT网关上iptables的FORWARD链的...
在EDAS中进入应用总览页面时,会按照您自定义的时间段对该应用的运行情况做一个自动诊断。...数据支持:这一部分包含了得到推测结论的数据支持,不同故障原因的诊断报告中包含的分析数据将不一样。图 1.故障诊断报告示例图-RT诊断
高时效性:借助 SOFABolt 通信框架,实现基于 TCP 长连接的节点判活与推模式的变更推送,服务上下线通知时效性在秒级以内。高可用性:不同于 Zookeeper、Consul、etcd 等 CP(CAP 理论中的 CP,强调一致性)架构注册中心产品,SOFARegistry...
ACK集群异常 添加Kubernetes集群节点的常见问题 容器镜像仓库构建服务失败问题排查 容器镜像服务源码绑定失败问题排查 Kubernetes集群如何指定安全组 Kubernetes集群网络异常的排查方法 容器服务ACK应用故障排查 如何升级集群?排查故障的...
选择创建演练环境的方式 创建方式 适用场景 优点 缺点 自动创建并启动 适用于业务比较独立,不需公网或者和其他网络通信的配置即可验证业务的场景。说明 例如提供内部业务的ECS应用,业务不涉及配置负载均衡SLB、域名、安全组(开放端口)...
选择创建演练环境的方式 创建方式 适用场景 优点 缺点 自动创建并启动 适用于业务比较独立,不需公网或者和其他网络通信的配置即可验证业务的场景。说明 例如提供内部业务的ECS应用,业务不涉及配置负载均衡SLB、域名、安全组(开放端口)...
背景信息 什么是组播 组播是一种网络通信模式,通常应用于一个服务器同时向一组客户端(点对多点)发送相同数据报文的网络通信场景。例如在线直播、视频会议、金融交易行情数据同步、远程教育和网络电视等。组播的优势 在点对多点的网络...
(原因:黑洞是在阿里云网络和运营商网络的互联网生效的ACL策略,但阿里云IP之间的流量基本上是在云网络内部流动,降低探测效果。监控节点列表参考 健康检查支持的监控节点如下:类型 节点 BGP节点 张家口市、青岛市、杭州市、上海市、...
排查故障的经典步骤与常见原因 如何通过查看日志排查故障?产品FAQ 授权管理FAQ 集群管理FAQ 节点与节点池FAQ 容器网络FAQ Service FAQ Ingress FAQ DNS FAQ 应用FAQ 存储FAQ-CSI 存储FAQ-Flexvolume 容器安全FAQ 为什么可观测监控 ...
理论上MTU越大,可在单个数据包中传递的数据越多,网络通信越高效。本文介绍巨型帧相关功能以及如何修改ECS实例网卡的MTU。巨型帧(Jumbo frames)巨型帧是指有效负载超过IEEE 802.3标准所限制的1500字节的以太网帧,增大的有效载荷百分比...
两地三中心容灾架构,是指在同城双中心的基础上,在异地的城市建立一个备份的灾备中心,用于双中心的数据备份,当双中心出现自然灾害等原因而发生故障时,异地灾备中心可以用备份数据进行业务的恢复。目标读者 企业网络部、业务运维部工作...
设备 一般指IP网数通类网络通信设备,比如交换机、路由器、防火墙等,根据业务场景也可以涵盖无线网络AP/AC的管理和运维。电路(链路)根据管理域链路包括单端链路和双端链路,业务类型包括自有业务或者对接外部的如专线等。安全域 设备等...
全部 ACK Edge发布Kubernetes 1.26版本说明 云边通信方案升级 从v1.26起,ACK Edge集群 新增支持云边节点池维度的网络通信,相比于原有方案实现了高可用、弹性伸缩能力,提供云边容器级别监控运维。新方案中由Raven组件负责云边通信,可...