PAI灵骏智算服务概述

降低了端到端网络延时,提升了网络IO吞吐能力,并有效规避和弱化了网络故障、网络黑洞等传统网络异常给上层应用带来的性能损失。高性能集合通信库ACCL。PAI灵骏 支持高性能集合通信库ACCL(Alibaba Collective Communication Library),...

监控与日志

例如您可以根据通过捕获的流量信息分析带宽使用情况、排查网络故障、优化流量使用成本、分析异常流量等。云企业网流日志 流日志会在指定的捕获窗口捕获转发路由器之间的跨地域流量信息和边界路由器VBR(Virtual border router)连接的流量...

监控、诊断和故障排除

网络故障引起丢包重试。例如客户端发起一个删除操作删除某个Object,此时请求达到服务端,执行删除成功,但是响应在网络环境中丢包,然后客户端发起重试,第二次的删除操作可能就会遇到404错误。这种由于网络问题引起的404错误可以通过客户...

基于ack-lingjun-aiast组件实现集群自动化运维

该系统能够实时监测并分析系统的运行状态,快速检测故障并采取恢复措施,例如硬件故障、网络故障、软件错误等,从而降低运维成本,提高系统可靠性和稳定性。组件介绍 安装灵骏AI助手开启PAI的作业监控和恢复功能后,当发生故障或异常时,...

基本概念

故障管理 网络故障的发现、分析、定位等维护管理,包括告警信息的收集入库、规则匹配、关联分析以及告警清除等一系列流式处理过程。Netconf netconf协议一般用于网络业务配置,使用结构化可描述语言实现快速的网络设备下发。gRPC 高性能、...

网络资源

网络闪断故障可能由多种原因引起,如网络设备故障、电力波动、通信线路故障等。网络闪断会导致数据传输中断,影响系统和应用程序之间的数据传输,频繁的网络闪断可能导致系统或应用程序无法正常运行。常使用的容错策略如下:设备冗余:使用...

常见重大封网时段公告

封网期间影响如下:封网期间禁止出入机房,只处理重启服务器和网络紧急故障,不再进行诸如路由策略,带宽流量调配,业务割接等涉及电路,数据调整等操作。封网期间机房不办理外部人员进出手续。说明 封网属于不可抗力或不可控因素,该时段...

容灾演练断网方式说明

可用区断网 当整个机房的外部网络出现中断后,外部请求无法进入故障机房,机房内业务同样无法访问外部网络,但机房内网络互通,形成一个局部环境。可用区断网正是为了模拟此类真实故障而提供的机房级故障模拟能力。可用区断网方式采用租户...

智能卡简介

网络灾备 当前网络出现故障后,支持切换到备份网络,提升设备在线时长。降低成本 节省了事前勘测和故障后运维的人力以及相关成本。支持存量设备升级 设备本身无需硬件改造,安装相关SDK进行存量设备OTA升级后,即可支持智能卡。可选网络 ...

概述

通过集群多副本等方式,应对自身节点故障。产品架构 产品架构如下:说明 图中 Session Cluster、Data Cluster、Meta Cluster 都是集群,表示 SessionServer、DataServer、MetaServer 可无限扩展。Client(客户端):提供应用接入服务注册...

跨可用区容灾

故障恢复时,HDR使用该网络恢复容灾数据。HDR默认读取从站VPC网络的可用虚拟交换机。复制网络和恢复网络不在一个可用区时,将导致RTO时间变长。建议配置和 复制网络 相同的可用区。IP地址 故障恢复时,创建的ECS实例的IP地址的生成方式。...

跨地域容灾

故障恢复时,HDR使用该网络恢复容灾数据。HDR默认读取从站VPC网络的可用虚拟交换机。复制网络和恢复网络不在一个可用区时,将导致RTO时间变长。建议配置和 复制网络 相同的可用区。IP地址 故障恢复时,创建的ECS实例的IP地址的生成方式。...

强弱依赖治理最佳实践

在对业务分析进行依赖预判后,应通过故障注入的方式验证真实依赖关系是否与预判相符,例如注入依赖的服务间的网络延迟故障。强弱依赖的验证可以有多种指标,例如监控与日志的报警,请求的返回状态码等等。本文示例预期frontend与...

多可用区部署

如果可用区A的网络存在故障,由于同步延迟问题,在可用区A网络恢复之前的时间段内可用区B的数据会一直处于缺失的状态。备实例资源利用率不高。在主备容灾下,大部分时间备实例的资源不会被使用,只有在主备切换操作的时候才会被访问。主备...

网络诊断

容器服务平台提供网络诊断功能,帮助您诊断网络常见问题,例如Pod之间不通、集群到公网访问不通、公网到LoadBalancer不通。本文介绍网络诊断的基本原理、使用方式、以及如何针对常见网络不通的场景定位网络问题和使用网络诊断。重要 使用...

网络类场景

网络延迟 网络延迟场景可以指定网络延迟因素(例如网卡、本地端口、远程端口、目标IP等)和延迟时间,对应用或服务注入网络调用延迟故障。验证网络延迟情况下系统的容错能力。表 1.参数说明 参数名称 参数说明 网卡名称 具体的网卡设备,为...

添加机房

可用区之间网络互通,故障隔离。是否将实例放在同一可用区内,主要取决于对容灾能力和网络延时的要求。您可以在创建工作空间组时添加机房,详情请参见 创建工作空间组。也可以在创建完工作空间组后添加,具体操作如下所示。操作步骤 登录 ...

监控报警概述

实时监控提供终端用户登录云电脑的实时数据(例如用户在线数量、在线时长的前十用户、平均登录时间和云电脑网络延迟分布情况)以及相关故障预警信息,以便快速准确定位,迅速处理故障,避免因资源、网络问题或者外部操作原因造成不必要的...

产品架构

本文介绍故障演练的产品架构,以下简称故障演练为AHAS Chaos。产品架构图 AHAS Agent AHAS Agent安装在指定的目标机器上,用来执行服务端下发的故障注入命令以及采集演练相关的必要信息,例如CPU、内存占用等。主要有以下特点:快捷高效:...

服务等级说明

(2)任何阿里云所属设备以外的网络、设备故障或配置调整引起的;(3)客户的应用程序或数据信息受到黑客攻击而引起的;(4)客户维护不当或保密不当致使数据、口令、密码等丢失或泄漏所引起的;(5)客户的疏忽或由客户授权的操作所引起的...

故障演练

例如,模拟在高速通道冗余链路中的一条链路发生故障时,网络流量会自动切换至其他冗余链路的场景。借助该工具,您可以测试和验证您与阿里云组建的混合云组网的可靠性。重要 故障演练会通过将被演练的资源关闭,使资源处于人工构造的故障...

归档存储服务等级协议

(2)任何阿里云所属设备以外的网络、设备故障或配置调整引起的;(3)用户的应用程序或数据信息受到黑客攻击而引起的;(4)用户维护不当或保密不当致使数据、口令、密码等丢失或泄漏所引起的;(5)用户自行升级操作系统所引起的;(6)...

混沌工程缓存实战系列-Redis

本示例创建网络延迟的故障场景。登录 AHAS控制台,在左侧栏选择 故障演练>我的空间。在 我的空间 页面,单击 新建演练>新建空白演练。在 演练配置 页面,填写相关参数,选择 演练内容 为 主机内网络延迟。更多参数信息,请参见 创建演练。...

SLA服务等级协议

(2)任何阿里云所属设备以外的网络、设备故障或配置调整引起的;(3)客户的应用程序或数据信息受到黑客攻击而引起的;(4)客户维护不当或保密不当致使数据、口令、密码等丢失或泄漏所引起的;(5)客户的疏忽或由客户授权的操作所引起的...

服务等级协议

(2)任何阿里云所属设备以外的网络、设备故障或配置调整引起的;(3)用户的应用程序或数据信息受到黑客攻击而引起的;(4)用户维护不当或保密不当致使数据、口令、密码等丢失或泄漏所引起的;(5)用户的疏忽或由用户授权的操作所引起的...

服务协议

(2)任何阿里云所属设备以外的网络、设备故障或配置调整引起的;(3)客户的应用程序受到黑客攻击而引起的;(4)客户维护不当或保密不当致使数据、口令、密码等丢失或泄漏所引起的;(5)客户的疏忽或由客户授权的操作所引起的;(6)...

产品服务等级协议

(2)任何阿里云所属设备以外的网络、设备故障或配置调整引起的;(3)任何数据资源平台以外原因引起的,比如:由数据资源平台所依赖的上下游软件产品故障或配置调整引起的;数据同步模块中由于源端数据库或目的端数据库自身原因导致的;...

服务等级协议

(2)任何阿里云所属设备以外的网络、设备故障或配置调整引起的;(3)客户的应用程序或数据信息受到黑客攻击而引起的;(4)客户维护不当或保密不当致使数据、口令、密码等丢失或泄露所引起的;(5)客户的疏忽或由客户授权的操作所引起的...

诊断项与诊断结果说明

实例健康诊断功能是一种自助诊断方式,可以对实例的计算服务状态、存储服务状态、网络服务状态、实例配置管理和实例操作系统内相关配置进行全方位的诊断,帮助您了解实例的健康情况,及时发现并解决常见的问题。本文介绍轻量应用服务器支持...

开通LTS

在同一专有网络内可用区与可用区之间私网互通,可用区之间能做到故障隔离。网络类型 固定选择 专有网络。vpcId 选择用户所需的专有网络,创建专有网络请参见 创建专有网络。vswitchID 虚拟交换机ID。Core规格 Core规格。core节点数量 默认...

源为PolarDB-X的功能规范和约束说明

在出现故障(如网络中断、机房批量设备故障或互联网数据中心IDC故障),且DTS任务存在延迟的情况下,此时如更新至目标库的最后一条数据的时间与故障发生时的时间之差小于RPO(如5分钟),则可以业务优先恢复为准则切流。切流后可能有5分钟...

源为PolarDB-X的功能规范和约束说明

在出现故障(如网络中断、机房批量设备故障或互联网数据中心IDC故障),且DTS任务存在延迟的情况下,此时如更新至目标库的最后一条数据的时间与故障发生时的时间之差小于RPO(如5分钟),则可以业务优先恢复为准则切流。切流后可能有5分钟...

什么是全球加速

全球加速 GA(Global Accelerator)是一款覆盖全球的网络加速服务,依托阿里云优质BGP带宽和全球传输网络,实现全球网络就近接入,可以减少延迟、抖动、丢包等网络问题对服务质量的影响,为全球用户提供高可用和高性能的网络加速服务。...

通过物理专线实现本地IDC与云上VPC互通

您可以通过物理专线将本地IDC(Internet Data Center)连接到阿里云,使云上专有网络VPC(Virtual Private Cloud)和本地IDC的网络互通。场景示例 本文以下图为例,某企业在杭州拥有一个IDC机房,并且该企业在阿里云华东1(杭州)地域部署...

无法连接Windows实例

步骤二:检查客户端本地网络是否异常 确认是否存在故障现象,如果存在,则参考本步骤解决问题,如果不存在,则执行下一步步骤。故障现象 用户本地无法连接外网。故障原因 可能是网卡驱动未开启或网卡配置有问题。解决方法 使用管理终端 ...

创建RDS SQL Server实例

第二步:实例配置 配置实例网络网络类型 固定配置为 专有网络。选择 VPC 和 主节点交换机。建议选择与ECS实例相同的VPC。ECS实例与RDS实例位于不同VPC时,无法内网互通。说明 VPC相同,交换机不同,ECS实例与RDS实例也可以内网互通。如果...

自动或手动主备切换

为了避免无效连接,建议配置 connectTimeout 和 socketTimeout,防止出现网络错误时一直等待的情况,从而缩短故障时间。超时配置值需要根据业务负载和使用方式进行评估,在线事务场景中建议 connectTimeout 配置为1~2秒,socketTimeout ...

RDS与自建数据库对比优势

性能 SQL Server 2008 R2的本地SSD盘实例性能极佳,SQL Server 201x版本新计算存储分离架构可享受硬件红利。SQL Server的ESSD性能较SSD提升显著。增加只读实例之后性能强劲且负载均衡。数据库自治服务DAS 提供高级优化能力。ECS本地盘意味...

常见问题

code=exited”错误 启动SSH服务时出现“error while loading shared libraries”错误 ECS网络问题 Windows实例ping外网地址提示“一般故障”Linux系统的ECS中没有禁ping却ping不通的解决方法 使用ping命令测试ECS实例时ping不通的排查方法 ...

诊断项与诊断结果说明

实例健康诊断功能是一种自助诊断方式,可以对实例的系统状态、网络状态、磁盘状态等进行全方位的诊断,帮助您了解实例健康情况,及时发现并解决常见的问题。本文介绍该功能支持的诊断项,并提供了详细的诊断范围及建议操作供您参考。诊断项...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
共享流量包 负载均衡 高速通道 弹性公网IP 短信服务 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用