什么是AI分布式训练通信优化库AIACC-ACSpeed

AIACC-ACSpeed优化原理 场景说明 使用单机多卡或多机多卡进行AI分布式训练时,分布式通信的线性度可作为单卡训练扩展到多卡的性能指标,线性度的计算方式如下:单机内部扩展性:线性度=多卡性能/单卡性能/单机卡数 多机之间扩展性:线性度=...

安装ACCL库

ACCL(Alibaba Collective Communication Library)是一款高性能通信库,提供了AllReduce、AllToAllV、Broadcast等常用集合操作接口以及点到点Send/Recv接口,为多机多卡训练提供高效的通信支持。本文为您介绍如何安装ACCL库。背景信息 ...

功能特性

灵骏满足AI、HPC等计算密集场景需要的高性能算力,可实现高性能、大规模的池化算力,满足自动驾驶、科研、金融、生物制药等多行业的异构算力需求。本文为您介绍灵骏的功能特性。高速RDMA网络架构 阿里巴巴2016年开始投入专项研究RDMA...

实践教程概览

使用IMB软件和MPI通信库测试E-HPC通信性能 IMB(Intel MPI Benchmarks)用于评估HPC集群在不同消息粒度下节点间点对点、全局通信的效率。MPI(Message Passing Interface)是支持多编程语言的并行计算通信库,具有高性能、大规模性、可移植...

使用IMB软件和MPI通信库测试集群通信性能

本文以IMB软件和MPI通信库为例介绍如何测试E-HPC集群的通信性能。背景信息 IMB(Intel MPI Benchmarks)用于评估HPC集群在不同消息粒度下节点间点对点、全局通信的效率。MPI(Message Passing Interface)是支持多编程语言编程的并行计算...

eRDMA

弹性RDMA(Elastic Remote Direct Memory Access,简称eRDMA),是阿里云提供的低延迟、大吞吐、高弹性的高性能RDMA网络服务。eRDMA的能力实现需要基于支持eRDMA能力的实例规格,创建挂载支持弹性RDMA能力的网卡,才能够实现具有大规模RDMA...

eRDMA概述

众多应用都是基于TCP/IP构建的,但随着数据中心相关的业务蓬勃发展,应用对于网络的性能需求(如延迟、吞吐)越来越高,受限于TCP/IP的局限性(如拷贝开销大、协议栈处理厚、CC算法复杂、上下文切换频繁等),TCP/IP的网络通信性能已经成为...

查询网络通信距离(NCD)

PAI灵骏提供了统一的网络通信距离NCD(Network Communication Distance)查询接口,供您对GPU节点(或网卡)间的通信距离进行查询,以实现更优的任务调度,获得最佳的训练性能。本文为您介绍NCD的基本概念、使用NCD的原因以及如何使用NCD。...

PAI灵骏智算服务概述

PAI灵骏 是一种大规模高密度计算服务,全称“PAI灵骏智算服务”,提供高性能AI训练、高性能计算所需的异构计算算力服务。PAI灵骏 主要面向图形图像识别、自然语言处理、搜索广告推荐、通用大模型等大规模分布式的AI研发场景,适用于自动...

功能发布记录

2022年11月 更新事项 描述 AI Earth 地球科学云平台正式发布 平台集公开数据检索、在线处理分析(工具箱模式+开发者模式)、遥感AI模型训练为一体,为广大科研用户和政企用户提供便捷高效的一式遥感云计算服务。2022年08月 更新事项 描述...

GPU计算型

GPU计算型实例具有高性能、高并行计算能力,适用于大规模并行计算场景,可以为您的业务提供更好的计算性能和效率。本文为您介绍云服务器ECS GPU计算型实例规格族的特点,并列出了具体的实例规格。主售(推荐类型)GPU计算型实例规格族gn7e ...

PolarDB MySQL版5.7版本发布日志

5.7.1.0.32 类别 说明 发布时间 新增功能和性能优化 开启全局事务标识符(GTID)后,支持在事务中创建和删除临时表。支持在全局一致性高性能模式功能中使用Variable-Setting Hint语法。优化线程池在开启Binlog多线程并发写入情况下的性能。...

ASM网关概述

创建出口网关 定制化功能 当网格内的应用需要与外部服务进行通信时,您可以使用出口网关作为统一的出口,集中管理所有的出流量。通过配置出口网关,您可以实现对流量的安全控制和路由,提升网格内应用程序的安全性和可观测性。为网格内...

常见问题

根据您的E-HPC集群节点实例和您自行购买的ECS实例是否处于同一VPC,私网通信的配置如下:处于同一个VPC内,可以直接进行私网通信。处于不同VPC内,需要打通网络后才能进行私网通信。您可以通过云企业网CEN、VPC对等实现VPC之间私网互通。为...

升级ASM实例

在ASM中,数据平面主要通过Istio提供的Envoy代理实现,Envoy代理以Sidecar的形式部署,贴近应用服务,提供高性能的网络代理能力。为什么需要升级 ASM原则上保持每三个月更新一次Istio大版本的频率。大版本推出后,由于功能更新和漏洞修复,...

Linux系统挂载SMB协议文件系统

确保端口445处于打开状态,SMB文件系统将通过TCP端口445通信。如果端口445未打开,请在目标ECS实例的安全组中添加关于端口445的安全组规则。具体操作,请参见 添加安全组规则。安装CIFS客户端 在Linux系统中挂载SMB协议文件系统时,需要先...

搭建高性能网络ACK集群

阿里云托管版容器服务ACK集群,支持自研的Terway网络插件,该插件可以有效减少因容器而引入的网络性能下降,可以基本达到服务器之间直接通信的网络性能。本最佳实践主要是一个性能测试方面的实践,指导客户进行POC测试等。解决问题 Pod之间...

建立gRPC连接

gRPC是一个开源高性能RPC框架,基于HTTP2协议设计开发,使用Protocol Buffers(protobuf)序列化技术对数据进行序列化传输,为开发者提供了一种跨语言、跨平台的服务间通信方式,开发者在客户端上可以像调用本地程序一样调用远程服务。...

数据类型

枚举名 描述 RtcEngineSceneDefaultMode 默认场景,一般的音视频通信场景推荐使用。RtcEngineDeviceInfo:设备信息。参数名 类型 描述 deviceName String 设备名称。deviceID String 设备ID。RtcEngineAuthInfo:用户鉴权信息。参数名 类型...

网络最大传输单元MTU

因此为了更好的性能,建议在MTU不匹配的通信场景下,通过 ModifyInstanceAttribute 接口关闭巨型帧,并重启ECS实例生效。ECS实例响应PMTUD机制依赖操作系统支持,要求操作系统支持且打开了PMTU响应(例如在Linux系统中,/proc/sys/...

Persistent Buffer Pool

Persisted Buffer Pool(PBP)特性能够帮助您在集群异常退出或者重新启动时,仍然可以使用集群...重启前后性能对比如图所示:使用指南 打开如下参数即可使用。polar_enable_persisted_buffer_pool=ON 说明 参数的启用或者关闭需要重启集群。

弹性裸金属服务器概述

Y N Y 物理机和虚拟机之间相互冷迁移 Y N Y 免操作系统安装 Y N Y 免本地RAID,提供更高云盘数据保护 Y N Y 网络 完全兼容专有网络VPC Y N Y 完全兼容经典网络 Y N Y 物理机集群和虚拟机集群间VPC无通信瓶颈 Y N Y 管控 完全兼容ECS现有...

持久缓存池(Warm Buffer Pool)

背景信息 PolarDB MySQL版 支持持久缓存池功能,在主节点主动重启或者异常崩溃后重启的过程中,缓存池(Buffer Pool)中的数据依然存在,从而大幅度加快重启速度,并保持重启性能无衰减。前提条件 PolarDB 集群版本需为 PolarDB MySQL版 ...

ZooKeeper的使用场景和MSE ZooKeeper的优势

性能 集成高性能JVM,进行深度优化,性能提升1倍。需要自行调试。监控告警 可对集群状态、连接数、TPS、ZNode、请求延时等指标进行监控,提供自定义告警规则及钉钉、电话、短信等告警渠道。不支持,需自行搭建监控告警体系。权限管理 服务...

网络优化

整体来看高速通道建立了高速、稳定、安全的私网通信,从性能层面无疑是最佳选择,但由于几种方案适用的场景差异性比较大,简单地横向比较在实践中的意义并不大,具体情况还是需要结合具体场景进行选择。作为连接 IDC 与云上专有网络 VPC 的...

PolarDB PostgreSQL版架构介绍

该优化之后,使得重启前后性能平稳。PolarDB PostgreSQL版 HTAP架构详解 PolarDB PostgreSQL版 读写分离后,由于底层是存储池,理论上IO吞吐是无限大的。而大查询只能在单个计算节点上执行,单个计算节点的CPU/MEM/IO是有限的,因此单个...

SanityCheck:算力健康检测

此外,在检测完成后,会给出有关GPU算力以及通信性能的检测报告,可以帮助识别和定位可能导致任务训练性能下降的问题元素,整体提升问题诊断的效率。使用限制 仅支持在华北6(乌兰察布)地域,使用灵骏智算资源提交的DLC训练任务,开启健康...

Tair实例生命周期流程

重启实例 当实例出现连接数满或性能问题时,您可以重启 Tair 实例以释放所有连接。升级小版本 云原生内存数据库Tair 会不断地对内核进行深度优化,修复安全漏洞,提升服务稳定性,推荐定期检查并升级小版本。释放按量付费实例 对于闲置的 ...

使用限制

在使用云数据库MongoDB前,您需要了解不同类型云数据库MongoDB实例本身存在的约束信息,使您初步了解不同类型云数据库MongoDB实例的使用限制,以帮助您选择更适合业务场景的实例。...重启实例 Serverless实例不支持重启

AliSQL内核小版本发布记录

AliSQL是RDS MySQL的内核,除了为用户提供MySQL社区版的所有功能外,还提供了企业级备份恢复、线程池、并行查询等类似于MySQL企业版的诸多功能,赋予了RDS MySQL安全、备份、恢复、监控、性能优化、只读实例等各项能力。本文介绍AliSQL的...

Redis实例生命周期流程

重启实例 当实例出现连接数满或性能问题时,您可以重启Redis实例以释放所有连接。升级大版本 升级Redis实例的大版本,例如从Redis 2.8升级到Redis 4.0,升级后可体验新版本的相关特性与功能。更多关于新版本的说明,请参见 Redis大版本新...

ECS系统事件概述

是 突发性能实例性能受限事件 突发性能实例性能受限事件是指突发性能实例的CPU积分已经耗尽,实例的CPU将会持续运行在基准性能附近,可能对实例的应用运行、实例管控、运维等操作产生影响,包括出现访问缓慢,卡顿等情况的提醒事件。...

MSE注册配置中心和自建注册配置中心对比

性能 集成高性能JVM,进行深度优化,性能提升1倍。需要自行调试。监控告警 可对集群状态、连接数、TPS、ZNode、请求延时等指标进行监控,提供自定义告警规则及钉钉、电话、短信等告警渠道。不支持,需自行搭建监控告警体系。权限管理 服务...

功能特性

设置参数 重启实例 当实例出现因业务异常导致的连接数满或性能问题时,您可通过重启来尝试恢复。重启实例 设置可维护时间段 支持在可运维时间执行运维计划,支持修改可运维时间点。设置可维护时间段 释放按量付费实例 根据业务需求,您可以...

设备接入引导

SL 651:建议采用TLS方式接入,支持使用服务端单向认证、设备端和服务端证书OCSP能力、设备和服务端双向安全认证等能力,适用于遥测设备与阿里云企业物联网平台之间的通信,用于水文监测数据采集与传输。云端开发流程如下:接入中国电信...

网络

功能介绍 配置项 功能描述 IPv6访问 IPv4的网络地址资源不足严重制约了互联网的发展,而IPv6的引入使得该问题得以解决,阿里云 全加速 DCDN 长期致力于互联网技术的健康、可持续发展。我们默认为您的站点免费开启IPv6服务,客户端可根据...

应用场景

GPU云服务器适用于视频转码、图片渲染、AI训练、AI推理、云端图形工作等场景,神行工具包(DeepGPU)为了配合GPU云服务器的计算服务增强能力,也适用于所有AI训练场景和AI推理场景。本文主要介绍GPU云服务器和神行工具包(DeepGPU)的...

PolarDB MySQL版8.0.2版本发布日志

8.0.2.2.22.1 类别 说明 发布时间 新增功能和性能优化 优化了将冷数据从OSS导回至InnoDB引擎的报错信息内容。支持在SQL Trace中配置跟踪慢查询的执行信息。2024-04-17 问题修复 修复Statement Outline和Concurrency Control等功能在执行...

MongoDB 4.0

重启实例 重启实例会对实例的节点执行轮转重启,每个节点会有30秒左右的闪断,如果集合的数量较多(超过1万),闪断时间也会随着变长,重启前请做好业务安排并确保应用有重连机制。释放按量付费实例 释放包年包月实例 实例释放后不可恢复,...

发布日志

优化音频采集失败后重启逻辑。V1.17.40@2021-02-04 修复反复入会、离会偶现崩溃的问题。修复仅音频入会立刻切换推送视频导致偶现推流失败的问题。V1.17.39@2021-02-03 新增本地视频采集开关控制接口。新增设置SDK设备音量类型接口。新增...
共有197条 < 1 2 3 4 ... 197 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
音视频通信 短信服务 性能测试 边缘网络加速 弹性公网IP 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用