什么是AI分布式训练通信优化库AIACC-ACSpeed

AIACC-ACSpeed优化原理 场景说明 使用单机多卡或多机多卡进行AI分布式训练时,分布式通信的线性度可作为单卡训练扩展到多卡的性能指标,线性度的计算方式如下:单机内部扩展性:线性度=多卡性能/单卡性能/单机卡数 多机之间扩展性:线性度=...

安装ACCL库

ACCL(Alibaba Collective Communication Library)是一款高性能通信库,提供了AllReduce、AllToAllV、Broadcast等常用集合操作接口以及点到点Send/Recv接口,为多机多卡训练提供高效的通信支持。本文为您介绍如何安装ACCL库。背景信息 ...

使用IMB软件和MPI通信库测试集群通信性能

本文以IMB软件和MPI通信库为例介绍如何测试E-HPC集群的通信性能。背景信息 IMB(Intel MPI Benchmarks)用于评估HPC集群在不同消息粒度下节点间点对点、全局通信的效率。MPI(Message Passing Interface)是支持多编程语言编程的并行计算...

查询网络通信距离(NCD)

PAI灵骏提供了统一的网络通信距离NCD(Network Communication Distance)查询接口,供您对GPU节点(或网卡)间的通信距离进行查询,以实现更优的任务调度,获得最佳的训练性能。本文为您介绍NCD的基本概念、使用NCD的原因以及如何使用NCD。...

概述

API 网关 SOFAStack API 网关是一个 API 管理平台,帮助企业统一管理对内外开放的 API,为网络隔离的系统间提供高性能、高安全、高可靠通信,同时保障内部系统的安全性。用于满足企业对外部合作伙伴开放业务,企业自身混合云互通、企业...

自建虚拟化桌面架构迁移至DDH

本教程针对自建虚拟化桌面架构迁移至专有宿主机DDH(Dedicated Host),以及有虚拟化桌面架构需求的客户,利用云上灵活性、可扩展性等优势,构建云上高可靠、高性能、高安全的远程桌面服务。方案优势 满足客户虚拟桌面基础架构VDI(Virtual...

PAI灵骏智算服务概述

PAI灵骏 是一种大规模高密度计算服务,全称“PAI灵骏智算服务”,提供高性能AI训练、高性能计算所需的异构计算算力服务。PAI灵骏 主要面向图形图像识别、自然语言处理、搜索广告推荐、通用大模型等大规模分布式的AI研发场景,适用于自动...

负载均衡SLB产品家族介绍

云原生应用金丝雀蓝绿发布场景 四层大流量高并发业务场景 物联网、车联网等IoT业务入口 多活容灾、IDC云上出入口场景 网站、系统四层流量分发高可靠场景 大并发高性能网络分流场景 同城灾备、跨地域容灾场景 产品计费对比 应用型负载均衡...

产品简介

API 网关是金融分布式架构 SOFAStack 下的一个 API 管理平台,提供 API 托管服务,帮助企业开发者将内部系统的接口封装成 API 开放出去,供外部应用调用,为网络隔离的系统间提供高性能、高安全、高可靠通信,同时保障内部系统的安全性。...

API 统一网关

API 网关是金融分布式架构 SOFAStack 下的一个 API 管理平台,旨在帮助企业统一管理对内外开放的 API,为网络隔离的系统间提供高性能、高安全、高可靠通信,同时保障内部系统的安全性。不仅用于企业对外部合作伙伴开放业务,同时保证企业...

MQTT 5.0概述

MQTT是一种轻量级的物联网协议,大幅度降低了网络带宽和设备资源的需求,并支持可靠的数据传输,因此MQTT已成为IoT领域最广泛应用的协议之一。随着IoT设备规模和应用场景的不断扩大,MQTT 5.0协议应运而生,以满足更多新场景需求。本文为您...

基于eRDMA增强型实例部署AI训练集群

在NCCL底层通信链接上,有多种不同的传输方式,例如单机内部多卡P2P通信以及多机上的传统socket通信(如VPC网络)和高性能的InfiniBand(IB)通信,其中eRDMA是一种基于RDMA的传输方式,具有极低的延迟,并且在性能上接近RDMA网络的优势。...

SLB实例为性能保障型实例

性能保障型实例提供可靠性能指标。性能共享型实例由于资源是所有实例共享的,因此不保障实例的性能指标。风险等级 默认风险等级:高风险。当您使用该规则时,可以按照实际需求变更风险等级。检测逻辑 SLB实例为性能保障型实例,视为...

网络最大传输单元MTU

重要 对于超过链路最大MTU限制的数据包,阿里云转发组件会依据RFC标准对报文进行分片或协商,但是这只能保证连通性,不能保证网络通信性能。因此在链路最大MTU为1500的通信场景下,尽量避免使用巨型帧进行UDP、ICMP通信。对于阿里云上...

存储概述

常用的云存储服务如下:云盘 一种数据块级别的块存储产品,采用分布式多副本机制,具有低时延、高性能、持久性、高可靠性能,可以随时创建、扩容以及释放。更多信息,请参见 云盘概述。文件存储NAS 一种可共享访问、弹性扩展、高可靠以及...

使用云存储

常用的云存储服务如下:云盘 一种数据块级别的块存储产品,采用分布式多副本机制,具有低时延、高性能、持久性、高可靠性能,可以随时创建、扩容以及释放。更多信息,请参见 云盘概述。文件存储NAS 一种可共享访问、弹性扩展、高可靠以及...

什么是Deepytorch Training(训练加速)

产品优势 训练性能显著提升 Deepytorch Training通过整合分布式通信和计算图编译的性能特点,可以实现端到端训练性能的显著提升,使得模型训练迭代速度更快,不仅减少了资源的使用成本,还缩短了迭代的时间成本,为您带来低成本体验。...

什么是AI通信加速库Deepnccl

Deepnccl是为阿里云神龙异构产品开发的一种用于多GPU互联的AI通信加速库,在AI分布式训练或多卡推理任务中用于提升通信效率。本文主要介绍Deepnccl的架构、优化原理和性能说明。产品简介 Deepnccl基于NCCL(NVIDIA Collective ...

概述

性能度量了系统在单元环境内承载工作负载的效率,系统性能通常可以由 QPS、并发...性能监控:包括为什么需要性能监控、什么性能监控和性能监控最佳实践等内容。常见性能优化手段:包括弹性计算优化、网络优化、数据库优化和架构优化等内容。

阿里云存储服务

为您的数据选择合适的阿里云存储服务,也就是在数据的可用性、持久性和性能方面找到最匹配的产品。说明 可用性是指存储产品根据请求提供数据的能力。持久性是指年平均预期数据丢失。性能是指存储产品可以提供的IOPS或吞吐量。阿里云提供三...

块存储

其中:云盘是阿里云为云服务器ECS提供的数据块级别的块存储产品,采用多副本的分布式机制,具有低时延、高性能、持久性、高可靠性能,可以随时创建、扩容以及释放。本地盘是基于云服务器ECS所在物理机(宿主机)上的本地硬盘设备,为ECS...

PTS压测快速入门

更多信息,请参见 什么性能测试PTS 和 什么是架构感知。线上管控阶段:在线上管控执行阶段,您需要管控系统的流量,控制各种业务逻辑,阿里云提供 流量防护 和 功能开关 平台帮助您管控线上业务。更多信息,请参见 什么是应用防护 和 ...

性能监控最佳实践

为了保证业务的稳定性和可靠性,企业需要对其系统进行全面的性能监控。而一体化性能监控就是一种集成了多种监控工具和技术的综合性监控方案,可以帮助企业更加全面、高效地监控其系统的性能。提高监控效率:传统的性能监控方案往往需要使用...

如何发起实时数仓Hologres性能压测

本文为您介绍如何通过阿里云性能测试PTS对Hologres的性能进行压测,帮助您快速验证Hologres的性能。背景信息 Hologres是兼容PostgreSQL协议的实时交互式分析引擎,可以使用pgbench工具对其进行性能测试,详情请参见 测试方案介绍。但测试...

如何发起实时数仓Hologres性能压测

本文为您介绍如何通过阿里云性能测试PTS对Hologres的性能进行压测,帮助您快速验证Hologres的性能。背景信息 Hologres是兼容PostgreSQL协议的实时交互式分析引擎,可以使用pgbench工具对其进行性能测试,详情请参见 测试方案介绍。但测试...

新功能发布记录

2020-09-30 全部 什么是文件存储CPFS 文件存储CPFS 1.0(商用)文件存储CPFS 1.0版本提供高可用、高可靠、高可扩展、高性能的能力,适用各种高性能计算HPC场景。2019-08-09 部分 什么是文件存储CPFS 文件存储CPFS(公测)CPFS并行文件系统...

VMware迁移至DDH

DDH采用独享硬件资源方式,能够满足安全、合规、自定义部署、自带许可证(BYOL)等需求,同时可以充分利用云上资源弹性、按量付费等优势,帮助您构建高性能、高可靠和快速可扩展的虚拟化系统。方案优势 云端独享高性能、高可靠、高弹性的...

什么是云盘

云盘是阿里云为边缘节点服务ENS提供的数据块级别的块存储产品,具有低时延、高性能、持久性、高可靠等特点。云盘采用分布式三副本机制,为ENS实例提供不低于99.9999%的数据可靠性保证。云盘分类 云盘根据性能分为高效云盘和全闪云盘;根据...

搭建高性能网络ACK集群

阿里云托管版容器服务ACK集群,支持自研的Terway网络插件,该插件可以有效减少因容器而引入的网络性能下降,可以基本达到服务器之间直接通信的网络性能。本最佳实践主要是一个性能测试方面的实践,指导客户进行POC测试等。解决问题 Pod之间...

什么是GPU云服务器

什么是AI通信加速库Deepnccl 阿里云开发的一种用于多GPU互联的AI通信加速库,在AI分布式训练或多卡推理任务中用于提升通信效率。什么是推理引擎DeepGPU-LLM 阿里云开发的大语言模型(Large Language Model,LLM)推理引擎,在处理大语言...

实践教程概览

混合云渲染最佳实践 以Deadline软件为例,介绍在混合云环境下如何通过E-HPC及其文件缓存机制,借助云上弹性资源,构建云上云下一体化的高性能、高可靠性和可扩展的渲染服务。集群配置 实践教程 主要内容 使用E-HPC集群调度器插件 E-HPC提供...

什么是协同存储NAS

它是一种可共享访问、弹性扩展、高可靠以及高性能的分布式文件系统。产品概述 协同存储NAS可提供共享访问,同时保证数据一致性和锁互斥,多个ENS实例可以同时访问NAS文件系统,并且存储容量会随着您添加和删除文件而自动弹性增长和收缩,为...

功能特性

性能集合通信库ACCL 灵骏支持高性能集合通信库ACCL(Alibaba Collective Communication Library),结合硬件(例如:网络交换机),对万卡规模的AI集群提供无拥塞、高性能的集群通讯能力。在AI集群层面,通讯的碰撞是计算延迟的主要来源...

eRDMA

弹性RDMA(Elastic Remote Direct Memory Access,简称eRDMA),是阿里云提供的低延迟、大吞吐、高弹性的高性能RDMA网络服务。eRDMA的能力实现需要基于支持eRDMA能力的实例规格,创建挂载支持弹性RDMA能力的网卡,才能够实现具有大规模RDMA...

什么是IP应用加速

什么选择IP应用加速 IP应用加速功能为您提供高可靠、低时延的网络传输加速,并支持自定义端口和协议:高可靠:获得高可靠的网络服务,即使是偏远地区也能保障可靠性,减少掉线和用户投诉。低时延:IP应用加速有广泛的节点分布,帮助终端...

网络FAQ

网络性能问题 不同地域内的ECS实例通过公网通信通信丢包概率如何?如果相同地域下的ECS实例通过内网通信,网络延迟性能如何?没有明确标注连接数规格的实例,如何保障连接数性能?在ECS实例上UDP PPS测试或者TCP带宽测试时性能不稳定,...

建立gRPC连接

gRPC是一个开源高性能RPC框架,基于HTTP2协议设计开发,使用Protocol Buffers(protobuf)序列化技术对数据进行序列化传输,为开发者提供了一种跨语言、跨平台的服务间通信方式,开发者在客户端上可以像调用本地程序一样调用远程服务。...

网络优化

云企业网通过 转发路由器 TR(TransitRouter)在跨地域专有网络之间,专有网络与本地数据中心间搭建私网通信通道,支持在地域内定义灵活的互通、隔离、引流策略,帮助您打造一张灵活、可靠、大规模的企业级云上网络。企业版转发路由器实例...

eRDMA概述

功能简介 什么是eRDMA 弹性RDMA(Elastic Remote Direct Memory Access,简称eRDMA)是阿里云自研的云上弹性RDMA网络,底层链路复用VPC网络,采用全栈自研的拥塞控制CC(Congestion Control)算法,享有传统RDMA网络高吞吐、低延迟特性的...

什么是高速通道

阿里云高速通道(Express Connect)可在本地数据中心IDC(Internet Data Center)和云上专有网络VPC(Virtual Private Cloud)间建立高速、稳定、安全的私网通信。高速通道的物理专线数据传输过程可信可控,避免网络质量不稳定问题,同时可...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
短信服务 云数据库 Redis 版 边缘网络加速 对象存储 弹性公网IP 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用