DeepSpeed分布式训练

DeepSpeed是一个开源的深度学习优化库,提供了分布式训练和模型优化的功能,可以有效的加速训练过程。本文介绍如何使用Arena快速、方便地提交DeepSpeed的分布式训练作业,并通过TensorBoard可视化查看训练作业。索引 前提条件 使用说明 ...

分布式云容器平台的审计事件

分布式云容器平台已与操作审计服务集成,您可以在操作审计中查询用户操作分布式云容器平台产生的管控事件。操作审计支持将管控事件投递到日志服务SLS的LogStore或对象存储OSS的存储空间中,满足实时审计、问题回溯分析等需求。操作审计记录...

开启CNFS NAS计算端分布式缓存

CNFS文件存储计算端分布式缓存可提供多链接访问、元数据缓存、分布式数据缓存等加速能力,并提供端侧性能监控、QoS能力。本文介绍如何在ACK集群中开启CNFS NAS计算端分布式缓存,并通过分布式缓存功能加速读取数据。索引 前提条件 分布式...

开启CNFS NAS计算端分布式缓存

CNFS文件存储计算端分布式缓存可提供多链接访问、元数据缓存、分布式数据缓存等加速能力,并提供端侧性能监控、QoS能力。本文介绍如何在ACK集群中开启CNFS NAS计算端分布式缓存,并通过分布式缓存功能加速读取数据。索引 前提条件 分布式...

分布式训练产品DLC支持MPI训练框架

DLC支持MPI框架,用户可以提交MPI类型分布式任务。优化内容 PAI 支持 MPI 的分布式训练任务,支持用户通过 Horovod、DeepSpeed 等基于 MPI 封装的训练框架发起任务。

PolarDB分布式版逻辑备份

数据库备份DBS可满足 PolarDB分布式版 实例异地备份、长期归档、分布式备份等需求。前提条件 数据库为PolarDB-X 1.0,存储类型为RDS MySQL,MySQL版本为MySQL 5.x。功能概述 功能 说明 备份SQL文件 采用逻辑备份技术,备份成JSON文件。备份...

分布式任务调度平台(SchedulerX)服务等级协议

本文介绍分布式任务调度平台(SchedulerX)的服务等级协议。关于服务等级协议,请参见 分布式任务调度平台(SchedulerX)服务等级协议。

恢复PolarDB分布式版数据库

本文介绍如何通过数据库备份DBS恢复 PolarDB分布式版 数据库。前提条件 已完成数据库备份,具体操作,请参见 PolarDB分布式版逻辑备份。操作步骤 登录 DBS控制台。单击左侧导航栏中的 备份计划,然后在上方选择目标地域。找到目标备份计划...

分布式任务调度平台(SchedulerX)服务等级协议

本文介绍分布式任务调度平台(SchedulerX)的服务等级协议。关于服务等级协议,请参见 分布式任务调度平台(SchedulerX)服务等级协议。

企业级分布式应用服务(EDAS)服务条款

关于服务条款,请参见 企业级分布式应用服务(EDAS)服务条款。

无法访问企业级分布式应用服务EDAS管理控制台

问题描述 使用企业级分布式应用服务EDAS时,无法访问EDAS管理控制台。解决方案 检查您的阿里云账号是否开通和购买了EDAS产品服务,若没有购买,请先购买 企业级分布式应用服务EDAS。在已完成购买的情况下,如仍无法登录,请先完成 授权 后...

分布式任务调度平台(SchedulerX)服务等级协议

本文介绍分布式任务调度平台(SchedulerX)的服务等级协议。关于服务等级协议,请参见 分布式任务调度平台(SchedulerX)服务等级协议。

金融云分布式任务调度平台(SchedulerX)服务等级协议

本文介绍金融云分布式任务调度平台(SchedulerX)的服务等级协议。关于服务等级协议,请参见 金融云分布式任务调度平台(SchedulerX)服务等级协议。

金融云分布式任务调度平台(SchedulerX)服务等级协议

本文介绍金融云分布式任务调度平台(SchedulerX)的服务等级协议。关于服务等级协议,请参见 金融云分布式任务调度平台(SchedulerX)服务等级协议。

PyTorch分布式训练

本文展示如何使用Arena提交PyTorch的分布式训练作业,并通过TensorBoard可视化查看训练作业。前提条件 已创建包含GPU的Kubernetes集群。具体操作,请参见 创建包含GPU的Kubernetes集群。集群节点可以访问公网。具体操作,请参见 为已有集群...

分布式训练DLC 算力健康检测发布

新增功能/规格 算力健康检测(Sanity Check)功能,旨在对分布式训练任务的算力资源健康度与性能进行检查。在创建DLC训练任务时可以开启该功能,健康检测会对参与训练的资源进行全面检测,自动隔离故障节点,并触发后台自动化运维流程,...

TensorFlow分布式训练

本文展示如何使用Arena提交TensorFlow基于PS-Worker模式的分布式训练作业,并通过TensorBoard可视化查看训练作业。前提条件 创建包含GPU的Kubernetes集群。集群节点可以访问公网。配置Arena客户端。已给集群配置了Arena使用的PVC,并且PVC...

JindoFSx P2P分布式下载配置指南

本文为您介绍P2P分布式下载缓存的使用方法。前提条件 EMR环境:已在E-MapReduce上创建EMR-3.42.0及后续版本、EMR-5.6.0及后续版本的集群,且选择JINDODATA服务,详情请参见 创建集群。非EMR环境:具体请参见 JindoFSx存储加速系统使用指南...

云原生分布式数据库PolarDB-X 1.0和2.0区别

概述 本文主要介绍云原生分布式数据库PolarDB-X 1.0和2.0的区别。详细信息 PolarDB-X提供1.0中间件形态,以及2.0一体化形态,具体区别如下:PolarDB-X 1.0中间件形态由计算层PolarDB-X实例与存储层私有定制RDS实例组成,通过挂载多个MySQL...

金融云分布式任务调度平台(SchedulerX)服务等级协议

本文介绍金融云分布式任务调度平台(SchedulerX)的服务等级协议。关于服务等级协议,请参见 金融云分布式任务调度平台(SchedulerX)服务等级协议。

分布式任务调度 SchedulerX 控制台集成到微服务引擎 ...

为了给您带来更加全面,稳定和丰富的产品体验,阿里云分布式任务调度 SchedulerX 控制台将于2024年01月31日集成到微服务引擎 MSE 产品控制台。变更详情 变更内容:SchedulerX 产品控制台新集成到微服务引擎 MSE 产品控制台,包括产品控制台...

NLP:TorchAcc提速BERT Base分布式训练

本文为您介绍如何在BERT-Base分布式训练中接入TorchAcc并实现训练加速。测试环境配置 测试环境配置方法,请参见 配置测试环境。本案例以 DSW 环境V100M16卡型为例,例如:节点规格选择 ecs.gn6v-c8g1.16xlarge-64c256gNVIDIA V100*8。接入 ...

在ASM中实现分布式跟踪

服务网格 ASM集成了阿里云可观测链路OpenTelemetry版,为分布式应用的开发者提供了完整的调用链路还原、调用请求量统计、链路拓扑、应用依赖分析等能力,可以帮助开发者快速分析和诊断分布式应用架构下的性能瓶颈,提升开发诊断效率。...

AIGC:TorchAcc提速Stable Diffusion分布式训练

本文为您介绍如何在Stable Diffusion分布式训练中接入TorchAcc并实现训练加速。测试环境配置 测试环境配置方法,请参见 配置测试环境。本案例以 DSW 环境V100M16卡型为例,例如:节点规格选择 ecs.gn6v-c8g1.16xlarge-64c256gNVIDIA V100*8...

设置分布式事务白名单

设置分布式事务白名单可以确保事务一致性和隔离性。通过设置白名单,可明确允许哪些ECS实例可以参与到RDS SQL Server实例的分布式事务中,从而提升系统安全稳定性、方便排查解决事务一致性问题等。本文介绍设置分布式事务白名单的相关操作...

分布式任务调度 SchedulerX 控制台集成到微服务引擎 ...

为了给您带来更加全面,稳定和丰富的产品体验,阿里云分布式任务调度 SchedulerX 控制台将于2024年01月31日集成到微服务引擎 MSE 产品控制台。变更详情 变更内容:SchedulerX 产品控制台新集成到微服务引擎 MSE 产品控制台,包括产品控制台...

云原生分布式数据库 PolarDB-X系统权限策略参考

本文描述云原生分布式数据库 PolarDB-X支持的所有系统权限策略及其对应的权限描述,供您授权 RAM 身份时参考。什么是系统权限策略 权限策略是用语法结构描述的一组权限的集合,可以精确地描述被授权的资源集、操作集以及授权条件。阿里云...

在ASM中实现分布式跟踪

服务网格 ASM集成了阿里云可观测链路OpenTelemetry版,为分布式应用的开发者提供了完整的调用链路还原、调用请求量统计、链路拓扑、应用依赖分析等能力,可以帮助开发者快速分析和诊断分布式应用架构下的性能瓶颈,提升开发诊断效率。...

分布式训练产品DLC支持监控指标订阅和告警

通过监控告警功能,用户可以监控PAI-DLC分布式训练任务资源,并灵活地配置告警规则。产品文档 https://help.aliyun.com/zh/pai/user-guide/usage-notes-and-metrics-of-monitoring-and-alerting?spm=a2c4g.11186623.0.0.38f745a4Z6882g

企业级分布式应用服务的审计事件

企业级分布式应用服务已与操作审计服务集成,您可以在操作审计中查询用户操作企业级分布式应用服务产生的管控事件。操作审计支持将管控事件投递到日志服务SLS的LogStore或对象存储OSS的存储空间中,满足实时审计、问题回溯分析等需求。操作...

快速体验分布式事务

您可以通过入门基础样例快速体验如何使用 GTS 实现分布式事务。基础样例简介 样例工程模拟了资金转账的应用。包含 2 个数据源:账户 A 数据源:存储 A 的资金。账户 B 数据源:存储 B 的资金。通过 GTS 管理的分布式事务,保障账户 A 和 B ...

目标识别:TorchAcc提速Swin Transformer分布式训练

本文为您介绍如何在Swin Transformer分布式训练中接入TorchAcc并实现训练加速。测试环境配置 测试环境配置方法,请参见 配置测试环境。本案例以PAI-DSW环境V100M16卡型为例,例如:节点规格选择 ecs.gn6v-c8g1.16xlarge-64c256gNVIDIA V100...

目标分类:TorchAcc提速ResNet-50分布式训练

本文为您介绍如何在ResNet-50分布式训练中接入TorchAcc并实现训练加速。测试环境配置 测试环境配置方法,请参见 配置测试环境。本案例以 DSW 环境V100M16卡型为例,例如:节点规格选择 ecs.gn6v-c8g1.16xlarge-64c256gNVIDIA V100*8。接入...

云原生分布式数据库PolarDB-X 2.0的审计事件

云原生分布式数据库PolarDB-X 2.0(Polardbx)已与操作审计服务集成,您可以在操作审计中查询用户操作Polardbx产生的管控事件。操作审计支持将管控事件投递到日志服务SLS的LogStore或对象存储OSS的存储空间中,满足实时审计、问题回溯分析...

使用DTS将华为云分布式缓存服务Redis迁移至阿里云

使用数据传输服务(DTS),您可以将数据从华为云分布式缓存服务Redis迁移至阿里云云数据库Redis版。前提条件 华为云Redis实例的引擎版本为Redis 3.0。源数据库实例类型为单机版。源数据库实例支持公网连接。已创建阿里云Redis实例,相关...

【通知】2023年08月起PolarDB分布式版的标准版系列...

云原生数据库PolarDB分布式版于2023年08月起下调标准版系列实例所有规格的包年包月和按量付费价格。下调后,标准版系列实例的价格将平均降低约40%,最低至0.75元/小时。降价开始时间 2023年08月 降价对象 PolarDB分布式版的标准版系列实例...

分布式多步骤事务

本文介绍了如何使用 Serverless 工作流 提供长流程分布式事务保证,帮助用户聚焦于自身业务逻辑。简介 复杂的业务场景例如电商网站、酒店、航班预定这类涉及订单管理的应用通常要访问多个远程服务,并且对操作事务性语义(即所有步骤全部...

分布式实例添加子实例

创建完成分布式实例后,仅包含一个子实例,您需要为该分布式实例添加单个或多个子实例来组建完整的架构,单个分布式实例中最多可包含三个子实例。添加后,多个子实例间会自动进行实时的数据同步。前提条件 已创建分布式实例,详情请参见 ...

分布式实例添加子实例

创建完成分布式实例后,仅包含一个子实例,您需要为该分布式实例添加单个或多个子实例来组建完整的架构,单个分布式实例中最多可包含三个子实例。添加后,多个子实例间会自动进行实时的数据同步。前提条件 已创建分布式实例,详情请参见 ...

【产品变更】应用中心功能迁移至分布式云容器平台ACK ...

结合容器镜像服务ACR企业版和 分布式工作流Argo集群概述 等能力,支持企业构建 基于ACK One GitOps和ACR构建CI/CD流水线。对于新增应用,您可以直接通过ACK One GitOps进行管理。更多信息,请参见 ACK One GitOps最佳实践。对于存量应用,...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
金融分布式架构 企业级分布式应用服务 轻量应用服务器 弹性公网IP 短信服务 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用