[帮助文档] 如何使用AI套件管理训练任务产出的模型
本文介绍如何管理训练任务产出的模型,并进一步对模型进行评测和部署。
[帮助文档] 使用抢占式实例弹性训练以降低AI模型的训练成本
为降低使用AI模型训练成本,云原生AI套件推出基于抢占式实例的弹性训练解决方案,该方案可以将AI模型训练这种有状态类型的工作负载运行在抢占式实例上,几乎可以做到在不影响训练作业成功率的情况下降低训练成本。
[帮助文档] 弹性训练
弹性训练
[帮助文档] AI加速:如何使用Pai-Megatron-Patch实现训练加速
Pai-Megatron-Patch结合了多种优化技术,对PyTorch版Transformer模型的训练进行优化,从而达到最优的训练性能。本文为您介绍Pai-Megatron-Patch的工作原理和使用流程。
[帮助文档] AI加速:在DLC中使用EPL实现训练加速
EPL(Easy Parallel Library)是高效易用的分布式模型训练框架,深度集成多种训练优化技术,提供了简单易用的API实现各种并行化策略。您可以使用EPL实现低成本、高性能分布式模型训练。本文为您介绍如何在DLC中使用EPL高效地进行分布式TensorFlow训练。
华为发布全球最快AI训练集群Atlas900,训练ResNet50仅需59.8秒,昇腾910加持
华为总裁任正非在最近接受采访时曾表示,华为即将发布全世界最快的人工智能平台。在今天的全联接大会上,华为揭幕了这款 AI 训练集群 Atlas 900:它成为了目前全球计算机的巅峰,其总算力达到 256P~1024P FLOPS @FP16,相当于 50 万台 PC 的计算能力。「特别感谢在这个关键时...
阿里公开自研AI集群细节:64个GPU,百万分类训练速度提升4倍
乾明 发自 凹非寺 量子位 报道 | 公众号 QbitAI 从节点架构到网络架构,再到通信算法,阿里巴巴把自研的高性能AI集群技术细节写成了论文,并对外公布。 论文名为EFLOPS: Algorithm and System Co-design for a High Performance Dist...
本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。