场景描述 本文介绍了混合云场景中,自建 Kubernetes服务,线下集群+云上弹性扩 展阿里云GPU服务实例+飞天AI加速工 具,并采用阿里云CPFS存储,运行AI训 练+AI推理作业的操作步骤。 解决问题 1.利用云企业网打通两个地域的VPC, 自建Kubernetes集群 2.使用飞天AI加速工具运行训练和推理 作业 3.使用CPFS存储共享数据 产品列表 云企业网CEN GPU云服务器 并行文件存储CPFS 文件存储NAS
Arena是阿里云容器服务团队为 AI任务运行在 Kubernetes集群中提供的效率工 具,大大简化机器学习技术栈的部署、使用中的复杂性,把异构计算和云原生技 术的最佳实践通过友好的用户体验交付出来。Arena通过命令行工具,支持深度 学习工作流中模型开发,训练,推理服务等,并提供了 Kubernetes GPU集群管 理运维能力。...