使用任务队列ack-kube-queue

任务队列ack-kube-queue旨在管理Kubernetes中的AI/ML工作负载和批处理工作负载。它允许系统管理员使用自定义队列的作业队列管理,以提高队列的灵活性。结合Quota系统,ack-kube-queue自动优化了工作负载和资源配额管理,以便最大化利用集群...

安装共享GPU调度组件

关于云原生AI套件的更多信息,请参见 云原生AI套件概述。已创建 ACK集群Pro版。ACK Pro集群的实例规格架构设置为 GPU云服务器。其他配置,请参见 创建ACK集群Pro版。已获取集群KubeConfig并通过kubectl工具连接集群。使用限制 请勿将共享...

云原生AI套件概述

云原生AI套件是阿里云容器服务ACK提供的云原生AI技术和产品方案。使用云原生AI套件,您可以充分利用云原生架构和技术,在Kubernetes容器平台上快速定制化构建AI生产系统,并为AI/ML应用和系统提供全栈优化。本文介绍云原生AI套件产品架构、...

部署KServe模型推理服务

已安装云原生AI套件。已创建ASM实例,且版本为1.17.2.7及以上。具体操作,请参见 创建ASM实例 或 升级ASM实例。已安装KServe组件。具体操作,请参见 ASM集成KServe实现云原生AI模型推理服务。已安装Arena客户端,且版本不低于0.9.11。具体...

访问AI开发控制台

安装云原生AI运维控制台组件(ack-ai-dashboard)和云原生AI开发控制台组件(ack-ai-dev-console)后,您可以在 云原生AI套件 页面左上方看到 运维控制台 和 开发控制台,单击相应控制台可直接进行访问。为RAM用户 新增配额组。如果已有...

快速入门

ACK Edge集群 创建边缘托管版集群 云原生AI套件 云原生AI套件开发者使用指南 介绍开发者如何利用云原生AI套件,在ACK集群运行深度学习任务,优化分布式训练性能,调试模型效果,并最终把模型部署到ACK集群中。云原生AI套件管理员运维指南 ...

PAI使用引导

在模型开发过程中,模型开发者可以根据使用场景创建AI资产,并对其进行管理,详情请参见 AI资产管理。操作账号及权限管控 阿里云账号:使用该账号可完成所有操作,无需额外授权。RAM用户:支持对RAM用户做细分的权限管控,详情请参见 开通...

配置训练数据和代码

ACK Pro版集群已安装云原生AI套件开发控制台 和 调度组件,且集群Kubernetes版本不低于1.20。集群管理员在 RAM控制台 创建子账号(即RAM用户),并为该子账号分配和关联配额组。具体操作,请参见 步骤一:为用户配置配额组。创建存储卷...

历史功能发布记录(2023年)

全部 ack-advanced-audit 云原生AI套件 AI开发控制台支持将保存的Notebook镜像推送到ACR镜像仓库 ack-ai-dev-console组件是 云原生AI套件 提供的开发控制台组件,加入commit-agent组件与ack-commit-ctl工具后,使得ECS上Notebook实例可以...

提交Tensorflow训练任务和定时任务

ACK Pro版集群已安装云原生AI套件开发控制台 和 调度组件,且集群Kubernetes版本不低于1.20。集群管理员在 RAM控制台 创建子账号(即RAM用户),并为该子账号分配和关联配额组。具体操作,请参见 步骤一:为用户配置配额组。已配置训练...

历史功能发布记录(2022年)

ACK云原生AI套件支持自动清理定时任务 ACK云原生AI套件支持在提交定时任务时配置历史记录数量,集群中会保留该定时任务创建的任务数量,超过该数量,会自动删除创建时间最早的任务。全部 提交Tensorflow训练任务和定时任务 ACK@Edge支持...

创建并使用Notebook

数据科学家可以使用云原生AI套件创建Notebook(云原生AI套件提供Jupyter和VSCode两种类型的Notebook)来进行机器学习算法的开发调试,并将算法提交到ACK集群中进行训练。云原生AI套件可按用户选择,将开源JupyterLab、用户自定义的Jupyter...

云原生AI套件计费说明

索引 计费说明:计费流程、计费组成、付费方式与计费周期、计费项及定价、计费公式及示例 查看账单明细 欠费说明 计费常见问题 计费流程 计费组成 使用云原生AI套件所产生费用=云原生AI套件费用+ACK费用+其他云产品费用 云原生AI套件费用:...

视频专区

主题 视频 相关文档 云原生AI套件概述 云原生AI套件概述 如何安装ACK云原生AI套件 安装云原生AI套件 如何使用ACK共享GPU调度 共享GPU调度概述 Fluid数据加速 数据加速Fluid概述 如何安装Arena并使用Arena提交Gang Scheduling任务 安装Arena...

云原生AI套件开发者使用指南

本文以开源数据集fashion-mnist任务为例,介绍开发者如何利用云原生AI套件,在ACK集群运行深度学习任务,优化分布式训练性能,调试模型效果,并最终把模型部署到ACK集群中。背景信息 云原生AI套件包括一系列可单独部署的组件(K8s Helm ...

安装云原生AI套件

如果您已安装云原生AI运维控制台组件(ack-ai-dashboard)和云原生AI开发控制台组件(ack-ai-dev-console)后,可以在 云原生AI套件 页面左上方看到 运维控制台 和 开发控制台,单击相应控制台可直接进行访问。如果您已安装PAI轻量化控制台...

通义听悟服务等级协议

本服务等级协议(Service Level Agreement,简称 SLA)规定了阿里云向客户提供的通义 听悟开发套件 服务可用性等级指标及赔偿方案。请参见 通义听悟服务等级协议(SLA)。

【产品变更】ACK云原生AI套件商用收费与优惠活动公告

尊敬的阿里云用户,为提供更优质的服务,阿里云容器服务ACK云原生AI套件将于2022年10月10日00:00:00启动该服务的收费,并提供限时5折优惠活动帮助您更好的体验该服务,活动截止至2023年03月31日24:00:00。这些不会影响您已有组件和任务的...

在ACK集群部署多租户任务调度管理

在ACK集群中,企业可以通过AI套件中的任务管理工具Arena、队列调度管理系统Kube Queue、配额管理工具ElasticQuotaTree以及Prometheus监控打造企业级任务调度系统。本文将从实际案例出发自底而上地介绍如何基于ACK集群构建一个任务调度系统...

ack-ai-dev-console

ack-ai-dev-console组件是云原生AI套件提供的开发控制台组件。安装后,算法工程师和数据科学家可通过简单的Web界面完成训练任务快速提交、任务生命周期管理等操作。本文介绍ack-ai-dev-console组件的基础信息、使用说明和变更记录。组件...

开发流程

创建及管理数据集 ② DSW 是为AI开发者量身定制的云端机器学习交互式开发IDE,可以随时随地开启Notebook快速读取数据、开发算法、训练及部署模型。DSW概述 ③ 镜像管理模块为您展示PAI提供的官方公开镜像以及自定义镜像关联功能,从而在PAI...

新建资源组并购买通用计算资源

为使用专属的通用计算资源进行AI开发,以提升AI开发和训练效率,您需要先创建一个专有资源组并购买必要的计算资源。本文为您介绍如何创建专有资源组和购买计算资源。背景信息 专有资源组需要购买计算资源。关于计算资源的定价详情,请参见 ...

实践教程

最佳实践索引 集群类型 相关文档 托管版与专有版容器集群ACK 托管与专有版容器集群ACK最佳实践 ACK Serverless集群 ACK Serverless集群最佳实践 云原生AI套件 云原生AI套件最佳实践 分布式云容器平台ACK One 分布式云容器平台ACK One最佳...

升级ack-fluid组件

ack-fluid是云原生AI套件提供的Kubernetes环境下的分布式数据集编排和数据访问加速组件。本文介绍如何升级Fluid数据加速组件以及常见问题。前提条件 已创建ACK Pro版集群,且集群版本为1.18及以上。具体操作,请参见 创建ACK Pro版集群。已...

AI推理服务概述

借助ACK云原生AI套件提供的Arena命令行工具、AI负载调度、GPU管理、资源弹性伸缩等基础能力,您可以在Kubernetes集群中简便、高效地把训练好的模型部署为AI推理服务。阿里云容器服务ACK支持为推理服务提供弹性伸缩、GPU共享调度、性能监控...

开通并授权依赖的阿里云产品

使用PAI进行AI开发过程中,不同的开发场景下需要联合使用一些其他阿里云产品,如OSS、MaxCompute等,因此在正式开始AI开发前,您需要根据场景提前开通好对应的其他云产品并做好授权,以保障后续的开发工作可以顺利进行。本文介绍各场景下...

创建工作空间

工作空间是PAI的顶层概念,为企业和团队提供统一的计算资源管理及人员权限管理能力,为AI开发者提供支持团队协作的全流程开发工具以及AI资产管理能力。本文介绍创建工作空间的权限要求,以及创建的具体步骤。前提条件 已开通PAI,详情请...

通过Dataload定时更新Dataset数据

已安装云原生AI套件:在 容器服务管理控制台 的 云原生AI套件 页面部署 ack-fluid。已通过kubectl连接Kubernetes集群。具体操作,请参见 通过kubectl工具连接集群。步骤一:准备OSS Bucket的数据 执行以下命令,下载一份测试数据。wget ...

开发概览

本文介绍使用Lindorm AI引擎进行应用开发时的操作流程。如何使用Lindorm AI引擎 类型 说明 参考文档 模型创建 导入预训练AI模型或对时序数据进行建模训练,用于后续对数据进行分析和处理或执行时序分析类任务。模型创建 模型管理 查看数据...

【产品变更】云原生AI套件计量模式和定价方案升级公告

为了给您提供更好的体验,云原生AI套件对计量模式和定价方案进行了升级。本文介绍云原生AI套件计量模式和定价方案升级内容。升级集群规模的计量模式 云原生AI套件根据集群规模(vCPU核数和GPU卡数)计算费用。升级后的集群规模的计量模式...

开通PAI并创建默认工作空间

工作空间是PAI的顶层概念,为企业和团队提供统一的计算资源管理及人员权限管理能力,为AI开发者提供支持团队协作的全流程开发工具及AI资产管理能力。因此,使用PAI功能时需要先开通PAI并创建默认工作空间。本文为您介绍开通需要的权限、...

基于ECS的弹性推理

具体操作,请参见 安装云原生AI套件。已 配置Arena客户端。操作步骤 创建弹性节点池。登录 容器服务管理控制台。在控制台左侧导航栏,单击 集群。在 集群列表 页面,单击目标集群名称或者目标集群右侧 操作 列下的 详情。在集群管理页左侧...

概述

DataWorks(数据工场,原大数据开发套件)是阿里云重要的PaaS(Platform-as-a-Service)平台产品,为您提供 数据集成、数据开发、数据地图、数据质量 和 数据服务 等全方位的产品服务,一站式开发管理的界面,帮助企业专注于数据价值的挖掘...

云原生AI套件管理员运维指南

如果您已安装云原生AI运维控制台组件(ack-ai-dashboard)和云原生AI开发控制台组件(ack-ai-dev-console)后,可以在 云原生AI套件 页面左上方看到 运维控制台 和 开发控制台,单击相应控制台可直接进行访问。如果您已安装PAI轻量化控制台...

AI任务概述

借助ACK云原生AI套件提供的Arena命令行工具、AI负载调度、弹性数据集加速、GPU异构资源管理等基础能力,您可以在Kubernetes集群中简便、高效地运行各种AI任务,比如模型训练、测试和分析模型性能、部署模型推理服务等。本文介绍使用云原生...

通过配置JindoRuntime实现Master组件状态持久化存储

已安装云原生AI套件并部署ack-fluid组件,且ack-fluid版本为1.0.5及以上。具体操作,请参见 安装云原生AI套件。重要 若您已安装开源Fluid,请卸载后再部署ack-fluid组件。已通过kubectl连接Kubernetes集群。具体操作,请参见 获取集群...

访问AI运维控制台

AI控制台包括运维控制台和开发控制台,均支持公网和私网两种访问方式。本文以运维控制台为例说明如何配置访问方式。前提条件 已创建ACK Pro版集群,且在组件配置页面选中 监控插件 和 日志服务。具体操作,请参见 创建ACK Pro版集群。ACK ...

安装GPU拓扑感知调度组件

更多关于部署云原生AI套件的配置项介绍,请参见 安装云原生AI套件。部署完成后,在 云原生AI套件 页面的 组件列表,您可以看到已安装的GPU拓扑感知调度组件ack-ai-installer。说明 如您之前一键部署过云原生AI套件,则可以直接在组件列表,...

管理用户组

用户组为资源分配的基本单位,您可在AI运维控制台通过用户组管理多个用户。本文介绍基于AI运维控制台如何管理用户组。前提条件 已安装配置AI运维控制台组件。具体操作,请参见 安装云原生AI套件。已获取AI运维控制台管理员的RAM用户(子...

联系我们

如果您对于云原生AI套件有任何反馈或疑问,请加入钉群(钉群号:33214567)联系我们。
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
视觉计算服务 物联网平台 视觉智能开放平台 弹性公网IP 短信服务 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用