通用环境变量列表

DLC为TensorFlow训练配置的通用环境变量如下:环境变量名 描述 TF_CONFIG TensorFlow分布式网络拓扑信息,示例如下:{"cluster":{"worker":["dlc1y3madghd*-worker-0.t1612285282502324.svc:2222","dlc1y3madghd*-worker-1.t...

准备工作

提交分布式训练任务时支持选择的公共镜像列表如下:类型 框架 镜像 社区镜像 TensorFlow tensorflow-training:2.3-cpu-py36-ubuntu18.04 tensorflow-training:2.3-gpu-py36-cu101-ubuntu18.04 tensorflow-training:1.15-cpu-py36-ubuntu18....

灵骏智算资源组使用指南

TensorFlow环境变量 TensorFlow分布式作业通过TF_CONFIG环境变量来构建分布式的网络拓扑信息,对于TensorFlow,DLC设置了如下环境变量:环境变量名 描述 TF_CONFIG TensorFlow分布式网络拓扑信息,示例如下:{"cluster":{"worker":["dlc1y3...

命令行使用说明

vpc,-vpc,-vpc_name:指定私有网络名称。cuda,-install_cuda,-cuda_install:自动化安装CUDA。创建一个Ubuntu系统的实例,并指定实例名称和规格,同时自动安装CUDA:fastgpu create-name fastgpu_vm-np 1-instance_type ecs.gn6v-c8g1.16...

使用EAIS推理PyTorch模型(Python)

您可以在ECS实例(非GPU实例)上绑定一个...您也可以使用EAIS体验EAIS推理TensorFlow模型的完整使用流程,帮助您快速上手EAIS,具体操作,请参见 使用EAIS推理TensorFlow模型。说明 更多EAIS实例使用方法,请参见 使用EAIS实例 或 实践教程。

使用EAIS推理PyTorch模型(C++)

您可以在ECS实例(非GPU实例)上绑定一个...您也可以使用EAIS体验EAIS推理TensorFlow模型的完整使用流程,帮助您快速上手EAIS,具体操作,请参见 使用EAIS推理TensorFlow模型。说明 更多EAIS实例使用方法,请参见 使用EAIS实例 或 实践教程。

创建GPU实例

网络类型 说明 相关文档 专有网络 专有网络是您在阿里云自己定义的一个隔离网络环境,您可以完全掌控自己的专有网络,例如选择IP地址范围、配置路由表和网关等。如果在创建实例时不需要自定义专有网络配置,您可以跳过本步骤,系统会自动...

PAI视频分类

PAI平台提供视频分类相关算法,支持千万级别超大规模的视频样本训练。本文为您介绍如何基于短视频...视频分类最终生成的模型为TensorFlow SaveModel格式,存储在 model_dir 路径下。您可以将该模型部署至EAS,详情请参见 服务部署:控制台。

步骤二:部署vSGX端

本实践配置如下:sgx.protected_files.model="file:models/resnet50-v15-fp32/1/saved_model.pb"用户侧生成的加密模型文件和TLS配置文件后,通过网络传输放到TensorFlow_Serving目录下。sgx_default_qcnl.conf:配置阿里云PCCS访问地址 tf_...

在ACK集群上使用eRDMA

弹性RDMA(Elastic Remote Direct Memory Access,简称eRDMA),是阿里云提供的低延迟、大吞吐、高弹性的高性能RDMA网络服务。eRDMA是基于第四代神龙系统架构和云上VPC网络、100%兼容RDMA生态、提供超大规模网络部署的ECS普惠RDMA服务。...

ResNet50优化案例:使用Blade优化基于TensorFlow的...

ResNet50作为一个广泛应用的经典结构网络,其优化在多种推理部署场景中都具有很高的实用价值。本文介绍如何使用Blade优化基于TensorFlow的ResNet50模型。背景信息 残差网络ResNet(Residual Network)作为计算机视觉任务主干经典神经网络的...

在文件存储 HDFS 版上使用TensorFlow

本文介绍如何在 文件存储 HDFS 版 上使用TensorFlow。前提条件 已开通 文件存储 HDFS 版 服务并。具体操作,请参见 开通文件存储HDFS版服务。已完成创建文件系统、添加挂载点和挂载文件系统。具体操作,请参见 快速入门。已为Hadoop集群...

Tensorflow

tensorflow_cpu_2.7 Tensorflow 2.7 否 tensorflow_gpu_1.12 Tensorflow 1.12 是 tensorflow_gpu_1.14 Tensorflow 1.14 是 tensorflow_gpu_1.15 Tensorflow 1.15 是 tensorflow_gpu_2.4 Tensorflow 2.4 是 tensorflow_gpu_2.7 Tensorflow 2...

TensorFlow(仅对存量用户开放)

Data Science集群内置Python 3的Tensorflow 1.15.0版本,可以直接使用。其中Master节点只支持购买CPU资源计算TensorFlow作业,Core节点支持购买CPU或GPU资源计算TensorFlow作业。本文主要介绍如何查看TensorFlow的版本、切换TensorFlow版本...

使用GPU拓扑感知调度(Tensorflow版)

arena get tensorflow-topo-4-vgg16-type mpijob 预期输出:Name:tensorflow-topo-4-vgg16 Status:RUNNINGNamespace:default Priority:N/A Trainer:MPIJOB Duration:2m Instances:NAME STATUS AGE IS_CHIEF GPU(Requested)NODE-tensorflow-...

使用EAIS推理TensorFlow模型

def(graph_def,name='')with tf.Session()as sess:result=sess.run(.)如果您需要使用EAIS推理您的TensorFlow模型,请将源代码修改为如下内容:#导入tensorflow模块 import tensorflow as tf#导入eais tensorflow模块 import eais_...

在GPU实例上部署NGC环境

本文以搭建TensorFlow深度学习框架为例,为您介绍如何在GPU实例上部署NGC环境。背景信息 NGC作为一套深度学习生态系统,阿里云在镜像市场提供了针对NVIDIA Pascal GPU优化的NGC容器镜像。通过部署镜像市场的NGC容器镜像,您能简单快速地...

附录:历史版本下载与安装

v3.27.0 Python包安装命令如下:CPU Tensorflow 1.15.0与PyTorch 1.6.0。pai_blade_cpu pip3 install pai_blade_cpu=3.27.0+1.15.0.1.6.0-f ...

使用SDK部署TensorFlow模型推理

前提条件 已使用PAI-Blade对TensorFlow模型进行了优化,详情请参见 优化TensorFlow模型。已安装SDK并获取鉴权Token,详情请参见 安装Blade。因为本文使用GCC 4.8,所以需要使用pre-cxx11 ABI的SDK。本文选用3.7.0版本的RPM包。说明 经过PAI...

创建TensorFlow任务

通过ACK One Fleet实例,您可以使用和单集群相同的方式创建TensorFlow任务。由Fleet实例根据TensorFlow任务需要的资源和关联集群的剩余资源,执行动态调度策略,选择适合的关联集群下发TensorFlow任务。本文介绍如何创建TensorFlow任务并...

安装Blade

您可以安装TensorFlow社区提供的包,安装命令如下:#GPU 版本的 Tensorflow pip3 install tensorflow-gpu=1.15.0#或者:pip3 install tensorflow-gpu=2.4.0#CPU 版本的 Tensorflow pip3 install tensorflow=1.15.0#或者 pip3 install ...

监控集群GPU资源最佳实践

apiVersion:batch/v1 kind:Job metadata:name:tensorflow-benchmark-exclusive spec:parallelism:1 template:metadata:labels:app:tensorflow-benchmark-exclusive spec:containers:name:tensorflow-benchmark image:registry....

提交GPU共享模型推理任务

系统输出类似以下结果:2021-01-18 13:21:58.482985:I external/org_tensorflow/tensorflow/cc/saved_model/loader.cc:206]Restoring SavedModel bundle.2021-01-18 13:21:58.483673:I external/org_tensorflow/tensorflow/core/platform/...

使用AIACC-Training TensorFlow

TensorFlow目前进行数据分布式训练的主流方式是Horovod,AIACC-Training 1.5支持使用Horovod API兼容的方式对TensorFlow分布式训练进行加速。本文为您介绍使用AIACC-Training TensorFlow版的具体操作及可能遇到的问题。适配Horovod API 本...

PAI官方镜像

TensorFlow 框架版本 CUDA版本(仅GPU机型)操作系统 TensorFlow2.6 TensorFlow2.3 TensorFlow2.21 TensorFlow2.11 TensorFlow1.15,TensorFlow1.15.5 TensorFlow1.12 CUDA 114 CUDA 113 CUDA 112 CUDA 101 CUDA 100 Ubuntu 20.04 Ubuntu ...

提交Tensorflow训练任务和定时任务

本文介绍如何在AI开发控制台提交一个TensorFlow训练任务和定时任务。前提条件 创建ACK Pro版集群。ACK Pro版集群已安装云原生AI套件的 开发控制台 和 调度组件,且集群Kubernetes版本不低于1.20。集群管理员在 RAM控制台 创建子账号(即RAM...

TensorFlow读写MaxCompute表

本文为您提供使用TensorFlow读写MaxCompute表的相关代码下载地址。读写MaxCompute表代码

优化TensorFlow模型

本文介绍如何使用PAI-Blade优化TensorFlow模型,所有实验结果均在NVidia T4卡上测得。前提条件 已安装TensorFlow及PAI-Blade的Wheel包,详情请参见 安装Blade。已有训练完成的TensorFlow模型,本文使用一个公开的ResNet50模型。优化...

TensorFlow分布式训练

本文展示如何使用Arena提交TensorFlow基于PS-Worker模式的分布式训练作业,并通过TensorBoard可视化查看训练作业。前提条件 创建包含GPU的Kubernetes集群。集群节点可以访问公网。配置Arena客户端。已给集群配置了Arena使用的PVC,并且PVC...

TensorFlow单机训练

本文展示如何使用Arena提交TensorFlow的单机训练作业,并通过TensorBoard可视化查看训练作业。前提条件 创建包含GPU的Kubernetes集群。集群节点可以访问公网。配置Arena客户端。已给集群配置了Arena使用的PVC,并且PVC已填充本文使用的数据...

预置Processor使用说明

1.14 TensorFlow1.14 Processor TensorFlow1.15 tensorflow_cpu_1.15 tensorflow_gpu_1.15 TensorFlow1.15 Processor(内置PAI-Blade敏捷版优化引擎)TensorFlow2.3 tensorflow_cpu_2.3 无 TensorFlow2.3 Processor PyTorch1.6 pytorch_cpu...

TensorFlow模型如何导出为SavedModel

本文为您介绍如何将TensorFlow模型导出为SavedModel格式。SavedModel格式 使用 EAS 预置官方Processor将TensorFlow模型部署为在线服务,必须先将模型导出为官方定义的SavedModel格式(TensorFlow官方推荐的导出模型格式)。SavedModel模型...

管理第三方库

更新第三方库 一些第三方库不支持卸载,比如 tensorflow-gpu,只能使用更新命令安装固定版本的 tensorflow-gpu,且新版本必须与CUDA版本(预付费实例的CUDA版本为10,后付费实例的CUDA版本为9)兼容。您可以使用以下命令更新已安装的第三方...

GPU节点卡型属性标签

展开查看YAML文件详细信息 apiVersion:batch/v1 kind:Job metadata:name:tensorflow-mnist spec:parallelism:1 template:metadata:labels:app:tensorflow-mnist spec:nodeSelector:aliyun.accelerator/nvidia_name:"Tesla-V100-SXM2-32GB"#...

云原生AI套件开发者使用指南

usr/bin/python#-*-coding:UTF-8-*-import os import gzip import numpy as np import tensorflow as tf from tensorflow import keras print('TensorFlow version:{}'.format(tf._version_))dataset_path="/root/data/"model_path="./...

AI加速:使用EPL实现AI训练加速

您也可以使用EPL代码示例快速开始分布式TensorFlow训练,本方案使用ResNet-50训练数据配置代码集,您可以使用该代码集提交TensorFlow训练任务,且每次进行模型训练时会自动克隆最新的版本,关于如何配置代码集,具体操作步骤如下所示。...

PAI-TF模型导出和部署说明

警告 公共云GPU服务器即将过保下线,您可以继续提交CPU版本的TensorFlow任务。如需使用GPU进行模型训练,请前往DLC提交任务,具体操作请参见 创建训练任务。导出SaveModel通用模型 SavedModel格式 SavedModel是目前官方推荐的模型保存的...

量化优化

PAI-Blade支持TensorFlow和PyTorch模型在GPU硬件、端侧设备的INT8量化。本文主要介绍在GPU硬件上,如何使用PAI-Blade量化优化。背景信息 量化是模型压缩常用手段之一,通过将原始的全精度32位浮点数分桶量化为位宽更小的定点整数,可以达到...

开源软件迁移

它拥有一个由工具、库和社区资源组成的全面、灵活的生态系统,被广泛应用于机器学习和深度神经网络研究。在倚天云服务器上,建议您使用以下两种方式使用TensorFlow。使用官方版本构建TensorFlow的Docker镜像。更多信息,请参见 TensorFlow ...

查看弹性任务

您可以在AI运维控制台中查看Arena提交的弹性任务。本文介绍如何在AI运维控制台上查看弹性任务详情。...arena submit tf \-name=tf-git \-gpus=1 \-image=tensorflow/tensorflow:1.5.0-devel-gpu \-sync-mode=git \-sync-source=...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
共享流量包 弹性公网IP 高速通道 负载均衡 VPN网关 短信服务
新人特惠 爆款特惠 最新活动 免费试用