部署Tensorflow模型推理服务

本文介绍如何通过Arena将TensorFlow模型部署成推理服务。前提条件 已创建包含GPU的Kubernetes集群。集群节点可以访问公网。已配置Arena客户端。已完成TensorFlow单机训练。操作步骤 说明 本文采用TensorFlow 1.15训练的Bert模型部署推理...

监控集群GPU资源最佳实践

apiVersion:batch/v1 kind:Job metadata:name:tensorflow-benchmark-exclusive spec:parallelism:1 template:metadata:labels:app:tensorflow-benchmark-exclusive spec:containers:name:tensorflow-benchmark image:registry....

提交GPU共享模型推理任务

系统输出类似以下结果:2021-01-18 13:21:58.482985:I external/org_tensorflow/tensorflow/cc/saved_model/loader.cc:206]Restoring SavedModel bundle.2021-01-18 13:21:58.483673:I external/org_tensorflow/tensorflow/core/platform/...

使用AIACC-Training TensorFlow

TensorFlow目前进行数据分布式训练的主流方式是Horovod,AIACC-Training 1.5支持使用Horovod API兼容的方式对TensorFlow分布式训练进行加速。本文为您介绍使用AIACC-Training TensorFlow版的具体操作及可能遇到的问题。适配Horovod API 本...

PAI官方镜像

TensorFlow 框架版本 CUDA版本(仅GPU机型)操作系统 TensorFlow2.6 TensorFlow2.3 TensorFlow2.21 TensorFlow2.11 TensorFlow1.15,TensorFlow1.15.5 TensorFlow1.12 CUDA 114 CUDA 113 CUDA 112 CUDA 101 CUDA 100 Ubuntu 20.04 Ubuntu ...

提交Tensorflow训练任务和定时任务

本文介绍如何在AI开发控制台提交一个TensorFlow训练任务和定时任务。前提条件 创建ACK Pro版集群。ACK Pro版集群已安装云原生AI套件的 开发控制台 和 调度组件,且集群Kubernetes版本不低于1.20。集群管理员在 RAM控制台 创建子账号(即RAM...

TensorFlow读写MaxCompute表

本文为您提供使用TensorFlow读写MaxCompute表的相关代码下载地址。读写MaxCompute表代码

优化TensorFlow模型

本文介绍如何使用PAI-Blade优化TensorFlow模型,所有实验结果均在NVidia T4卡上测得。前提条件 已安装TensorFlow及PAI-Blade的Wheel包,详情请参见 安装Blade。已有训练完成的TensorFlow模型,本文使用一个公开的ResNet50模型。优化...

TensorFlow分布式训练

本文展示如何使用Arena提交TensorFlow基于PS-Worker模式的分布式训练作业,并通过TensorBoard可视化查看训练作业。前提条件 创建包含GPU的Kubernetes集群。集群节点可以访问公网。配置Arena客户端。已给集群配置了Arena使用的PVC,并且PVC...

TensorFlow单机训练

本文展示如何使用Arena提交TensorFlow的单机训练作业,并通过TensorBoard可视化查看训练作业。前提条件 创建包含GPU的Kubernetes集群。集群节点可以访问公网。配置Arena客户端。已给集群配置了Arena使用的PVC,并且PVC已填充本文使用的数据...

预置Processor使用说明

1.14 TensorFlow1.14 Processor TensorFlow1.15 tensorflow_cpu_1.15 tensorflow_gpu_1.15 TensorFlow1.15 Processor(内置PAI-Blade敏捷版优化引擎)TensorFlow2.3 tensorflow_cpu_2.3 无 TensorFlow2.3 Processor PyTorch1.6 pytorch_cpu...

步骤一:部署客户端

创建客户端实例并设置网络安全组权限。运行客户端的实例需满足以下要求:实例规格:客户端无需运行在SGX环境下,您可以选择满足基本需求(推荐最小规格为2 vCPU,4 GiB)的实例运行客户端。镜像:Alibaba Cloud Linux 2或Alibaba Cloud ...

TensorFlow模型如何导出为SavedModel

本文为您介绍如何将TensorFlow模型导出为SavedModel格式。SavedModel格式 使用 EAS 预置官方Processor将TensorFlow模型部署为在线服务,必须先将模型导出为官方定义的SavedModel格式(TensorFlow官方推荐的导出模型格式)。SavedModel模型...

使用EAIS推理TensorFlow模型

背景信息 本教程将引导您创建一个华东1(杭州)地域、eais.ei-a6.2xlarge规格的EAIS实例,并以公开的resnet50模型、inception模型和bert-base模型为例,带您体验基于目标检测的推理场景下,使用EAIS推理TensorFlow模型的完整操作流程。...

使用NLB挂载同地域IDC服务器

某企业在阿里云华东1(杭州)地域创建了专有网络VPC1,在该VPC1中创建了一个 NLB 实例。该企业希望VPC1中的 NLB 实例可以将请求转发至同地域的IDC(Internet Data Center)服务器。该企业可以使用云企业网CEN(Cloud Enterprise Network)...

管理第三方库

更新第三方库 一些第三方库不支持卸载,比如 tensorflow-gpu,只能使用更新命令安装固定版本的 tensorflow-gpu,且新版本必须与CUDA版本(预付费实例的CUDA版本为10,后付费实例的CUDA版本为9)兼容。您可以使用以下命令更新已安装的第三方...

GPU节点卡型属性标签

展开查看YAML文件详细信息 apiVersion:batch/v1 kind:Job metadata:name:tensorflow-mnist spec:parallelism:1 template:metadata:labels:app:tensorflow-mnist spec:nodeSelector:aliyun.accelerator/nvidia_name:"Tesla-V100-SXM2-32GB"#...

云原生AI套件开发者使用指南

usr/bin/python#-*-coding:UTF-8-*-import os import gzip import numpy as np import tensorflow as tf from tensorflow import keras print('TensorFlow version:{}'.format(tf._version_))dataset_path="/root/data/"model_path="./...

AI加速:使用EPL实现AI训练加速

您也可以使用EPL代码示例快速开始分布式TensorFlow训练,本方案使用ResNet-50训练数据配置代码集,您可以使用该代码集提交TensorFlow训练任务,且每次进行模型训练时会自动克隆最新的版本,关于如何配置代码集,具体操作步骤如下所示。...

PAI-TF模型导出和部署说明

警告 公共云GPU服务器即将过保下线,您可以继续提交CPU版本的TensorFlow任务。如需使用GPU进行模型训练,请前往DLC提交任务,具体操作请参见 创建训练任务。导出SaveModel通用模型 SavedModel格式 SavedModel是目前官方推荐的模型保存的...

量化优化

PAI-Blade支持TensorFlow和PyTorch模型在GPU硬件、端侧设备的INT8量化。本文主要介绍在GPU硬件上,如何使用PAI-Blade量化优化。背景信息 量化是模型压缩常用手段之一,通过将原始的全精度32位浮点数分桶量化为位宽更小的定点整数,可以达到...

查看弹性任务

您可以在AI运维控制台中查看Arena提交的弹性任务。本文介绍如何在AI运维控制台上查看弹性任务详情。...arena submit tf \-name=tf-git \-gpus=1 \-image=tensorflow/tensorflow:1.5.0-devel-gpu \-sync-mode=git \-sync-source=...

开启集群GPU监控

GPU监控2.0基于NVIDIA DCGM构建...apiVersion:batch/v1 kind:Job metadata:name:tensorflow-benchmark spec:parallelism:1 template:metadata:labels:app:tensorflow-benchmark spec:containers:name:tensorflow-benchmark image:registry....

PAI-TF超参支持

警告 公共云GPU服务器即将过保下线,您可以继续提交CPU版本的TensorFlow任务。如需使用GPU进行模型训练,请前往DLC提交任务,具体操作请参见 创建训练任务。超参文件 您可以通过一个本地文件配置相应的超参信息,格式如下。batch_size=10 ...

负载均衡 SLB

网络类型:经典网络或专有网络,专有网络的 SLB 会自动导入至其所属 VPC 绑定的工作空间中。服务地址:该 SLB 提供的服务地址以及类型:公网、内网。创建时间:该 SLB 的创建时间。导入后,新导入的 SLB 出现在列表中。单击 SLB 的名字可以...

AI任务概述

TensorFlow单机训练 TensorFlow分布式训练 PyTorch单机训练 PyTorch分布式训练 弹性训练 DeepSpeed分布式训练 模型管理 您可以关联和管理训练任务及其产出的模型。模型管理 模型评测 您可以通过Arena提交模型评测任务,对模型准确率、召回...

AI推理服务概述

提交GPU共享模型推理任务 Tensorflow模型推理服务 您可以通过Arena把Tensorflow模型部署成Tensorflow-serving推理服务。部署Tensorflow模型推理服务 PyTorch模型推理服务 PyTorch是一种深度学习计算框架,可用来训练模型。您可以通过Triton...

ImageItem

名称 类型 描述 示例值 object Docker Image 详情 ImageTag string Docker 镜像的 Tag tensorflow-training:2.3-cpu-py36-ubuntu18.04 ImageUrl string 镜像 URL 地址 registry....registry-vpc....

TensorFlow服务请求构造

本文为您介绍如何为基于通用Processor的TensorFlow服务构造请求数据。输入数据 EAS 预置了TensorFlow Processor,为保证性能,其输入输出为ProtoBuf格式。调用案例 EAS 在华东2(上海)的VPC环境中部署了一个Public的测试案例,其服务名称...

使用TensorFlow实现分布式DeepFM算法

本文为您介绍如何使用TensorFlow实现分布式DeepFM算法。警告 公共云GPU服务器即将过保下线,您可以继续提交CPU版本的TensorFlow任务。如需使用GPU进行模型训练,请前往DLC提交任务,具体操作请参见 创建训练任务。前提条件 开通OSS,并创建...

使用EAS Python SDK部署模型

import tensorflow as tf import tensorflow_datasets as tfds(ds_train,ds_test),ds_info=tfds.load('mnist',split=['train','test'],data_dir='./cached_datasets',shuffle_files=True,as_supervised=True,with_info=True,)def normalize...

使用Kubernetes默认GPU调度

本文以运行GPU的TensorFlow任务为例,介绍如何快速部署一个GPU应用。注意事项 针对纳入K8s集群管理的GPU节点,建议您按照本文示例中标准的K8s扩展资源申请方式为应用申请GPU资源。为业务应用申请和使用GPU资源时,请关注以下注意事项。请勿...

高级配置:模型服务预热

对于部分TensorFlow模型,初次调用时需要将模型相关文件或参数加载到内存中,该过程可能要耗费较长时间,从而导致前几次请求模型服务的RT较长,甚至出现408超时或450等情况。因此,EAS 提供了模型预热功能,即模型服务上线之前对模型服务...

Arena在多用户场景下的最佳实践

本文通过实现五个目标任务举例说明如何在多用户场景下使用Arena。操作视频 前提条件 请确保您已完成以下...arena submit tf \-name=tf-git-bob-01 \-gpus=1 \-image=tensorflow/tensorflow:1.5.0-devel-gpu \-sync-mode=git \-sync-source=...

创建伸缩配置(ECS实例)

如果伸缩组的网络类型是专有网络,请确保安全组和伸缩组所在的专有网络相同。具体操作,请参见 创建安全组。操作步骤 登录 弹性伸缩控制台。在左侧导航栏中,单击 伸缩组管理。在顶部菜单栏处,选择地域。找到待操作的伸缩组,选择任一种...

TensorFlow Serving镜像部署

TensorFlow Serving是一个适用于深度学习模型的推理服务引擎,支持将TensorFlow标准的SavedModel格式的模型部署为在线服务,并支持模型热更新与模型版本管理等功能。本文为您介绍如何使用镜像部署的方式部署TensorFlow Serving模型服务。...

基础术语

服务参数 service parameters 服务提供者可被动态修改的参数,如权重、状态。服务发现 Service Discovery 服务消费者获取服务提供者的网络地址的过程。动态配置 中文 英文 释义 配置类 Configuration class 业务应用中的一个普通 Java 对象...

BERT模型优化案例:使用Blade优化基于TensorFlow的...

本文主要介绍如何使用Blade优化通过TensorFlow训练的BERT模型。使用限制 本文使用的环境需要满足以下版本要求:系统环境:Linux系统中使用Python 3.6及其以上版本、CUDA 10.0。框架:TensorFlow 1.15。推理优化工具:Blade 3.16.0及其以上...

安装AIACC-Training

AIACC-Training支持基于主流人工智能(包括PyTorch、TensorFlow、MXNet、Caffe等)搭建的模型进行分布式训练。在接口层面上,目前AIACC-Training兼容了PyTorch DDP以及Horovod的API,对于原生使用上述分布式训练方法的训练代码,可以做到无...

AI加速使用案例汇总

BERT模型优化案例:使用Blade优化基于TensorFlow的BERT模型 介绍如何使用Blade优化通过TensorFlow训练的BERT模型。ResNet50优化案例:使用Blade优化基于TensorFlow的ResNet50模型 介绍如何使用Blade优化基于TensorFlow的ResNet50模型。...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
NAT网关 共享流量包 弹性公网IP 高速通道 负载均衡 短信服务
新人特惠 爆款特惠 最新活动 免费试用