创建及管理数据

高质量的数据集是高精度模型的基础,是数据准备的核心目标。阿里云PAI提供数据集管理模块,支持将各类数据(公共数据集、阿里云云产品中的数据等)创建为数据集,也支持扫描OSS文件夹生成索引数据集,为智能标注、模型训练做准备。本文介绍...

读取以分区方式存储的OSS数据

MaxCompute支持创建OSS外部表为分区表,访问OSS上以分区方式存储的数据,通过该方式可降低读取数据量并提升数据处理效率。本文为您介绍MaxCompute支持的OSS标准分区路径格式和自定义分区路径格式。背景信息 创建OSS外部表后,MaxCompute会...

DLA Lakehouse实时入湖

数据库路径 数据路径 数据表文件 进行数据分析。工作负载任务启动成功后,在 数据湖管理>元数据管理 页面中,查看从RDS数据源同步过来的元数据信息。单击 操作 列的 查询数据,在 Serverless Presto>SQL执行 页面,查看从RDS数据源同步...

提交训练作业

说明 PAI_INPUT_{ChannelName} 指向您传入的数据路径,如果您指定了一个OSS目录(以/结尾),则PAI的训练服务会将输入存储作为目录进行挂载,环境变量指向对应的数据目录。如果您传递了一个OSS文件路径,PAI的训练服务会挂载对应的文件目录...

数据集成概述

数据集成入口 快捷入口(推荐)在Dataphin首页,您也可以单击Dataphin产品使用路径的 数据引入,快速进入数据集成。普通入口 在Dataphin首页,单击顶部菜单栏的 研发。在数据开发页面,单击顶部菜单栏的 集成,进入数据集成页面。

JindoCache CLI使用说明

jindocache-load-meta-s-R数据缓存:功能说明:数据缓存命令可以备份对应路径的数据至本集群的磁盘,以便于后续可以读取本地数据,无需读取OSS等后端上的数据。命令:jindocache-load-data<options><path>涉及以下参数。参数 说明可选参数...

场景:配置增量数据离线同步任务

离线同步任务支持您通过配置类似的数据过滤功能来决定同步全量数据还是增量数据,配置过滤条件时,将只同步满足过滤条件的数据。同时,过滤条件可以结合调度参数使用,实现过滤条件随任务调度时间的动态变化,进而实现增量数据的同步。该...

数据集成概述

数据集成入口 快捷入口(推荐)在Dataphin首页,您也可以单击Dataphin产品使用路径的 数据引入,快速进入数据集成。普通入口 在Dataphin首页,单击顶部菜单栏的 研发。在数据开发页面,单击顶部菜单栏的 集成,进入数据集成页面。连通数据...

UNLOAD

参数说明 外部存储:OSS select_statement:select 查询子句,从源表(分区表或非分区表)中查询需要插入目标OSS路径的数据。更多 select 信息,请参见 SELECT语法。table_name、pt_spec:使用表名称或表名称加分区名称的方式指定需要导出...

UNLOAD

参数说明 外部存储:OSS select_statement:select 查询子句,从源表(分区表或非分区表)中查询需要插入目标OSS路径的数据。更多 select 信息,请参见 SELECT语法。table_name、pt_spec:使用表名称或表名称加分区名称的方式指定需要导出...

JSON数据类型

在更新JSON列中指定路径的数据时,需要使用 UPDATE 语法,目前JSON列支持以下操作:JSON_SET:更新JSON列中指定路径的值或者新增不存在JSON列的路径以及路径上的值。例如:如果 c2 列中存在 k1.k2 路径,那么将 k1.k2 路径的值更新为 value...

Jindo CLI支持操作JindoFSx命令

背景信息 本文为您介绍以下内容:数据缓存命令 元数据缓存命令 清理缓存命令 统一命名空间命令 其他命令 数据缓存命令 数据缓存命令可以备份对应路径的数据至本集群的磁盘,以便于后续可以读取本地数据,无需读取OSS等后端上的数据。...

离线同步能力说明

数据集成使用调度参数的相关说明 离线同步 数据集成离线同步任务中,可以使用调度参数来指定同步源表及目标表的数据路径以及数据范围,调度参数的配置方式与其他类型任务一致,没有特殊限制。在同步任务运行时,任务中配置的占位符参数都会...

Spark Load

ETL任务完成后,FE获取预处理过的每个分片的数据路径,并调度相关的BE执行Push任务。BE通过Broker读取数据,转化为Doris底层存储格式。FE调度生效版本,完成导入任务。全局字典 适用场景 目前Doris中Bitmap列是使用类库Roaringbitmap实现的...

分层存储命令使用说明

常用命令如下:Cache命令 Uncache命令 Archive命令 Unarchive命令 Status命令 ls2命令 Cache命令 Cache命令可以备份对应路径的数据至本集群的磁盘,以便于后续可以读取本地数据,无需读取OSS上的数据。jindo jfs-cache-p<path>-p 参数可以...

分层存储命令使用说明

常用命令如下:Cache命令 Uncache命令 Archive命令 Unarchive命令 Status命令 ls2命令 Cache命令 Cache命令可以备份对应路径的数据至本集群的磁盘,以便于后续可以读取本地数据,无需读取OSS上的数据。jindo jfs-cache-p<path>-p 参数可以...

分层存储命令使用说明

常用命令如下:Cache命令 Uncache命令 Archive命令 Unarchive命令 Status命令 ls2命令 Cache命令 Cache命令可以备份对应路径的数据至本集群的磁盘,以便于后续可以读取本地数据,无需读取OSS上的数据。jindo jfs-cache-p<path>-p 参数可以...

分层存储命令使用说明

常用命令如下:Cache命令 Uncache命令 Archive命令 Unarchive命令 Status命令 ls2命令 Cache命令 Cache命令可以备份对应路径的数据至本集群的磁盘,以便于后续可以读取本地数据,无需读取OSS上的数据。jindo jfs-cache-p<path>-p 参数可以...

分层存储命令使用说明

常用命令如下:Cache命令 Uncache命令 Archive命令 Unarchive命令 Status命令 ls2命令 Cache命令 Cache命令可以备份对应路径的数据至本集群的磁盘,以便于后续可以读取本地数据,无需读取OSS上的数据。jindo jfs-cache-p<path>-p 参数可以...

分层存储命令使用说明

常用命令如下:Cache命令 Uncache命令 Archive命令 Unarchive命令 Status命令 ls2命令 Cache命令 Cache命令可以备份对应路径的数据至本集群的磁盘,以便于后续可以读取本地数据,无需读取OSS上的数据。jindo jfs-cache-p<path>-p 参数可以...

分层存储命令使用说明

常用命令如下:Cache命令 Uncache命令 Archive命令 Unarchive命令 Status命令 ls2命令 Cache命令 Cache命令可以备份对应路径的数据至本集群的磁盘,以便于后续可以读取本地数据,无需读取OSS上的数据。jindo jfs-cache-p<path>-p 参数可以...

分层存储命令使用说明

常用命令如下:Cache命令 Uncache命令 Archive命令 Unarchive命令 Status命令 ls2命令 Cache命令 Cache命令可以备份对应路径的数据至本集群的磁盘,以便于后续可以读取本地数据,无需读取OSS上的数据。jindo jfs-cache-p<path>-p 参数可以...

Spark Load

ETL任务完成后,FE获取预处理过的每个分片的数据路径,并调度相关的BE执行Push任务。BE通过Broker读取数据,转化为StarRocks存储格式。FE调度生效版本,完成导入任务。全局字典 适用场景 目前StarRocks中BITMAP列是使用类库Roaringbitmap...

图像分类训练(torch)

说明 如果您同时通过输入桩和该参数配置了该组件的训练数据标注结果文件,则优先使用输入桩配置的数据。训练数据标注结果文件所在的OSS路径,比如:oss:/examplebucket/yunji.cjy/data/imagenet/meta/train_labeled.txt。其中 train_...

视频分类训练

本示例中,您需要按照以下流程配置组件:使用两个 读OSS数据 组件分别读取视频数据文件作为训练数据和评估数据,即配置 读OSS数据 组件的 OSS数据路径 参数为视频数据文件的OSS路径。视频数据文件的格式如下图所示。该文件的每一行为一个...

图像度量学习训练(raw)

说明 如果您同时通过输入桩和该参数配置了训练数据标注文件,则优先使用输入桩配置的数据。训练数据标注文件所在的OSS路径,比如:oss:/examplebucket/yun*/data/imagenet/meta/train_labeled.txt。其中 train_labeled.txt 文件每行的存储...

图像关键点训练

无 dataset info文件oss路径 是 如果您没有通过输入桩配置该组件的数据集标签文件,则需要配置该参数。表示数据集标签文件所在的OSS路径,比如:oss:/examplebucket/data/annotations/dataset_info.py。说明 如果您同时通过输入桩和该参数...

RDS MySQL物理备份文件恢复到自建数据库

本文示例中涉及的数据库配置文件路径如下:MySQL 8.0、5.7为/etc/my.cnf。MySQL 5.6为/usr/my.cnf。MySQL 5.5需要手动创建,使用 echo"[mysqld]"|sudo tee/etc/my.cnf 命令创建。您可以使用如下命令查询自建数据库的配置文件路径。sudo ...

文本摘要训练

本示例使用的数据集是通过制表符分隔的TXT文件。同时支持对CSV文件的处理,您可以通过MaxCompute客户端的Tunnel命令,将数据集上传至MaxCompute。关于MaxCompute客户端的安装及配置,详情请参见 使用客户端(odpscmd)连接;关于Tunnel命令...

机器阅读理解训练

是否必选 训练数据输入 OSS 读OSS数据 是 验证数据输入 OSS 读OSS数据 是 组件参数 页签 参数 描述 字段设置 选择语种 输入文件的语种,目前支持以下两种语言的机器阅读理解:zh(默认值)en 输入数据格式 输入文件中每列的数据格式,多列...

Tunnel命令

当您需要在本地环境与MaxCompute之间传输大量的数据时,MaxCompute提供Tunnel功能支持上传下载数据,使用Tunnel命令可以实现批量或增量数据的高效上传、下载,以提高数据传输效率和可靠性。本文为您介绍Tunnel上传下载命令的详细说明。...

Tunnel命令

当您需要在本地环境与MaxCompute之间传输大量的数据时,MaxCompute提供Tunnel功能支持上传下载数据,使用Tunnel命令可以实现批量或增量数据的高效上传、下载,以提高数据传输效率和可靠性。本文为您介绍Tunnel上传下载命令的详细说明。...

路径动画模型

动作 动作 说明 请求运动路径 重新请求服务端数据,上游数据处理节点或图层节点抛出的数据将作为参数。例如路径动画模型配置了API数据源为 https://api.test ,传到 请求运动路径 动作的数据为 { id:'1'},则最终请求接口为 ...

使用Hive查询JindoFS上的数据

Apache Hive是Hadoop生态中广泛使用的SQL引擎之一,让用户可以使用SQL实现分布式的查询,Hive中数据主要以undefinedDatabase、Table和Partition的形式进行管理,通过指定位置(Location)对应到后端的数据。JindoFS配置 以EMR-3.35版本为例...

使用Flume写入JindoFS

Apache Flume是一个分布式、可靠和高可用的系统,用于从大量不同的数据源有效地收集、聚合和移动大量日志数据,进行集中式的数据存储。Flume的核心是Agent,Agent中包含Source、Channel和Sink。本文为您介绍如何使用HDFS Sink写入数据至...

Schema管理

设置Schema搜索路径 数据库的search_path用于配置参数设置Schema的搜索顺序。使用 ALTER DATABASE 命令可以设置搜索路径。例如:ALTER DATABASE mydatabase SET search_path TO myschema,public,pg_catalog;您也可以使用 ALTERROLE 命令为...

基于OSS外表的单表多文件查询

一般情况下,OSS外表存储的数据是冷数据,数据量比较大,当单个CSV格式的数据文件过大时,对其进行查询会非常耗时。因此 PolarDB 支持单表多文件查询功能,您可以将单个OSS外表的数据文件拆分为多个小的数据文件,以加快查询速度。本文介绍...

使用OSS外表高速导入OSS数据

filepath OSS中包含路径的文件名称。说明 与 prefix、dir 互斥,三者只能设置其中一个。这个参数只能在创建READABLE外部表时指定,即仅支持在导入数据时使用。compressiontype 导入文件的压缩格式。none(默认值):导入的文件未压缩。gzip...

迁移HDFS数据到OSS

全量迁移或拷贝数据 将HDFS指定目录/tmp 下的数据全量迁移或拷贝到OSS目标路径 oss:/examplebucket,示例命令如下:hadoop jar jindo-distcp-tool-${version}.jar-src/tmp/-dest oss:/examplebucket/-hadoopConf fs.oss.accessKeyId=LTAI5t...

管理数据流动任务

删除(Evict)将释放CPFS上文件的数据,删除后文件在CPFS上只保留元数据,您仍能看到该文件,但文件的数据块已清除,不占用CPFS上的存储空间,访问该文件数据时,再从源端存储(例如OSS)按需加载。说明 删除前,请务必确认对应文件在OSS上...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云数据库 RDS 云数据库 Redis 版 数据传输服务 数据库备份 DBS 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用