开启native查询加速

Spark、Hive和Presto服务支持的引擎和存储格式如下所示。引擎 ORC Parquet Spark2 支持 支持 Spark3 支持 支持 Presto 支持 支持 Hive2 不支持 支持 Hive3 不支持 支持 Spark、Hive和Presto服务支持的引擎和存储文件系统如下所示。引擎 OSS...

开启native查询加速

Spark、Hive和Presto服务支持的引擎和存储格式如下所示。引擎 ORC Parquet Spark2 支持 支持 Spark3 支持 支持 Presto 支持 支持 Hive2 不支持 支持 Hive3 不支持 支持 Spark、Hive和Presto服务支持的引擎和存储文件系统如下所示。引擎 OSS...

开启native查询加速

Spark、Hive和Presto服务支持的引擎和存储格式如下所示。引擎 ORC Parquet Spark2 支持 支持 Spark3 支持 支持 Presto 支持 支持 Hive2 不支持 支持 Hive3 不支持 支持 Spark、Hive和Presto服务支持的引擎和存储文件系统如下所示。引擎 OSS...

Paimon数据源

当 paimon.catalog.type 设置为 hive 时,需要填写该参数,格式为 thrift:/<Hive MetaStore的IP地址>:<端口号>,端口号默认为9083。aliyun.oss.endpoint 否 若使用OSS或OSS-HDFS作为warehouse,需填写相应的endpoint。dlf.catalog.id 否 ...

开启native查询加速

背景信息 Spark、Hive和Presto上服务支持的引擎和存储格式如下所示。引擎 ORC Parquet Spark2 支持 支持 Presto 支持 不支持 Hive2 不支持 支持 使用限制 不支持Binary类型。不支持分区列存储在文件中的分区表。不支持EMR 5.X及后续版本的...

字符串函数

FORMAT_NUMBER 将数字格式化成带千分位和指定小数位的字符串。JSON_EXTRACT 从JSON字符串中提取指定路径的值。LENGTH 计算字符串长度。LOWER 将字符串中的大写字符转换为对应的小写字符。LPAD 将字符串向左补足到指定位数。LTRIM 删除字符...

数据操作篇

如需在单个属性列存储超过 2 MB 的数据,如图片、音乐、文件等,可以使用 OSS(Object Storage Service)对其进行存储。OSS 是阿里云提供的开放存储服务,用以应对海量数据的存储和访问。OSS 的存储单价比表格存储更低,更适合存储文件。...

Hive访问Iceberg数据

OK 1 a 2 b 3 c 4 d 5 e 6 f Time taken:18.908 seconds,Fetched:6 row(s)示例2 本示例使用Hive默认元数据,创建一张格式为Iceberg的Hive内表并对其进行读写操作。创建一个EMR-5.4.0的Hadoop集群,元数据选择内置MySQL,详情请参见 创建...

HASH

对 value1、value2 进行散运算得到一个Hash值。命令格式 当MaxCompute项目为Hive兼容模式时,命令格式如下。int hash(,[,.]);当MaxCompute项目非Hive兼容模式时,命令格式如下。bigint hash(,[,.]);参数说明 value1、value2:必填。待...

Dataphin将csv文件同步到hive库,目标hive库字段值为...

产品名称 Dataphin 产品模块 数据集成 概述 通过该问题的分析处理过程,提供以下场景问题处理排查思路和注意点:管道任务数据集成到hive之后,hive库查询集成数据为空 问题描述 将本地csv文件数据集成到hive库中,任务运行成功,但是查询...

时序分析存储概述

高数据压缩率存储 列存储能更好地利用数据重复性,结合RLE、DICTIONARY、DELTA、BIT-PACKING等方法进行压缩编码,将数据进行压缩,存储空间利用率高,从而节省存储成本。灵活分层的TTL设置 在同一张时序表上,时序数据存储和时序分析存储...

注册EMR集群至DataWorks

DataWorks支持基于EMR(E-MapReduce)计算引擎创建Hive、MR、Presto和Spark SQL等节点,实现EMR任务工作流的配置、周期性调度和元数据管理等功能,保障数据生产及管理的高效稳定。本文为您介绍如何在DataWorks注册同账号或跨账号的EMR集群...

存储格式与SerDe

DLA内置了处理各类数据文件的Serialize/Deserilize(简称SerDe,用于序列和反序列),您无需编写程序,直接选用一款或多款SerDe来匹配OSS上的数据文件格式。通过SerDe,DLA可以对OSS上的多种格式的文件进行查询分析,包括纯文本文件...

数据湖投递概述

与计算生态无缝集成 投递的数据兼容开源生态标准,按照Parquet格式存储,兼容Hive命名规范。使用 E-MapReduce 可以直接对投递到OSS的数据进行外表分析。数据分层的存储与访问体验 数据投递到OSS后,表格存储 提供数据表、索引表、投递...

Iceberg数据源

格式为 thrift:/<Hive MetaStore的IP地址>:<端口号>,端口号默认为9083。示例 以下示例创建了一个名为 iceberg_catalog 的Iceberg Catalog。CREATE EXTERNAL CATALOG iceberg_catalog PROPERTIES("type"="iceberg","iceberg.catalog.type"=...

Hive连接器

使用Hive连接器可以查询和分析存储Hive数据仓库中的数据。本文为您介绍Hive连接器相关的内容和操作。背景信息 Hive数仓系统由以下三部分内容组成:不同格式的数据文件,通常存储在Hadoop分布式文件系统(HDFS)或对象存储系统(例如,...

阿里云DLF数据源

本文介绍 云数据库 SelectDB 版 与阿里云DLF数据源进行对接使用的流程,帮助您对阿里云DLF数据源进行联邦分析。概述 阿里云Data Lake Formation...类型映射 连接DLF后SelectDB进行的类型映射和Hive Catalog一致,详情请参见 Hive数据源。

Hive

Hive数据仓库工具能将存储在HDFS系统中的结构的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成Map/Reduce任务来执行。操作步骤 初始Spark。val spark:SparkSession=SparkSession.builder().config("hive.metastore...

SmartData 3.5.x版本简介

JindoTable计算优化 JindoTable新增native加速功能,可以对使用Spark、Hive或Presto读取存储在OSS和JindoFS上的ORC或Parquet格式的文件进行加速,详情请参见 开启native查询加速。Hive支持JindoTable冷度统计,以统计Hive表访问频次,详情...

索引介绍

表格存储的宽表模型包含多个主键,多主键按照顺序共同构成一个主键,类似MySQL的联合主键,也可以把多个主键拼接起来看作HBase的RowKey,每一其实都只是整体主键的一部分。采用多主键主要原因如下:业务常需要多个字段来构成...

Iceberg数据源

格式为 thrift:/<Hive MetaStore的IP地址>:<端口号>,端口号默认为9083。自定义元数据服务 如果使用自定义元数据服务,则需要您在StarRocks中开发一个Custom Catalog类(Custom Catalog类名不能与StarRocks中已存在的类名重复),并实现...

数据表操作

创建数据表后,您可以使用表、查询表信息、出表名称、更新表以及删除表。说明 关于宽表模型的更多信息,请参见 宽表模型。创建表 创建一张数据表,同时指定数据表的主键、数据生命周期(TimeToLive)等。您也可以通过导入JSON格式的配置...

Hive数据源

The directory for caching permission data,needs to be writable<property><name>ranger.plugin.hive.policy.cache.dir</name><value>/mnt/datadisk0/zhangdong/rangerdata</value></property>#The time interval for ...

环境准备

使用Hive/HadoopMR来访问表格存储中的表前,您需要完成JDK、Hadoop环境、Hive环境、表格存储Java SDK和阿里云EMR SDK的安装。使用Hive/HadoopMR来访问表格存储中的表 通过 表格存储 及 E-MapReduce 官方团队发布的依赖包,可以直接使用Hive...

使用教程

本文主要为您介绍如何使用Hive或者HadoopMR访问表格存储中的表。数据准备 在表格存储中准备一张数据表pet,name是唯一的一主键,数据示例请参见下表。说明 表中空白部分无需写入,因为表格存储是schema-free的存储结构,没有值也无需写入...

通过外表导入至数仓版

8 VARCHAR STRING JSON(如果已知Parquet该内容为JSON格式)INT32 DATE DATE INT64 TIMESTAMP_MILLIS TIMESTAMP或DATETIME INT96 无 TIMESTAMP或DATETIME 重要 Parquet格式外表暂不支持 STRUCT 类型,会导致建表失败。ORC文件与 ...

Catalog概述

当FE将生成的查询计划分发给各个BE后,各个BE会并行扫描Hive存储系统中的目标数据,并执行计算返回查询结果。查询数据 查询内部数据 如果需要查询存储在StarRocks中的数据,请参见 Default Catalog。查询外部数据 如果需要查询存储在外部...

创建TDH Inceptor数据源

Inceptor配置 JDBC URL 配置连接Inceptor的JDBC URL,格式为 jdbc:hive2/host:port/dbname。认证方式 如果Inceptor集群无需认证,则选择 无认证;如果Inceptor集群需要认证,Dataphin支持选择 LDAP 或 Kerberos,您可以根据实际情况选择,...

新建ArgoDB计算源

能够使用标准的SQL语法进行业务的建设,并且能够给用户提供多模型数据分析、实时数据处理、存储与计算模块解耦、异构服务器混合部署等先进技术能力。更多详情,请参见 ArgoDB官网。操作步骤 请参见 数仓规划入口,进入数仓 规划 页面。在数...

Catalog概述

当FE将生成的查询计划分发给各个BE后,各个BE会并行扫描Hive存储系统中的目标数据,并执行计算返回查询结果。查询数据 查询内部数据 如果需要查询存储在StarRocks中的数据,请参见 内表数据源。查询外部数据 如果需要查询存储在外部数据源...

EMR Hive数据整库离线同步至MaxCompute

parquet schema 如果Hive存储格式为parquet格式,需要配置对应的parquet schema。其他参数保持默认即可。配置数据去向:MaxCompute侧参数 配置离线同步节点的数据去向相关参数。本实践将Hive数据整库离线同步至MaxCompute,数据去向为...

EMR Hive数据整库离线同步至MaxCompute

parquet schema 如果Hive存储格式为parquet格式,需要配置对应的parquet schema。其他参数保持默认即可。配置数据去向:MaxCompute侧参数 配置离线同步节点的数据去向相关参数。本实践将Hive数据整库离线同步至MaxCompute,数据去向为...

SQL查询

创建分析存储的映射关系后,您可以使用SELECT语句查询与分析时序数据。本文通过一个样例介绍如何使用SQL查询。样例场景 某厂商有100000台设备,每台设备每两分钟会生成一组CPU监控数据。为了方便管理和分析设备状态,厂商会将采集的设备...

EMR元数据迁移DLF最佳实践

本文主要介绍如何将Hive Metasstore存储在MySQL/RDS中的元数据迁移到DLF中,并介绍如何在EMR集群中配置使用DLF作为数据湖统一元数据。适用场景 从其他大数据集群迁移到阿里云E-MapReduce产品时,元数据迁移可以参考该文档。从阿里云EMR老...

导入数据并查询

8 VARCHAR STRING JSON(如果已知Parquet该内容为JSON格式)INT32 DATE DATE INT64 TIMESTAMP_MILLIS TIMESTAMP或DATETIME INT96 无 TIMESTAMP或DATETIME 重要 Parquet格式外表暂不支持 STRUCT 类型,会导致建表失败。针对带有分区的...

新建ArgoDB数据源

参数 描述 JDBC URL 配置连接ArgoDB的JDBC URL,格式为 jdbc:hive2/host:port/dbname。认证方式 如果ArgoDB集群无需认证,则选择 无认证;如果Inceptor集群需要认证,Dataphin支持选择 LDAP 或 Kerberos,您可以根据实际情况进行选择,详细...

Paimon概述

Apache Paimon是一种流批统一的湖存储格式,支持高吞吐的写入和低延迟的查询。目前阿里云开源大数据平台E-MapReduce常见的计算引擎(例如Flink、Spark、Hive或Trino)都与Paimon有着较为完善的集成度。您可以借助Apache Paimon快速地在HDFS...

ALTER TABLE

命令格式 alter table<table_name>changeowner to;参数说明 table_name:必填。待修改Owner的表名。new_owner:必填。修改后的Owner账号。使用示例-将表test1的所有人修改为ALIYUN$xxx@aliyun.com。alter table test1 changeowner to '...

开通并配置OSS存储分析

EMR Doctor借助您Bucket中最新的清单文件,分析该Bucket的数据使用,健康状态以及与Hive存储分析关联。使用EMR Doctor OSS存储分析需要您为Bucket预先开通存储清单功能。清单功能的详细介绍,具体请参见 存储空间清单。注意事项 开通OSS...

时间函数

DATE_FORMAT 将日期格式化成指定格式的字符串。FROM_UNIXTIME 将整型的时间戳(单位秒)转换为日期值。GET_DAY_OF_MONTH 返回一个时间日部分的值。GET_HOUR 获取一个时间小时部分的值。GET_MINUTE 获取一个时间分钟部分的值。GET_MONTH ...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
文件存储NAS 对象存储 云存储网关 DataV数据可视化 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用