开启native查询加速

JindoTable通过Native Engine,支持对Spark、Hive或Presto上ORC或Parquet格式文件进行加速。本文为您介绍如何开启native查询加速,以提升Spark、Hive和Presto的性能。前提条件 已创建集群,且ORC或Parquet文件已存放至JindoFS或OSS,创建...

开启native查询加速

JindoTable通过Native Engine,支持对Spark、Hive或Presto上ORC或Parquet格式文件进行加速。本文为您介绍如何开启native查询加速,以提升Spark、Hive和Presto的性能。前提条件 已创建集群,且ORC或Parquet文件已存放至JindoFS或OSS,创建...

Dataphin管道任务报错“[您缺失了必须填写的参数值.]....

问题描述 Dataphin管道任务报错“[您缺失了必须填写的参数值.].-您提供配置文件有误,[path]是必填参数,不允许为空或者留白”。问题原因 Hive源表是视图;Hive同步是直接读取HDFS文件,不走SQL,因此不支持视图。适用于 Dataphin 版本v3.3

访问Hive数据源

AnalyticDB MySQL湖仓版(3.0)支持访问Hive数据源。本文以E-MapReduce集群的Hive服务为例,介绍使访问Hive数据的方法。前提条件 已创建AnalyticDB MySQL湖仓版(3.0)集群。具体操作,请参见 创建湖仓版(3.0)集群。已创建数据库账号。...

OSS-HDFS数据源

否 utf-8 parquetSchema 写Parquet格式文件时的必填项,用来描述目标文件的结构,所以此项当且仅当 fileFormat 为 parquet 时生效,格式如下。message Message名 { 是否必填 数据类型 列名;} 配置项说明如下:Message名:输入名称。是否必...

使用DLF元数据

CREATE EXTERNAL CATALOG hive_catalog properties("type"="hive","hive.metastore.type"="DLF");参数 是否必选 说明 type 是 数据源的类型。支持的数据源类型有hive、hudi、iceberg、deltalake。dlf.catalog.id 否 待读取的DLF Catalog ID...

Hive数据源

通过Hive Catalog,您可以直接查询Hive中的数据。本文为您介绍如何创建和查看Hive Catalog。创建Hive Catalog 语法 ​ CREATE EXTERNAL CATALOG<catalog_name>PROPERTIES("key"="value",.);参数说明 catalog_name:Hive Catalog的名称,必...

Hive

本文主要介绍如何使用DLA Spark访问用户VPC中的Hive集群。重要 云原生数据湖分析(DLA)产品已退市,云原生数据仓库 AnalyticDB MySQL 版 湖仓版支持DLA已有功能,并提供更多的功能和更好的性能。AnalyticDB for MySQL 相关使用文档,请...

通过Hive访问云数据库HBase

云数据库HBase支持通过Hive读写数据,本文介绍如何配置Hive并读写云数据库HBase的数据。前提条件 已将Hive所在的Hadoop集群所有的节点的IP加入到云数据库HBase实例的白名单中,具体操作请参见 设置白名单。已获取云数据库HBase的zookeeper...

Hive连接器

使用Hive连接器可以查询和分析存储在Hive数据仓库中的数据。本文为您介绍Hive连接器相关的内容和操作。背景信息 Hive数仓系统由以下三部分内容组成:不同格式的数据文件,通常存储在Hadoop分布式文件系统(HDFS)或对象存储系统(例如,...

查看集群日报与分析

Hive使用量分析 在Hive使用分析中,您可以获取以下图表:Hive库存储量使用量分布图 Hive用户总存储量分布 Hive表文件大小分布比例 Hive表热冷数据分布 Hive表存储格式分布 Hive详细信息 在Hive信息中会展示Hive库和Hive表的详细信息。Hive...

新建Hive类型的公共节点

Hive类型的节点是离线节点,运行在Hive云计算资源之上,支持处理Hive、Hbase和Phoenix类型的数据。本文介绍如何新建Hive类型的公共节点。前提条件 已新建Hive类型云计算资源,具体操作,请参见 新建云计算资源。背景信息 Hive节点运行于...

新建Hive类型的公共节点

Hive类型的节点是离线节点,运行在Hive云计算资源之上,支持处理Hive、Hbase和Phoenix类型的数据。本文介绍如何新建Hive类型的公共节点。前提条件 已新建Hive类型云计算资源,具体操作,请参见 新建云计算资源。背景信息 Hive节点运行于...

Hive元数据说明

元数据类型介绍 EMR Hive元数据支持DLF统一元数据、自建RDS和内置MySQL三种类型。DLF统一元数据 元数据存储在阿里云数据湖构建(Data Lake Formation,简称DLF)中。数据湖构建具有高可用、免运维和高性能等优点,兼容Hive Metastore,无缝...

EMR Gateway升级EMRHOOK组件

hive-site.xml(/etc/taihao-apps/hive-conf/hive-site.xml)配置项:hive.aux.jars.path 配置值末尾添加(注意分隔符是逗号),/opt/apps/EMRHOOK/emrhook-current/${hive-jar} 配置项:hive.exec.post.hooks 配置值添加 ...

Hive开发手册

本文介绍如何在E-MapReduce集群中开发Hive作业流程。在Hive中使用OSS 在Hive中读写OSS时,先创建一个external的表。CREATE EXTERNAL TABLE eusers(userid INT)LOCATION 'oss:/emr/users';使用示例 Hive作业流程示例如下:示例1 编写如下...

外表统计信息

注意事项 目前支持收集Hive、Iceberg和Hudi等外部表的统计信息。暂不支持收集如下外表统计信息:直方图收集。分区的增量收集和更新。自动收集(with auto),您可以使用周期性收集(with period)来代替。抽样收集。使用方法 本文展示在...

Hive数据源

The directory for caching permission data,needs to be writable<property><name>ranger.plugin.hive.policy.cache.dir</name><value>/mnt/datadisk0/zhangdong/rangerdata</value></property>#The time interval for ...

Hive数据脱敏

Ranger支持对Hive数据的脱敏处理(Data Masking),即可以对Select的返回结果脱敏,以屏蔽敏感信息。背景信息 该功能只针对HiveServer2的场景(例如,Beeline、JDBC和Hue等途径执行的Select语句)。操作步骤 说明 本文Ranger截图以2.1.0...

Dataphin将csv文件同步到hive库,目标hive库字段值为...

产品名称 Dataphin 产品模块 数据集成 概述 通过该问题的分析处理过程,提供以下场景问题处理排查思路和注意点:管道任务数据集成到hive之后,hive库查询集成数据为空 问题描述 将本地csv文件数据集成到hive库中,任务运行成功,但是查询...

配置Hive输入组件

Hive输入组件用于读取Hive数据源的数据。同步Hive数据源的数据至其他数据源的场景中,您需要先配置Hive输入组件读取的数据源,再配置数据同步的目标数据源。本文为您介绍如何配置Hive输入组件。使用限制 Hive输入组件支持数据格式为 orc、...

Hive访问Iceberg数据

Hive支持通过内表或外表的方式访问Iceberg数据。本文通过示例为您介绍如何使用EMR上的Hive访问EMR Iceberg数据。前提条件 已创建Hadoop集群,详情请参见 创建集群。说明 此文档仅适用于EMR-3.38.0及后续版本与EMR-5.4.0及后续版本的Hadoop...

Hive兼容数据类型版本

Hive兼容数据类型版本是MaxCompute三种数据类型版本之一,该数据类型版本下仅支持Hive兼容数据类型。本文为您介绍Hive兼容数据类型版本的定义、支持的数据类型以及与其他数据类型版本的差异。定义 项目空间选择数据类型版本为Hive兼容数据...

通过数据湖元数据DLF读写Hudi

mkdir/etc/taihao-apps/hive-conf scp root@节点内网的IP地址>:/etc/taihao-apps/hive-conf/hive-site.xml/etc/taihao-apps/hive-conf/步骤二:启动Flink SQL 重要 务必将DLF的依赖包放置在Hive依赖包的前面,其中DLF依赖包中嵌入了Hudi的...

Hive服务异常排查及处理

本文介绍Hive服务异常的排查方法和解决方案。异常排查 如果客户端遇到异常或性能等问题,您可以按照如下步骤进行排查:排查异常时间段机器CPU、内存、网络以及磁盘是否有异常。排查组件是否正常:检查访问集群的Hive组件中 HiveMetaStore ...

JindoTable表或分区访问热度收集

Hive的数据收集默认是关闭的,如果需要打开,请参见 开启Hive热度收集。数据查询 JindoTable提供了命令方式查询热度信息。语法 jindo table-accessStat[days]>[topNums]>days 和 topNums 为正整数。当只设置天数为1时,表示查询从本地时间...

JindoTable表或分区访问热度收集

Hive的数据收集默认是关闭的,如果需要打开,请参见 开启Hive热度收集。数据查询 JindoTable提供了命令方式查询热度信息。语法 jindo table-accessStat[days]>[topNums]>days 和 topNums 为正整数。当只设置天数为1时,表示查询从本地时间...

JindoTable表或分区访问热度收集

Hive的数据收集默认是关闭的,如果需要打开,请参见 开启Hive热度收集。数据查询 JindoTable提供了命令方式查询热度信息。语法 jindo table-accessStat[days]>[topNums]>days 和 topNums 为正整数。当只设置天数为1时,表示查询从本地时间...

JindoTable表或分区访问热度收集

Hive的数据收集默认是关闭的,如果需要打开,请参见 开启Hive热度收集。数据查询 JindoTable提供了命令方式查询热度信息。语法 jindo table-accessStat[days]>[topNums]>days 和 topNums 为正整数。当只设置天数为1时,表示查询从本地时间...

JindoTable表或分区访问热度收集

Hive的数据收集默认是关闭的,如果需要打开,请参见 开启Hive热度收集。数据查询 JindoTable提供了命令方式查询热度信息。语法 jindo table-accessStat[days]>[topNums]>days 和 topNums 为正整数。当只设置天数为1时,表示查询从本地时间...

JindoTable表或分区访问热度收集

Hive的数据收集默认是关闭的,如果需要打开,请参见 开启Hive热度收集。数据查询 JindoTable提供了命令方式查询热度信息。语法 jindo table-accessStat[days]>[topNums]>days 和 topNums 为正整数。当只设置天数为1时,表示查询从本地时间...

Catalog概述

本文为您介绍什么是Catalog(数据目录),以及如何使用Catalog管理和查询内外部数据。基本概念 内部数据:保存在StarRocks中的...SELECT*FROM hive_catalog.hive_db.hive_table h JOIN default_catalog.olap_db.olap_table o WHERE h.id=o.id;

Hive数据导入

云原生数据仓库AnalyticDB MySQL版 湖仓版(3.0)支持通过Hive数据迁移将Hive数据迁移至OSS。本文介绍如何添加Hive数据源,新建Hive迁移链路并启动任务,以及数据迁移后如何进行数据分析和管理数据迁移任务。功能介绍 AnalyticDB MySQL版 ...

DataFlow集群通过Hive Catalog连接数据湖元数据DLF

CREATE CATALOG hive_catalog WITH('type'='hive','default-database'='flink_dlf_hive','hive-version'='2.3.6','hive-conf-dir'='/root/test','hadoop-conf-dir'='/etc/taihao-apps/hadoop-conf/');涉及参数如下表。参数 描述 type 固定...

Dataphin即席查询报错:"Can not read value at 0 in ...

问题原因 在集成任务配置界面中,hive输出表字段没有全部映射,因为hive字段写入是按照位置写入,读出来的如果少列,就会导致与schema不对应。解决方案 hive数据库作为输出组件时,表中所有字段必须全部映射。适用于 Dataphin

数据源Hive

本文为您介绍如何创建数据源Hive。前提条件 请确保您的网络连通性:您通过公网连接Quick BI与Hive数据库,请添加 Quick BI的IP地址 至数据库白名单,请参见 添加安全组规则。您通过内网连接Quick BI与Hive数据库,请搭建跳板机,并通过SSH...

环境准备

使用Hive/HadoopMR来访问表格存储中的表前,您需要完成JDK、Hadoop环境、Hive环境、表格存储Java SDK和阿里云EMR SDK的安装。使用Hive/HadoopMR来访问表格存储中的表 通过 表格存储 及 E-MapReduce 官方团队发布的依赖包,可以直接使用Hive...

Catalog概述

本文为您介绍什么是Catalog(数据目录),以及如何使用Catalog查询内外部数据。基本概念 内部数据:保存在StarRocks中的数据。...SELECT*FROM hive_catalog.hive_db.hive_table h JOIN default_catalog.olap_db.olap_table o WHERE h.id=o.id;

同步EMR Kafka数据至Hive

本文为您介绍如何使用Flume同步EMR DataFlow集群的数据至EMR DataLake集群的Hive。前提条件 已创建DataLake集群,并且选择了Flume服务,详情请参见 创建集群。已创建DataFlow集群,并且选择了Kafka服务,详情请参见 创建集群。操作步骤 ...

Spark

Spark集成Hive后,通常场景下,您可以使用Spark SQL解释器访问Hive表来进行更高效的分析计算,数据开发里的Spark解释器默认已经开启了Hive。配置Spark 在阿里云EMR的数据开发里,Spark解释器配置的是Isolated Per Note模式,也就是说每个...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
轻量应用服务器 云数据库 RDS 数据库备份 DBS 云服务器 ECS 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用