通过数据湖元数据DLF读写Hudi

mkdir/etc/taihao-apps/hive-conf scp root@节点内网的IP地址>:/etc/taihao-apps/hive-conf/hive-site.xml/etc/taihao-apps/hive-conf/步骤二:启动Flink SQL 重要 务必将DLF的依赖包放置在Hive依赖包的前面,其中DLF依赖包中嵌入了Hudi的...

迁移服务(MMA)

MaxCompute提供的数据迁移服务支持通过MMA(MaxCompute Migration Assist)服务,将Hive数据安全且高效地迁移到MaxCompute。迁移流程 使用限制 不支持迁移Hive数据至已开启Schema功能的MaxCompute项目。关于Schema介绍详情,请参见 Schema...

Hive数据按行过滤

Ranger支持对Hive数据按行进行过滤(Row Level Filter),即可以对Select返回的结果按行进行过滤,只显示满足指定条件的行。本文介绍如何将Hive数据按行进行过滤。前提条件 已创建集群,并选择了Ranger服务,详情请参见 创建集群。已创建按...

通过Hive连接并使用宽表引擎

本文主要介绍如何通过Hive访问Lindorm宽表。前提条件 宽表引擎为2.4.3及以上版本。如何查看或升级当前版本,请参见 宽表引擎版本说明 和 升级小版本。已将客户端IP地址添加至Lindorm白名单。如何添加,请参见 设置白名单。已获取宽表引擎的...

注册Hive Kerberos集群

如果您的Flink作业要访问的Hive支持了Kerberos,则需要您先在Flink全托管控制台上注册Hive Kerberos集群,然后在Flink作业中配置Kerberos集群信息,即可访问支持了Kerberos的Hive。使用限制 仅支持Hadoop 3版本的Hive Kerberos集群。一个...

Hive服务异常排查及处理

本文介绍Hive服务异常的排查方法和解决方案。异常排查 如果客户端遇到异常或性能等问题,您可以按照如下步骤进行排查:排查异常时间段机器CPU、内存、网络以及磁盘是否有异常。排查组件是否正常:检查访问集群的Hive组件中 HiveMetaStore ...

Hive 资源发现

该文档描述了云迁移中心CMH的Hive调研服务的使用过程,通过这篇文档,将带您使用我们的工具hive-scanner,并且一步步完成hive的迁移对象发现。环境检查 在您执行 hive-scanner 之前,您需要提前完成前期的 hive调研工具准备。确保当前您...

Hive

本实例展示如何将Hive数据加载到DLA Ganos进行分析。Hive是Hadoop生态系统中的一个被广泛使用的数据仓库工具,主要用来进行Hadoop中的大规模数据的提取、转化、加载、查询和分析等操作。Hive数据仓库工具能将存储在HDFS系统中的结构化的...

Hive

本文主要介绍如何使用DLA Spark访问用户VPC中的Hive集群。重要 云原生数据湖分析(DLA)产品已退市,云原生数据仓库 AnalyticDB MySQL 版 湖仓版支持DLA已有功能,并提供更多的功能和更好的性能。AnalyticDB for MySQL 相关使用文档,请...

DataFlow集群通过Hive Catalog连接数据湖元数据DLF

CREATE CATALOG hive_catalog WITH('type'='hive','default-database'='flink_dlf_hive','hive-version'='2.3.6','hive-conf-dir'='/root/test','hadoop-conf-dir'='/etc/taihao-apps/hadoop-conf/');涉及参数如下表。参数 描述 type 固定...

Hive元数据说明

元数据类型介绍 EMR Hive元数据支持DLF统一元数据、自建RDS和内置MySQL三种类型。DLF统一元数据 元数据存储在阿里云数据湖构建(Data Lake Formation,简称DLF)中。数据湖构建具有高可用、免运维和高性能等优点,兼容Hive Metastore,无缝...

Catalog概述

本文为您介绍什么是Catalog(数据目录),以及如何使用Catalog管理和查询内外部数据。基本概念 内部数据:保存在StarRocks中的...SELECT*FROM hive_catalog.hive_db.hive_table h JOIN default_catalog.olap_db.olap_table o WHERE h.id=o.id;

数据源Hive

本文为您介绍如何创建数据源Hive。前提条件 请确保您的网络连通性:您通过公网连接Quick BI与Hive数据库,请添加 Quick BI的IP地址 至数据库白名单,请参见 添加安全组规则。您通过内网连接Quick BI与Hive数据库,请搭建跳板机,并通过SSH...

使用Hive查询JindoFS上的数据

Apache Hive是Hadoop生态中广泛使用的SQL引擎之一,让用户可以使用SQL实现分布式的查询,Hive中数据主要以undefinedDatabase、Table和Partition的形式进行管理,通过指定位置(Location)对应到后端的数据。JindoFS配置 以EMR-3.35版本为例...

Hive

Zeppelin的Hive解释器是使用JDBC连接HiveServer2。本文为您介绍如何在Zeppelin中使用Hive。背景信息 EMR数据开发的Zeppelin在以下两方面做了增强:在多个EMR集群中动态切换。您无需配置,所有配置都是自动完成。Zeppelin的Hive解释器提供...

环境准备

使用Hive/HadoopMR来访问表格存储中的表前,您需要完成JDK、Hadoop环境、Hive环境、表格存储Java SDK和阿里云EMR SDK的安装。使用Hive/HadoopMR来访问表格存储中的表 通过 表格存储 及 E-MapReduce 官方团队发布的依赖包,可以直接使用Hive...

访问Hive数据

云原生多模数据库 Lindorm 计算引擎提供完善的Hive数仓能力,支持用户通过Hive或Spark SQL定义数仓生产处理逻辑并开发相关作业。本文介绍如何使用SQL访问Hive数据。前提条件 已开通Lindorm实例的计算引擎服务,具体操作请参见 开通与变配。...

Hive服务内存参数调整

本文介绍如何调整Hive服务内存参数。调整场景 如果业务量上升,作业在元数据且作业执行相对延迟较大以及HiveMetaStore异常,且相关指标提示内存不足(例如HiveMetaStore内存指标(GC相关)超过阈值),可尝试将HiveMetaStore内存调大,如果...

Hive数据源

Hive数据源为您提供读取和写入Hive双向通道的功能,本文为您介绍DataWorks的Hive数据同步的能力支持情况。背景信息 Hive是基于Hadoop的数据仓库工具,用于解决海量结构化日志的数据统计。Hive可以将结构化的数据文件映射为一张表,并提供...

常用文件路径

JINDOTABLE_EXTRA_CLASSPATH=opt/apps/METASTORE/metastore-current/hive2 HIVE_HOME=opt/apps/HIVE/hive-current HIVE_LOG_DIR=var/log/taihao-apps/hive HIVE_CONF_DIR=etc/taihao-apps/hive-conf PATH=opt/apps/JINDOSDK/jindosdk-...

Hive基础操作

本文介绍如何通过Hive在E-MapReduce集群上创建库和表等操作。前提条件 已创建集群,且选择了Hive服务,详情请参见 创建集群。进入Hive命令行 使用SSH方式登录集群,详情请参见 登录集群。执行以下命令,切换为hadoop用户。su-hadoop 执行...

Hive访问Delta Lake和Hudi数据

Hive不支持写入数据到Delta Lake和Hudi,但是可以通过外部表的方式查询Delta Lake和Hudi中的数据。本文通过示例为您介绍如何使用EMR上的Hive访问Delta Lake和Hudi数据。前提条件 已创建包含Hive、Delta Lake和Hudi服务的集群,详情请参见 ...

同步EMR Kafka数据至Hive

本文为您介绍如何使用Flume同步EMR DataFlow集群的数据至EMR DataLake集群的Hive。前提条件 已创建DataLake集群,并且选择了Flume服务,详情请参见 创建集群。已创建DataFlow集群,并且选择了Kafka服务,详情请参见 创建集群。操作步骤 ...

Catalog概述

本文为您介绍什么是Catalog(数据目录),以及如何使用Catalog查询内外部数据。基本概念 内部数据:保存在StarRocks中的数据。...SELECT*FROM hive_catalog.hive_db.hive_table h JOIN default_catalog.olap_db.olap_table o WHERE h.id=o.id;

Hive、MySQL、Oracle内建函数对照表

本文为您提供MaxCompute、Hive、MySQL以及Oracle的内建函数对照表,方便您根据Hive、MySQL、Oracle内建函数查找对应的MaxCompute内建函数。日期函数 MaxCompute Hive MySQL Oracle DATEADD 无 无 无 DATE_ADD DATE_ADD DATE_ADD 无 DATE_...

函数操作

您可以使用系统的内建函数或自定义函数(UDF)完成计算。...spatial-sdk-hive.jar ST_AsJson ALIYUN$@aliyun.com 2021-03-18 17:06:50 com.esri.hadoop.hive.ST_AsJson esri-geometry-api.jar,spatial-sdk-hive.jar ST_AsShape ALIYUN$@aliyun....

Hive使用扩展记录数据血缘和访问历史

E-MapReduce集群默认在Hive服务上集成了EMR-HOOK。EMR-HOOK可以收集作业的SQL信息,例如数据血缘、访问频次等。通过EMR-HOOK,您可以利用数据湖构建(DLF)的数据概况,以统计表和分区的访问次数。同时,您也可以使用DataWorks来管理数据...

查询Delta表数据

在E-MapReduce中通过Spark创建的Delta表将自动同步到Hive元数据,您可以像使用其他表一样查询Delta表。您还可以通过使用Hive创建外表的方式来查询Delta表。本文为您介绍如何通过Spark创建表和Hive创建外表的方式,在Hive、Presto和Trino中...

配置Presto开启Ranger权限控制

hive.ranger.policy.hive-servicename emr-hive 上一步开启的Hive Service的名称,EMR集群中默认为emr-hivehive.ranger.service.basic-auth-username admin Ranger UI的用户名。hive.ranger.service.basic-auth-password Admin1234 ...

Hive巡检项及服务关键指标说明

本文介绍Hive巡检项及其服务关键指标说明。重要 部分非DataLake集群开启LDAP后,虽然使用HiveServer2可以正常连接并运行作业,但是巡检项一直报错 hive_server_availability_status failed。此时,您可以关闭巡检项或者新建一个最新版本的...

常见问题

本文汇总了Hive使用时的常见问题。说明 对于Hive作业报错或其他异常问题请参见 Hive作业异常排查及处理。对于Hive Metastore和HiveServer等服务相关的异常请参见 Hive服务异常排查及处理。作业长时间处于等待状态,如何处理?Map端是否读取...

Hive数据迁移至MaxCompute

整体步骤 Hive资源对象发现 通过部署CMH的调研工具hive-scanner,进行Hive迁移对象的探索及资源导入,详见 Hive 资源发现。集群构建 您可以在云迁移中心(CMH)的资源列表中勾选多个资源完成集群的创建,详见 集群创建。迁移规划 基于MMA...

快速使用数据湖分析版实例

数据湖分析版实例适用于查询存储在Apache Hive、Apache Iceberg、Apache Hudi以及Apache Paimon等多种数据湖上的数据,并涵盖OSS、OSS-HDFS、HDFS等平台,无需数据迁移即可实现快速的数据湖查询分析,且其性能比Presto高出3到5倍。...

Hive数据导入

云原生数据仓库AnalyticDB MySQL版 湖仓版(3.0)支持通过Hive数据迁移将Hive数据迁移至OSS。本文介绍如何添加Hive数据源,新建Hive迁移链路并启动任务,以及数据迁移后如何进行数据分析和管理数据迁移任务。功能介绍 AnalyticDB MySQL版 ...

Hive作业调优

您可以通过调整内存、CPU和Task个数等,实现对Hive作业的调优。本文为您介绍如何调优Hive作业。作业调优方案 作业调优方向 调优方案 参数调优 内存参数 CPU参数 Task数量优化 并行运行 Fetch task 开启向量化 合并小文件 代码优化 代码优化...

Tez

背景信息 Tez主要使用在Apache Hive中,作为Hive的一种运行时引擎,可以优化Hive SQL的查询引擎。与Hive On MR(MapReduce)相比,Hive On Tez具有更好的查询性能和稳定性。Hive基于MapReduce提交任务和基于Tez提交任务流程图如下所示:Tez...

MMA概述

数据迁移原理 Hive数据迁移原理 Hive数据迁移包含通过Hive UDTF迁移数据到MaxCompute、通过OSS迁移Hive数据到MaxCompute,本文为您介绍两种数据迁移方式的原理。通过Hive UDTF迁移数据到MaxCompute。该场景通过Hive的分布式能⼒,实现Hive...

生成keytab配置文件

MaxCompute与Hadoop集群构建湖仓一体时,如果Hadoop集群开启了Kerberos安全机制,则...缓存Hive principal和keytab文件 kinit-kt/tmp/hive.keytab hive-查看是否缓存成功 klist 登录Hive客户端,如果可以访问,即生成的keytab配置文件正确。

Hive支持的DQL语句

本文为您介绍Dataphin计算引擎为Hadoop时,系统支持的Hive DQL命令及语法。TABLESAMPLE 数据采样。采样分桶表 TABLESAMPLE(BUCKET x OUT OF y[ON colname])块抽样 TABLESAMPLE(n PERCENT)更多信息请参见 TABLESAMPLE。QUALIFY 说明 仅支持...

DLF统一元数据

使用限制 DLF统一元数据适配EMR的Hive 2.x、Hive 3.x、Presto和SparkSQL。仅EMR-3.30.0及之后版本和EMR-4.5.0及之后版本,支持选择DLF统一元数据作为Hive数据库。切换元数据存储类型 您可以通过修改Hive参数的方式,切换Hive MetaStore的...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
视频点播 视频直播 视图计算 钉钉会议 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用