hive的api-hive的api文档介绍内容-阿里云

Hive采集字段

该文档描述了云迁移中心CMH的Hive采集工具采集您的Hive的所有核心信息。简介 Hive采集工具通过访问Metastore DB 进行相关资源信息采集，当前支持的类型为MySQL数据库。基本信息通过对Hive的对象信息进行盘点，采集的字段重点举例为：Hive...

创建Hive数据源

通过创建Hive数据源能够实现Dataphin读取Hive的业务数据或向Hive写入数据。本文为您介绍如何创建Hive数据源。背景信息 Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供SQL查询功能。Hive用于转化...

简介

API 应用程序编程接口 用户开放API，在API网关录入API，以提供接口的方式对外提供服务或者数据。Group API Group API分组一组API。用户开放API，首先需要创建API分组每个API分组拥有一个二级域名，两个Stage 用户需要将已经备案且解析至...

基础术语

中文释义 API 应用程序编程接口，是一些预先定义的函数，或指软件系统不同组成部分衔接的约定。API 分组用于将 API 进行逻辑的分组，同个分组下的 API 使用相同的分组标识做隔离。分组标识是网关全局的唯一标识，用于定位在访问的 API。...

Hive调研工具准备

该文档描述了云迁移中心CMH的Hive调研工具使用的准备工作，通过这篇文档，您将了解到工具安装和使用的限制条件。名词解释工具服务器表示用户安装Hive调研工具（简称hive-scanner）的机器。用户授权 Hive扫描工具（简称hive-scanner）需要...

Hive概述

Hive是一个基于Hadoop的数据仓库框架，在大数据业务场景中，主要用来进行数据提取、转化和加载（ETL）以及元数据管理。背景信息 E-MapReduce（简称EMR）版本中，Hadoop、Hive版本和EMR...关于Apache Hive的更多介绍，请参见 Apache Hive官网。

Dataphin集成任务写出到Hive的覆盖策略

概述本文主要描述了Dataphin集成任务写出到Hive的覆盖策略。详细信息 Hive做为输出组件，Hive是以文件的形式存储在HDFS上的，覆盖策略是按照表名前缀，先做清表操作然后再覆盖数据。适用于 Dataphin v3.5.2

Hive访问EMR Phoenix数据

本文通过示例为您介绍，如何使用EMR上的Hive处理EMR Phoenix数据。前提条件已创建选择了Hive、HBase、Zookeeper和Phoenix服务的自定义集群（Custom），详情请参见创建集群。说明因为当前EMR-4.x和EMR-5.x系列版本未支持Phoenix服务，...

配置Hive输入组件

使用限制 Hive输入组件支持数据格式为 orc、parquet、text、rc、seq、iceberg（iceberg格式仅支持E-MapReduce5.x的Hive计算源或数据源）的Hive数据表。不支持ORC格式的事务表、Kudu表集成。说明 Kudu表数据集成请使用Impala输入组件。更多...

Tez

背景信息 Tez主要使用在Apache Hive中，作为Hive的一种运行时引擎，可以优化Hive SQL的查询引擎。与Hive On MR（MapReduce）相比，Hive On Tez具有更好的查询性能和稳定性。Hive基于MapReduce提交任务和基于Tez提交任务流程图如下所示：Tez...

Hive Metastore使用加密文件访问RDS

执行以下命令，将凭据文件移动到Hive的配置文件目录，并将该文件的所有者更改为hive用户或hadoop用户。DataLake或Custom集群类型 sudo mv/tmp/hive.jceks$HIVE_CONF_DIR sudo chown hive$HIVE_CONF_DIR/hive.jceks Hadoop集群类型 sudo mv/...

新建Paimon数据源

Hive Keytab File Kerberos方式访问集群，需上传Hive的Hive Keytab File配置文件。Hive Principal Kerberos方式访问集群，需填写Kerberos认证Principal名，如 XXXX/hadoopclient@xxx.xxx。配置文件上传hive的hive-site.xml配置文件。重要 ...

EMR Hive功能增强

本文为您介绍E-MapReduce（简称EMR）各版本对应的Hive组件版本，以及各版本中Hive相对开源增强的功能。Hive针对开源功能增强的功能如下表。EMR版本组件版本功能增强 EMR-5.2.1 Hive 3.1.2 修复使用DLF元数据执行 show create table 命令...

配置Hive输出组件

使用限制 Hive输出组件支持写入文件格式为 orc、parquet、text、iceberg（iceberg格式仅支持E-MapReduce5.x的Hive计算源或数据源）的Hive数据表。不支持ORC格式的事务表、Kudu表集成。说明 Kudu表数据集成请使用Impala输出组件。更多信息，...

从统一元数据库迁出到用户自建的RDS实例

为保证数据的一致性，在Hive服务页面停止Hive的MetaStore服务，保证导出期间不会有新的元数据变化，详情请参见停止Hive的MetaStore服务。在Hive服务页面，单击配置页签。在配置页面，查找 javax.jdo.option.ConnectionUserName、javax....

Hive 资源发现

该文档描述了云迁移中心CMH的Hive调研服务的使用过程，通过这篇文档，将带您使用我们的工具hive-scanner，并且一步步完成hive的迁移对象发现。环境检查在您执行 hive-scanner 之前，您需要提前完成前期的 hive调研工具准备。确保当前您...

访问Hive数据源

编写访问Hive的示例程序（即Spark作业依赖的Jar包），并进行编译打包。本文生成的Jar包名称为 hive_test.jar。示例代码如下：package com.aliyun.spark import org.apache.spark.sql.SparkSession object SparkHive { def main(args:Array...

通过数据湖元数据DLF读写Hudi

操作流程步骤一：环境准备步骤二：启动Flink SQL 步骤三：创建并验证Catalog 步骤四：Flink SQL写入Hudi 步骤五：DataLake集群查询Hudi 步骤一：环境准备拷贝DataLake集群中${HIVE_CONF_DIR} 下的 hive-site.xml 到DataFlow集群。...

Hive

本文主要介绍如何使用DLA Spark访问用户VPC中的Hive集群。重要云原生数据湖分析（DLA）产品已退市，云原生数据仓库 AnalyticDB MySQL 版湖仓版支持DLA已有功能，并提供更多的功能和更好的性能。AnalyticDB for MySQL 相关使用文档，请...

Hive访问EMR HBase数据

本文通过示例为您介绍，如何使用EMR上的Hive处理EMR HBase数据。前提条件已创建选择了Hive、HBase和Zookeeper服务的自定义集群（Custom），详情请参见创建集群。已登录集群，详情请参见登录集群。Hive通过内表访问HBase 如果HBase中没有...

Hive访问EMR HBase数据

本文通过示例为您介绍，如何使用EMR上的Hive处理EMR HBase数据。前提条件已创建选择了Hive、HBase和Zookeeper服务的自定义集群（Custom），详情请参见创建集群。已登录集群，详情请参见登录集群。Hive通过内表访问HBase 如果HBase中没有...

MMA概述

该场景通过Hive的分布式能⼒，实现Hive数据向MaxCompute的⾼并发传输。前提条件。Hive集群各节点已能够访问MaxCompute。数据迁移过程。MMA通过Hive MetaStore获取元数据，即获取所有表名、表的Schema和分区信息。MMA在MaxCompute端根据获取...

DataFlow集群通过Hive Catalog连接数据湖元数据DLF

OK flink_dlf_hive oss:/aliyu*/flink_dlf_hive/db acs:ram:125046002175*:user/29915368510086*USER Time taken:0.069 seconds,Fetched:1 row(s)创建Hive的外表并验证。执行以下命令，创建Hive的外表。USE flink_dlf_hive;set hive.input....

UDF示例：兼容Hive

本文以在MaxCompute客户端操作为例，为您介绍如何使用在MaxCompute兼容的Hive版本上开发的Hive UDF。前提条件已安装MaxCompute客户端。更多安装操作，请参见安装并配置MaxCompute客户端。注意事项使用兼容的Hive UDF时，您需要注意：在...

创建Hudi数据源

本文为您介绍如何创建Hudi数据源。背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并...同步到Hive的数据库名称：填写同步到Hive的数据库名称。单击确定，完成Hudi数据源的创建。

同步EMR Kafka数据至Hive

本文为您介绍如何使用Flume同步EMR DataFlow集群的数据至EMR DataLake集群的Hive。前提条件已创建DataLake集群，并且选择了Flume服务，详情请参见创建集群。已创建DataFlow集群，并且选择了Kafka服务，详情请参见创建集群。操作步骤 ...

DLF统一元数据

使用限制 DLF统一元数据适配EMR的Hive 2.x、Hive 3.x、Presto和SparkSQL。仅EMR-3.30.0及之后版本和EMR-4.5.0及之后版本，支持选择DLF统一元数据作为Hive数据库。切换元数据存储类型您可以通过修改Hive参数的方式，切换Hive MetaStore的...

创建Hudi数据源

同步到Hive的数据库名称：填写同步到Hive的数据库名称。单击确定，完成Hudi数据源的创建。重要创建Hudi数据源时不支持测试数据源是否可以和Dataphin进行正常的连通，因此需要您确保连接信息的正确性。您可根据网络连通解决方案自行排查...

Hive访问云HBase数据

阿里云HBase需要借助外部Hive对多表进行关联分析，本文介绍如何使用E-MapReduce（简称EMR）上的Hive关联阿里云HBase的表。前提条件已创建DataLake集群。详细步骤，请参见创建集群。已创建与EMR在同一地域下且共用VPC的HBase实例。说明 ...

自建Hive数据仓库迁移到阿里云E-MapReduce

可靠性使用阿里云数据库RDS保存Hive的元数据信息，可以提升数据可靠性和服务可用性，免除客户运维自建MySQL数据库的工作。架构图方案详情请参见阿里云自建Hive数据仓库跨版本迁移到阿里云EMR。icmsDocProps={'productMethod':'created'...

Hive数据源

Hive的本质是一个SQL解析引擎，其底层通过MapReduce实现数据分析，使用HDFS存储处理的数据，将HQL转化为MapReduce程序并在Yarn上运行。Hive Reader插件通过访问HiveMetastore服务，获取您配置的数据表的元数据信息。您可以基于HDFS文件和...

生成keytab配置文件

在Kerberos客户端，执行如下命令，将具有Hive访问权限的Hive用户添加到密钥分发中心（KDC），并查看是否添加成功。将具有Hive访问权限的Hive用户添加到KDC中。add_principal-pw<password>hive-查看是否添加成功。list_principals 在...

常用文件路径

例如，执行命令 env|grep hive，查看Hive的安装目录。JINDOTABLE_EXTRA_CLASSPATH=opt/apps/METASTORE/metastore-current/hive2 HIVE_HOME=opt/apps/HIVE/hive-current HIVE_LOG_DIR=var/log/taihao-apps/hive HIVE_CONF_DIR=etc/taihao-...

Hive访问Iceberg数据

本文通过示例为您介绍如何使用EMR上的Hive访问EMR Iceberg数据。前提条件已创建Hadoop集群，详情请参见创建集群。说明此文档仅适用于EMR-3.38.0及后续版本与EMR-5.4.0及后续版本的Hadoop集群。使用限制 EMR-3.38.0及后续版本与EMR-5.4.0...

使用Hadoop作为元仓计算引擎进行元仓初始化

说明设置了执行引擎后，元仓租户的计算设置、计算源、任务等都使用设置的Hive执行引擎。重新初始化后，计算设置、计算源、任务等将被初始化为新设置的执行引擎。元数据获取方式元数据获取方式支持元数据库和 HMS（Hive Metastore ...

Hive服务异常排查及处理

排查组件是否正常：检查访问集群的Hive组件中 HiveMetaStore 和 HiveServer2 巡检项是否有异常提示，如有则需要继续根据对应巡检项指标进行排查。例如GC指标提示内存使用率过高，则需要调整内存。具体操作，请参见 Hive服务内存参数调整。...

EMR-3.33.x版本说明

Ranger 增加Hive的Audit日志配置。增加Log4j Audit的配置。OpenLDAP 增加审计功能。默认开启SSL端口（10636）。支持一键开启Presto。Knox 修复Spring漏洞。修复Spark UI中查看Executors页面的问题。修复Oozie的Job状态页面的问题。Hue 支持...

创建EMR Hive节点

配置EMR-HOOK，详情请参见配置Hive的EMR-HOOK。操作步骤进入数据开发页面。登录 DataWorks控制台，单击左侧导航栏的数据建模与开发>数据开发，在下拉框中选择对应工作空间后单击进入数据开发。创建 EMR Hive 节点。鼠标悬停至图标，...

查看集群日报与分析

在详细分析中，您可以了解Hive使用的基本状态，例如总的Hive库数，总的Hive表数，Hive表总文件数和总存储量等。同时为您指明具体的问题，例如小文件数占比过高，冷数据存储量过多，以及存储格式分布不合理等。在具体问题中会告知您出现问题...

注册Hive Kerberos集群

如果您的Flink作业要访问的Hive支持了Kerberos，则需要您先在Flink全托管控制台上注册Hive Kerberos集群，然后在Flink作业中配置Kerberos集群信息，即可访问支持了Kerberos的Hive。使用限制仅支持Hadoop 3版本的Hive Kerberos集群。一个...

hive的api

新品推荐