Hive采集字段

该文档描述了云迁移中心CMH的Hive采集工具采集您的Hive的所有核心信息。简介 Hive采集工具通过访问Metastore DB 进行相关资源信息采集,当前支持的类型为MySQL数据库。基本信息 通过对Hive的对象信息进行盘点,采集的字段重点举例为:Hive...

创建Hive数据源

通过创建Hive数据源能够实现Dataphin读取Hive的业务数据或向Hive写入数据。本文为您介绍如何创建Hive数据源。背景信息 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供SQL查询功能。Hive用于转化...

简介

API 应用程序编程接口 用户开放API,在API网关录入API,以提供接口的方式对外提供服务或者数据。Group API Group API分组 一组API。用户开放API,首先需要创建API分组 每个API分组拥有一个二级域名,两个Stage 用户需要将已经备案且解析至...

基础术语

中文 释义 API 应用程序编程接口,是一些预先定义的函数,或指软件系统不同组成部分衔接的约定。API 分组 用于将 API 进行逻辑的分组,同个分组下 API 使用相同的分组标识做隔离。分组标识 是网关全局的唯一标识,用于定位在访问 API。...

Hive调研工具准备

该文档描述了云迁移中心CMH的Hive调研工具使用的准备工作,通过这篇文档,您将了解到工具安装和使用的限制条件。名词解释 工具服务器 表示用户安装Hive调研工具(简称hive-scanner)的机器。用户授权 Hive扫描工具(简称hive-scanner)需要...

Hive概述

Hive是一个基于Hadoop的数据仓库框架,在大数据业务场景中,主要用来进行数据提取、转化和加载(ETL)以及元数据管理。背景信息 E-MapReduce(简称EMR)版本中,Hadoop、Hive版本和EMR...关于Apache Hive的更多介绍,请参见 Apache Hive官网。

Dataphin集成任务写出到Hive的覆盖策略

概述 本文主要描述了Dataphin集成任务写出到Hive的覆盖策略。详细信息 Hive做为输出组件,Hive是以文件的形式存储在HDFS上的,覆盖策略是按照表名前缀,先做清表操作然后再覆盖数据。适用于 Dataphin v3.5.2

Hive访问EMR Phoenix数据

本文通过示例为您介绍,如何使用EMR上的Hive处理EMR Phoenix数据。前提条件 已创建选择了Hive、HBase、Zookeeper和Phoenix服务的自定义集群(Custom),详情请参见 创建集群。说明 因为当前EMR-4.x和EMR-5.x系列版本未支持Phoenix服务,...

配置Hive输入组件

使用限制 Hive输入组件支持数据格式为 orc、parquet、text、rc、seq、iceberg(iceberg格式仅支持E-MapReduce5.x的Hive计算源或数据源)的Hive数据表。不支持ORC格式的事务表、Kudu表集成。说明 Kudu表数据集成请使用Impala输入组件。更多...

Tez

背景信息 Tez主要使用在Apache Hive中,作为Hive的一种运行时引擎,可以优化Hive SQL的查询引擎。与Hive On MR(MapReduce)相比,Hive On Tez具有更好的查询性能和稳定性。Hive基于MapReduce提交任务和基于Tez提交任务流程图如下所示:Tez...

Hive Metastore使用加密文件访问RDS

执行以下命令,将凭据文件移动到Hive的配置文件目录,并将该文件的所有者更改为hive用户或hadoop用户。DataLake或Custom集群类型 sudo mv/tmp/hive.jceks$HIVE_CONF_DIR sudo chown hive$HIVE_CONF_DIR/hive.jceks Hadoop集群类型 sudo mv/...

新建Paimon数据源

Hive Keytab File Kerberos方式访问集群,需上传Hive的Hive Keytab File配置文件。Hive Principal Kerberos方式访问集群,需填写Kerberos认证Principal名,如 XXXX/hadoopclient@xxx.xxx。配置文件 上传hive的hive-site.xml配置文件。重要 ...

EMR Hive功能增强

本文为您介绍E-MapReduce(简称EMR)各版本对应的Hive组件版本,以及各版本中Hive相对开源增强的功能。Hive针对开源功能增强的功能如下表。EMR版本 组件版本 功能增强 EMR-5.2.1 Hive 3.1.2 修复使用DLF元数据执行 show create table 命令...

配置Hive输出组件

使用限制 Hive输出组件支持写入文件格式为 orc、parquet、text、iceberg(iceberg格式仅支持E-MapReduce5.x的Hive计算源或数据源)的Hive数据表。不支持ORC格式的事务表、Kudu表集成。说明 Kudu表数据集成请使用Impala输出组件。更多信息,...

从统一元数据库迁出到用户自建的RDS实例

为保证数据的一致性,在Hive服务页面停止Hive的MetaStore服务,保证导出期间不会有新的元数据变化,详情请参见 停止Hive的MetaStore服务。在Hive服务页面,单击 配置 页签。在配置页面,查找 javax.jdo.option.ConnectionUserName、javax....

Hive 资源发现

该文档描述了云迁移中心CMH的Hive调研服务的使用过程,通过这篇文档,将带您使用我们的工具hive-scanner,并且一步步完成hive的迁移对象发现。环境检查 在您执行 hive-scanner 之前,您需要提前完成前期 hive调研工具准备。确保当前您...

访问Hive数据源

编写访问Hive的示例程序(即Spark作业依赖的Jar包),并进行编译打包。本文生成的Jar包名称为 hive_test.jar。示例代码如下:package com.aliyun.spark import org.apache.spark.sql.SparkSession object SparkHive { def main(args:Array...

通过数据湖元数据DLF读写Hudi

操作流程 步骤一:环境准备 步骤二:启动Flink SQL 步骤三:创建并验证Catalog 步骤四:Flink SQL写入Hudi 步骤五:DataLake集群查询Hudi 步骤一:环境准备 拷贝DataLake集群中${HIVE_CONF_DIR} 下 hive-site.xml 到DataFlow集群。...

Hive

本文主要介绍如何使用DLA Spark访问用户VPC中的Hive集群。重要 云原生数据湖分析(DLA)产品已退市,云原生数据仓库 AnalyticDB MySQL 版 湖仓版支持DLA已有功能,并提供更多的功能和更好的性能。AnalyticDB for MySQL 相关使用文档,请...

Hive访问EMR HBase数据

本文通过示例为您介绍,如何使用EMR上的Hive处理EMR HBase数据。前提条件 已创建选择了Hive、HBase和Zookeeper服务的自定义集群(Custom),详情请参见 创建集群。已登录集群,详情请参见 登录集群。Hive通过内表访问HBase 如果HBase中没有...

Hive访问EMR HBase数据

本文通过示例为您介绍,如何使用EMR上的Hive处理EMR HBase数据。前提条件 已创建选择了Hive、HBase和Zookeeper服务的自定义集群(Custom),详情请参见 创建集群。已登录集群,详情请参见 登录集群。Hive通过内表访问HBase 如果HBase中没有...

MMA概述

该场景通过Hive的分布式能⼒,实现Hive数据向MaxCompute的⾼并发传输。前提条件。Hive集群各节点已能够访问MaxCompute。数据迁移过程。MMA通过Hive MetaStore获取元数据,即获取所有表名、表的Schema和分区信息。MMA在MaxCompute端根据获取...

DataFlow集群通过Hive Catalog连接数据湖元数据DLF

OK flink_dlf_hive oss:/aliyu*/flink_dlf_hive/db acs:ram:125046002175*:user/29915368510086*USER Time taken:0.069 seconds,Fetched:1 row(s)创建Hive的外表并验证。执行以下命令,创建Hive的外表。USE flink_dlf_hive;set hive.input....

UDF示例:兼容Hive

本文以在MaxCompute客户端操作为例,为您介绍如何使用在MaxCompute兼容的Hive版本上开发的Hive UDF。前提条件 已安装MaxCompute客户端。更多安装操作,请参见 安装并配置MaxCompute客户端。注意事项 使用兼容的Hive UDF时,您需要注意:在...

创建Hudi数据源

本文为您介绍如何创建Hudi数据源。背景信息 Hudi即Apache Hudi,Hudi是一个通用的大数据存储系统,将核心仓库和数据库功能直接引入到数据库中,并...同步到Hive的数据库名称:填写同步到Hive的数据库名称。单击 确定,完成Hudi数据源的创建。

同步EMR Kafka数据至Hive

本文为您介绍如何使用Flume同步EMR DataFlow集群的数据至EMR DataLake集群的Hive。前提条件 已创建DataLake集群,并且选择了Flume服务,详情请参见 创建集群。已创建DataFlow集群,并且选择了Kafka服务,详情请参见 创建集群。操作步骤 ...

DLF统一元数据

使用限制 DLF统一元数据适配EMR的Hive 2.x、Hive 3.x、Presto和SparkSQL。仅EMR-3.30.0及之后版本和EMR-4.5.0及之后版本,支持选择DLF统一元数据作为Hive数据库。切换元数据存储类型 您可以通过修改Hive参数的方式,切换Hive MetaStore的...

创建Hudi数据源

同步到Hive的数据库名称:填写同步到Hive的数据库名称。单击 确定,完成Hudi数据源的创建。重要 创建Hudi数据源时不支持测试数据源是否可以和Dataphin进行正常的连通,因此需要您确保连接信息的正确性。您可根据 网络连通解决方案 自行排查...

Hive访问云HBase数据

阿里云HBase需要借助外部Hive对多表进行关联分析,本文介绍如何使用E-MapReduce(简称EMR)上的Hive关联阿里云HBase的表。前提条件 已创建DataLake集群。详细步骤,请参见 创建集群。已创建与EMR在同一地域下且共用VPC的HBase实例。说明 ...

自建Hive数据仓库迁移到阿里云E-MapReduce

可靠性 使用阿里云数据库RDS保存Hive的元数据信息,可以提升数据可靠性和服务可用性,免除客户运维自建MySQL数据库的工作。架构图 方案详情 请参见 阿里云自建Hive数据仓库跨版本迁移到阿里云EMR。icmsDocProps={'productMethod':'created'...

Hive数据源

Hive的本质是一个SQL解析引擎,其底层通过MapReduce实现数据分析,使用HDFS存储处理的数据,将HQL转化为MapReduce程序并在Yarn上运行。Hive Reader插件通过访问HiveMetastore服务,获取您配置的数据表的元数据信息。您可以基于HDFS文件和...

生成keytab配置文件

在Kerberos客户端,执行如下命令,将具有Hive访问权限的Hive用户添加到密钥分发中心(KDC),并查看是否添加成功。将具有Hive访问权限的Hive用户添加到KDC中。add_principal-pw<password>hive-查看是否添加成功。list_principals 在...

常用文件路径

例如,执行命令 env|grep hive,查看Hive的安装目录。JINDOTABLE_EXTRA_CLASSPATH=opt/apps/METASTORE/metastore-current/hive2 HIVE_HOME=opt/apps/HIVE/hive-current HIVE_LOG_DIR=var/log/taihao-apps/hive HIVE_CONF_DIR=etc/taihao-...

Hive访问Iceberg数据

本文通过示例为您介绍如何使用EMR上的Hive访问EMR Iceberg数据。前提条件 已创建Hadoop集群,详情请参见 创建集群。说明 此文档仅适用于EMR-3.38.0及后续版本与EMR-5.4.0及后续版本的Hadoop集群。使用限制 EMR-3.38.0及后续版本与EMR-5.4.0...

使用Hadoop作为元仓计算引擎进行元仓初始化

说明 设置了执行引擎后,元仓租户的计算设置、计算源、任务等都使用设置的Hive执行引擎。重新初始化后,计算设置、计算源、任务等将被初始化为新设置的执行引擎。元数据获取方式 元数据获取方式支持 元数据库 和 HMS(Hive Metastore ...

Hive服务异常排查及处理

排查组件是否正常:检查访问集群的Hive组件中 HiveMetaStore 和 HiveServer2 巡检项是否有异常提示,如有则需要继续根据对应巡检项指标进行排查。例如GC指标提示内存使用率过高,则需要调整内存。具体操作,请参见 Hive服务内存参数调整。...

EMR-3.33.x版本说明

Ranger 增加Hive的Audit日志配置。增加Log4j Audit的配置。OpenLDAP 增加审计功能。默认开启SSL端口(10636)。支持一键开启Presto。Knox 修复Spring漏洞。修复Spark UI中查看Executors页面的问题。修复Oozie的Job状态页面的问题。Hue 支持...

创建EMR Hive节点

配置EMR-HOOK,详情请参见 配置Hive的EMR-HOOK。操作步骤 进入数据开发页面。登录 DataWorks控制台,单击左侧导航栏的 数据建模与开发>数据开发,在下拉框中选择对应工作空间后单击 进入数据开发。创建 EMR Hive 节点。鼠标悬停至 图标,...

查看集群日报与分析

在详细分析中,您可以了解Hive使用的基本状态,例如总的Hive库数,总的Hive表数,Hive表总文件数和总存储量等。同时为您指明具体的问题,例如小文件数占比过高,冷数据存储量过多,以及存储格式分布不合理等。在具体问题中会告知您出现问题...

注册Hive Kerberos集群

如果您的Flink作业要访问的Hive支持了Kerberos,则需要您先在Flink全托管控制台上注册Hive Kerberos集群,然后在Flink作业中配置Kerberos集群信息,即可访问支持了Kerberos的Hive。使用限制 仅支持Hadoop 3版本的Hive Kerberos集群。一个...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
API 网关 视觉智能开放平台 风险识别 对象存储 短信服务 弹性公网IP
新人特惠 爆款特惠 最新活动 免费试用