hive的api-hive的api文档介绍内容-阿里云

MaxCompute+Hadoop搭建实践

本文以E-MapReduce的Hive为例，为您介绍在MaxCompute中如何创建外部项目，并查询Hadoop中的表数据。使用限制仅华东1（杭州）、华东2（上海）、华北2（北京）、华北3（张家口）、华南1（深圳）、中国香港、新加坡和德国（法兰克福）地域...

Spark Load

从 hive_table 中抽取待去重字段的去重值，生成一张新的Hive表，记为 distinct_value_table。新建一张全局字典表，记为 dict_table。字典表一列为原始值，另一列为编码后的值。将 distinct_value_table 与 dict_table 做 left join，计算出...

在EMR Hive或Spark中访问OSS-HDFS

背景信息 OSS-HDFS服务是一款云原生数据湖存储产品，基于统一的元数据管理能力，在完全兼容HDFS文件系统接口的同时，提供充分的POSIX能力支持，能更好的满足大数据和AI领域丰富多样的数据湖计算场景，详细信息请参见 OSS-HDFS服务概述。...

常见问题

需要检查Trino的hive.properties中的 hive.parquet.use-columns-names 配置项是否已置为true。为什么新增一个配置后，重启Trino失败？如果 Server.log 中包含了 Error:Configuration property 'xxxxx' was not used，则说明您新增配置的...

EMR-3.36.x版本说明

修改E-MapReduce控制台上，Hive服务配置页面的 hive-env 页签的配置项名称为大写，便于用户使用。优化文件系统与MetaStore不一致时写Hive表的报错信息。HDFS 支持ZSTD（Zstandard）压缩格式。Flink 升级Flink至1.12-vvr-3.0.2版本。说明 ...

Spark应用配置参数说明

使用说明 Spark应用配置参数用于配置和调整Spark应用程序的行为和性能。使用不同的Spark开发工具，应用配置参数的格式不同。开发工具配置参数格式配置参数示例 SQL开发编辑器 set key=value;set spark.sql.hive.metastore.version=adb;...

新建ArgoDB计算源

core-site.xml、hdfs-site.xml、hive-site.xml、其他配置文件上传HDFS配置文件core-site.xml和hdfs-site.xml及hive的hive-site.xml文件。若存在其他配置文件，您可在其他配置文件处进行上传。认证方式如果ARGODB集群有Kerberos认证，则...

Paimon与Spark集成

参数值为 thrift:/master-1-1:9083，这意味着Spark SQL将连接到这个运行在 master-1-1 主机上、监听9083端口的Hive Metastore服务以获取元数据信息。spark.sql.catalog.paimon.warehouse：配置数据仓库的实际位置，请根据实际情况修改。...

HDFS数据源

目前插件中的Hive版本为1.1.1，Hadoop版本为2.7.1（Apache为适配JDK1.7）。在Hadoop2.5.0、Hadoop2.6.0和Hive1.2.0测试环境中写入正常。HDFS Writer仅支持使用独享数据集成资源组。实现过程 HDFS Writer的实现过程如下所示：根据您指定的...

EMR-5.2.x版本说明

修改E-MapReduce控制台上，Hive服务配置页面的 hive-env 页签的配置项名称为大写，便于用户使用。修复UDF（User Define Function）导致HiveServer2内存泄露的问题。优化文件系统与MetaStore不一致时写Hive表的报错信息。HDFS 支持ZSTD...

Quick BI连接Hive数据源，用户名密码没有修改，过一段...

问题原因经过确认，通过Kerberos认证连接的Hive数据源，但是没有将容器内的kerberos目录挂载到宿主机内，保留配置文件导致。解决方案需要联系运维同学执行挂载kerberos目录的操作，不然每次容器重启后，hive数据源的账号密码就会需要重新...

2024-04-01版本

管理Hive Catalog 基于DLF的Hive Catalog支持创建非Hive表您可以统一使用Hive Catalog管理不同的类型的表。Paimon支持能力提升支持将数据写入OSS-HDFS。CTAS和CDAS语句支持创建动态分桶的Paimon表。完整包含Paimon社区至2024年3月15日的...

Hudi连接器

示例 Hudi表作为Hive的外表存储，可以通过连接Hive连接器来访问Hudi表进行数据查询。Hudi表的生成以及同步到Hive表中的步骤，请参见 Hudi与Spark SQL集成和基础使用。生成数据和查询数据示例如下所示：登录集群，详情请参见登录集群。...

在文件存储 HDFS 版上使用Apache Tez

Tez主要使用在Apache Hive中，作为Hive的一种执行引擎。与Hive on MR（MapReduce）相比，Hive on Tez具有更好的查询性能和稳定性。步骤一：Hadoop集群挂载文件存储 HDFS 版实例在Hadoop集群中配置文件存储 HDFS 版实例。具体操作，请...

通过整库迁移配置集成任务

文件编码：Hive的存储格式为ORC，支持配置文件编码。包括 UTF-8 和 GBK。压缩格式：ORC存储格式支持 zlib、hadoop-snappy、lz4、none；PARQUET存储格式支持 gzip、hadoop-snappy。性能配置：Hive的存储格式为ORC，支持配置性能配置。输出...

功能特性

Value-Function或TVF），可以将S3、HDFS等常见远端存储中的文件数据，映射成云数据库 SelectDB 版中的表，从而对这些文件数据进行分析文件分析数据湖分析 Hive数据源通过连接Hive Metastore，云数据库 SelectDB 版可以自动获取Hive的库...

配置StarRocks集群以访问高安全数据集群

hive.metastore.kerberos.principal 配置值与DataLake集群 Hive 服务 hive-site.xml 配置文件里的 hive.metastore.kerberos.principal 的值保持一致。保存配置。单击下方的保存。在弹出的对话框中，输入执行原因，单击保存。重启...

Spark Load

从hive-table中抽取待去重字段的去重值，生成一张新的Hive表，记为distinct-value-table。新建一张全局字典表，记为dict-table。一列为原始值，一列为编码后的值。将distinct-value-table与dict-table进行LEFT JOIN，计算出新增的去重值...

CDH6与文件引擎集成

1 seconds 170 msec OK Time taken:15.429 seconds 通过Hive的终端，查询写入的数据，如果正确查询出数据，表示Hive安装完成。hive>select*from foo;OK 12 xyz Time taken:0.091 seconds,Fetched:1 row(s)hive>查看文件是否正常生成。通过...

使用基于OSS创建的Hive外部表进行离线集成

在E-MapReduce5.xHadoop计算引擎下，若您需要将基于OSS创建的Hive外部表在Dataphin中进行离线集成操作。您需要先进行相关配置，才可以进行离线集成。本文将指导您如何进行配置。配置说明使用该功能需要您先在Hive数据源或者Hadoop计算源的...

使用基于OSS创建的Hive外部表进行离线集成

在E-MapReduce5.xHadoop计算引擎下，若您需要将基于OSS创建的Hive外部表在Dataphin中进行离线集成操作。您需要先进行相关配置，才可以进行离线集成。本文将指导您如何进行配置。配置说明使用该功能需要您先在Hive数据源或者Hadoop计算源的...

数据治理

哪些类型的Hive表支持在数据地图中预览？数据保护伞数据保护伞为什么有时候查询脱敏有时候查询不脱敏为什么数据地图数据总览页存储量和存储趋势图相差较大？存储量是实时的数据，存储趋势图（折线图）是某一时刻的快照，如果您现在的计算...

UDF开发（Java）

当MaxCompute提供的内建函数无法支撑您的业务实现时，您可以根据...如果UDF是在其他版本的Hive或Hadoop上开发的，您需要使用兼容的Hive或Hadoop版本重新编译UDF JAR包。在MaxCompute上使用Hive UDF的具体案例，请参见兼容Hive Java UDF示例。

使用JindoTable将Hive表和分区数据迁移到OSS/OSS-HDFS

否使用示例已有一个HDFS上的Hive分区表，示例如下。想要把bbb和ccc分区移动到OSS。先用explain模式查看移动的分区是否符合预期，参数为-e 或-explain。去掉参数-e，正式移动分区。执行完成后，检查数据是否已经在OSS。再移回HDFS，结果...

EMR Serverless Spark与其他VPC间网络互通

（可选）步骤三：连接Hive服务并查询表数据如果您已有创建并配置好的Hive表，则可以跳过该步骤。使用SSH方式登录集群的Master节点，详情请参见登录集群。执行以下命令，进入Hive命令行。hive 执行以下命令，创建表。CREATE TABLE my_...

访问Kafka数据

在Lindorm计算引擎中创建Kafka Topic对应的Hive临时表。CREATE TEMPORARY TABLE kafka_tbl USING kafka OPTIONS(table_options);USING kafka 中Kafka为指定数据源。Kafka表无需指定Schema，Lindorm计算引擎提供默认的Kafka Schema，不可...

EMR-3.23.x版本说明

Hive 删除老版本的hive hook。添加支持多个count distinct字段的数据倾斜处理优化。解决join不同bucketversion的表时丢数据的问题。Flink 升级至1.8.2。Bigboot 更新小文件工具。更新OSS JAR，解决非daemon线程问题。Kafka 新增感知...

数据上云场景

MMA利用Meta Carrier连接您的Hive Metastore服务，获取Hive Metadata，并利用这些数据生成用于创建MaxCompute表和分区的DDL语句以及用于迁移数据的Hive UDTF SQL。详细信息请参见 MMA概述。数据库数据同步数据库的数据同步到MaxCompute...

配置hosts

Presto on ACK提供了自定义hosts功能，当Presto on ACK集群读取EMR on ECS集群的Hive数据时，该功能可以提供正确的域名解析配置。本文为您介绍如何配置hosts。背景信息如果没有正确配置hosts，则可能遇到以下报错提示。java....

EMR-3.24.x版本说明

重启组件时不同步 hiveserver2-site.xml 中的内容至spark-conf下的 hive-site.xml。支持使用MSCK命令添加增量目录。修复Hive复用tez container时出现的bug。支持使用MSCK命令优化列目录。Bigboot 升级至2.2.1，修复Native代码支持在部分...

Superset（仅对存量用户开放）

这里以E-MapReduce Hadoop集群默认安装的Hive引擎为例，更多的数据库类型访问方式请参见 SQLAlchemy。登录Superset。您需要在SSH连接中创建隧道以查看开源组件的Web页面，详情请参见通过SSH隧道方式访问开源组件Web UI。默认用户名和密码...

注册EMR集群至DataWorks

目前仅EMR Hive、EMR Spark SQL服务支持配置EMR-HOOK，配置详情请参见配置Hive的EMR-HOOK、配置Spark SQL的EMR-HOOK。前提条件已开通如下权限。仅拥有以下身份的RAM用户或RAM角色，可注册EMR集群，操作详情请参见为RAM用户授权。阿里云...

漏洞公告|Apache Log4j2远程代码执行漏洞

以Hive组件为例，在EMR集群的Hive服务页面，选择右上角的更多操作>重启。Gateway集群由于该方案依赖于SSH免密登录，对于Gateway集群，您需要手动将patch包上传到Gateway集群的每一个节点，并按EMR集群的修复流程分别执行修复操作。重要 ...

通过Presto查询RDS MySQL数据库

Schema-emruser information_schema performance_schema sys(4 rows)步骤三：查询表数据说明本文示例中的 hive.default.tbl_department 是您在Hive上创建的表，connector1.emruser.tbl_employee 是您在MySQL上创建的表。查询 emruser.tbl...

Presto以EMR集群的方式查询OSS-HDFS服务中的数据

以下以常用的Hive catalog为例，使用Presto创建一个OSS中的schema，并执行简单的SQL查询示例。由于Presto依赖Hive Metastore，因此Hive服务也需要安装并部署JindoSDK。具体操作，请参见 Hive使用JindoSDK处理OSS-HDFS服务中的数据。登录...

数据上云工具

MaxCompute平台支持丰富的数据...MMA迁移工具 MMA利用Meta Carrier连接用户的Hive Metastore服务，抓取用户的Hive Metadata，并利用这些数据生成用于创建MaxCompute表和分区的DDL语句以及用于迁移数据的Hive UDTF SQL。详情请参见 MMA概述。

搭建与管理（基于Hadoop）

HMS服务地址目标Hadoop集群的Active和Standby NameNode的Hive元数据服务地址和端口号（端口号通常是9083）。具体详情，请您联系Hadoop集群管理员获取。集群名称在Hadoop集群高可用环境下用于指代NameNode的名称。自构建Hadoop集群场景下...

数据源常见问题

是否支持连接采用kerberos认证的Hive自建数据源？是否支持连接Hologres数据源？支持哪些数据源？请参见概述。是否支持连接自建数据库？可以。请参见创建数据库数据源概述。是否支持清除MaxCompute查询缓存？不支持。如何配置关联模型？...

SQL与Catalog报错问题

解决方案找到hive-conf-dir目录下的hive-site.xml文件，删除如下property信息。name>dlf.catalog.akMode</name><value>EMR_AUTO</value></property>配置AccessKeyId和AccessKeySecret。name>dlf.catalog....

创建TDH Inceptor数据源

通过创建TDH Inceptor数据源能够实现Dataphin...hive-site.xml：上传TDH Inceptor数据源集群的hive-site.xml配置文件。单击测试连接，测试数据源是否可以和Dataphin进行正常的连通。测试成功后，单击确定，完成TDH Inceptor数据源的创建。

hive的api

新品推荐