MaxCompute+Hadoop搭建实践

本文以E-MapReduce的Hive为例,为您介绍在MaxCompute中如何创建外部项目,并查询Hadoop中的表数据。使用限制 仅华东1(杭州)、华东2(上海)、华北2(北京)、华北3(张家口)、华南1(深圳)、中国香港、新加坡和德国(法兰克福)地域...

Spark Load

从 hive_table 中抽取待去重字段的去重值,生成一张新的Hive表,记为 distinct_value_table。新建一张全局字典表,记为 dict_table。字典表一列为原始值,另一列为编码后的值。将 distinct_value_table 与 dict_table 做 left join,计算出...

在EMR Hive或Spark中访问OSS-HDFS

背景信息 OSS-HDFS服务是一款云原生数据湖存储产品,基于统一的元数据管理能力,在完全兼容HDFS文件系统接口的同时,提供充分的POSIX能力支持,能更好的满足大数据和AI领域丰富多样的数据湖计算场景,详细信息请参见 OSS-HDFS服务概述。...

常见问题

需要检查Trino的hive.properties中 hive.parquet.use-columns-names 配置项是否已置为true。为什么新增一个配置后,重启Trino失败?如果 Server.log 中包含了 Error:Configuration property 'xxxxx' was not used,则说明您新增配置的...

EMR-3.36.x版本说明

修改E-MapReduce控制台上,Hive服务 配置 页面 hive-env 页签的配置项名称为大写,便于用户使用。优化文件系统与MetaStore不一致时写Hive表的报错信息。HDFS 支持ZSTD(Zstandard)压缩格式。Flink 升级Flink至1.12-vvr-3.0.2版本。说明 ...

Spark应用配置参数说明

使用说明 Spark应用配置参数用于配置和调整Spark应用程序的行为和性能。使用不同的Spark开发工具,应用配置参数的格式不同。开发工具 配置参数格式 配置参数示例 SQL开发编辑器 set key=value;set spark.sql.hive.metastore.version=adb;...

新建ArgoDB计算源

core-site.xml、hdfs-site.xml、hive-site.xml、其他配置文件 上传HDFS配置文件core-site.xml和hdfs-site.xml及hive的hive-site.xml文件。若存在其他配置文件,您可在其他配置文件处进行上传。认证方式 如果ARGODB集群有Kerberos认证,则...

Paimon与Spark集成

参数值为 thrift:/master-1-1:9083,这意味着Spark SQL将连接到这个运行在 master-1-1 主机上、监听9083端口的Hive Metastore服务以获取元数据信息。spark.sql.catalog.paimon.warehouse:配置数据仓库的实际位置,请根据实际情况修改。...

HDFS数据源

目前插件中的Hive版本为1.1.1,Hadoop版本为2.7.1(Apache为适配JDK1.7)。在Hadoop2.5.0、Hadoop2.6.0和Hive1.2.0测试环境中写入正常。HDFS Writer仅支持使用 独享数据集成资源组。实现过程 HDFS Writer的实现过程如下所示:根据您指定的...

EMR-5.2.x版本说明

修改E-MapReduce控制台上,Hive服务 配置 页面 hive-env 页签的配置项名称为大写,便于用户使用。修复UDF(User Define Function)导致HiveServer2内存泄露的问题。优化文件系统与MetaStore不一致时写Hive表的报错信息。HDFS 支持ZSTD...

Quick BI连接Hive数据源,用户名密码没有修改,过一段...

问题原因 经过确认,通过Kerberos认证连接的Hive数据源,但是没有将容器内的kerberos目录挂载到宿主机内,保留配置文件导致。解决方案 需要联系运维同学执行挂载kerberos目录的操作,不然每次容器重启后,hive数据源的账号密码就会需要重新...

2024-04-01版本

管理Hive Catalog 基于DLF的Hive Catalog支持创建非Hive表 您可以统一使用Hive Catalog管理不同的类型的表。Paimon支持能力提升 支持将数据写入OSS-HDFS。CTAS和CDAS语句支持创建动态分桶的Paimon表。完整包含Paimon社区至2024年3月15日的...

Hudi连接器

示例 Hudi表作为Hive的外表存储,可以通过连接Hive连接器来访问Hudi表进行数据查询。Hudi表的生成以及同步到Hive表中的步骤,请参见 Hudi与Spark SQL集成 和 基础使用。生成数据和查询数据示例如下所示:登录集群,详情请参见 登录集群。...

在文件存储 HDFS 版上使用Apache Tez

Tez主要使用在Apache Hive中,作为Hive的一种执行引擎。与Hive on MR(MapReduce)相比,Hive on Tez具有更好的查询性能和稳定性。步骤一:Hadoop集群挂载 文件存储 HDFS 版 实例 在Hadoop集群中配置 文件存储 HDFS 版 实例。具体操作,请...

通过整库迁移配置集成任务

文件编码:Hive的存储格式为ORC,支持配置文件编码。包括 UTF-8 和 GBK。压缩格式:ORC存储格式 支持 zlib、hadoop-snappy、lz4、none;PARQUET存储格式 支持 gzip、hadoop-snappy。性能配置:Hive的存储格式为ORC,支持配置性能配置。输出...

功能特性

Value-Function或TVF),可以将S3、HDFS等常见远端存储中的文件数据,映射成云数据库 SelectDB 版中的表,从而对这些文件数据进行分析 文件分析 数据湖分析 Hive数据源 通过连接Hive Metastore,云数据库 SelectDB 版可以自动获取Hive的库...

配置StarRocks集群以访问高安全数据集群

hive.metastore.kerberos.principal 配置值与DataLake集群 Hive 服务 hive-site.xml 配置文件里 hive.metastore.kerberos.principal 的值保持一致。保存配置。单击下方的 保存。在弹出的对话框中,输入 执行原因,单击 保存。重启...

Spark Load

从hive-table中抽取待去重字段的去重值,生成一张新的Hive表,记为distinct-value-table。新建一张全局字典表,记为dict-table。一列为原始值,一列为编码后的值。将distinct-value-table与dict-table进行LEFT JOIN,计算出新增的去重值...

CDH6与文件引擎集成

1 seconds 170 msec OK Time taken:15.429 seconds 通过Hive的终端,查询写入的数据,如果正确查询出数据,表示Hive安装完成。hive>select*from foo;OK 12 xyz Time taken:0.091 seconds,Fetched:1 row(s)hive>查看文件是否正常生成。通过...

使用基于OSS创建的Hive外部表进行离线集成

在E-MapReduce5.xHadoop计算引擎下,若您需要将基于OSS创建的Hive外部表在Dataphin中进行离线集成操作。您需要先进行相关配置,才可以进行离线集成。本文将指导您如何进行配置。配置说明 使用该功能需要您先在Hive数据源或者Hadoop计算源的...

使用基于OSS创建的Hive外部表进行离线集成

在E-MapReduce5.xHadoop计算引擎下,若您需要将基于OSS创建的Hive外部表在Dataphin中进行离线集成操作。您需要先进行相关配置,才可以进行离线集成。本文将指导您如何进行配置。配置说明 使用该功能需要您先在Hive数据源或者Hadoop计算源的...

数据治理

哪些类型的Hive表支持在数据地图中预览?数据保护伞 数据保护伞为什么有时候查询脱敏有时候查询不脱敏 为什么数据地图数据总览页存储量和存储趋势图相差较大?存储量是实时的数据,存储趋势图(折线图)是某一时刻的快照,如果您现在的计算...

UDF开发(Java)

当MaxCompute提供的内建函数无法支撑您的业务实现时,您可以根据...如果UDF是在其他版本的Hive或Hadoop上开发的,您需要使用兼容的Hive或Hadoop版本重新编译UDF JAR包。在MaxCompute上使用Hive UDF的具体案例,请参见 兼容Hive Java UDF示例。

使用JindoTable将Hive表和分区数据迁移到OSS/OSS-HDFS

否 使用示例 已有一个HDFS上的Hive分区表,示例如下。想要把bbb和ccc分区移动到OSS。先用explain模式查看移动的分区是否符合预期,参数为-e 或-explain。去掉参数-e,正式移动分区。执行完成后,检查数据是否已经在OSS。再移回HDFS,结果...

EMR Serverless Spark与其他VPC间网络互通

(可选)步骤三:连接Hive服务并查询表数据 如果您已有创建并配置好的Hive表,则可以跳过该步骤。使用SSH方式登录集群的Master节点,详情请参见 登录集群。执行以下命令,进入Hive命令行。hive 执行以下命令,创建表。CREATE TABLE my_...

访问Kafka数据

在Lindorm计算引擎中创建Kafka Topic对应的Hive临时表。CREATE TEMPORARY TABLE kafka_tbl USING kafka OPTIONS(table_options);USING kafka 中Kafka为指定数据源。Kafka表无需指定Schema,Lindorm计算引擎提供默认的Kafka Schema,不可...

EMR-3.23.x版本说明

Hive 删除老版本的hive hook。添加支持多个count distinct字段的数据倾斜处理优化。解决join不同bucketversion的表时丢数据的问题。Flink 升级至1.8.2。Bigboot 更新小文件工具。更新OSS JAR,解决非daemon线程问题。Kafka 新增感知...

数据上云场景

MMA利用Meta Carrier连接您的Hive Metastore服务,获取Hive Metadata,并利用这些数据生成用于创建MaxCompute表和分区的DDL语句以及用于迁移数据的Hive UDTF SQL。详细信息请参见 MMA概述。数据库数据同步 数据库的数据同步到MaxCompute...

配置hosts

Presto on ACK提供了自定义hosts功能,当Presto on ACK集群读取EMR on ECS集群的Hive数据时,该功能可以提供正确的域名解析配置。本文为您介绍如何配置hosts。背景信息 如果没有正确配置hosts,则可能遇到以下报错提示。java....

EMR-3.24.x版本说明

重启组件时不同步 hiveserver2-site.xml 中的内容至spark-conf下 hive-site.xml。支持使用MSCK命令添加增量目录。修复Hive复用tez container时出现的bug。支持使用MSCK命令优化列目录。Bigboot 升级至2.2.1,修复Native代码支持在部分...

Superset(仅对存量用户开放)

这里以E-MapReduce Hadoop集群默认安装的Hive引擎为例,更多的数据库类型访问方式请参见 SQLAlchemy。登录Superset。您需要在SSH连接中创建隧道以查看开源组件的Web页面,详情请参见 通过SSH隧道方式访问开源组件Web UI。默认用户名和密码...

注册EMR集群至DataWorks

目前仅EMR Hive、EMR Spark SQL服务支持配置EMR-HOOK,配置详情请参见 配置Hive的EMR-HOOK、配置Spark SQL的EMR-HOOK。前提条件 已开通如下权限。仅拥有以下身份的RAM用户或RAM角色,可注册EMR集群,操作详情请参见 为RAM用户授权。阿里云...

漏洞公告|Apache Log4j2远程代码执行漏洞

以Hive组件为例,在EMR集群的Hive服务页面,选择右上角的 更多操作>重启。Gateway集群 由于该方案依赖于SSH免密登录,对于Gateway集群,您需要手动将patch包上传到Gateway集群的每一个节点,并按EMR集群的修复流程分别执行修复操作。重要 ...

通过Presto查询RDS MySQL数据库

Schema-emruser information_schema performance_schema sys(4 rows)步骤三:查询表数据 说明 本文示例中 hive.default.tbl_department 是您在Hive上创建的表,connector1.emruser.tbl_employee 是您在MySQL上创建的表。查询 emruser.tbl...

Presto以EMR集群的方式查询OSS-HDFS服务中的数据

以下以常用的Hive catalog为例,使用Presto创建一个OSS中的schema,并执行简单的SQL查询示例。由于Presto依赖Hive Metastore,因此Hive服务也需要安装并部署JindoSDK。具体操作,请参见 Hive使用JindoSDK处理OSS-HDFS服务中的数据。登录...

数据上云工具

MaxCompute平台支持丰富的数据...MMA迁移工具 MMA利用Meta Carrier连接用户的Hive Metastore服务,抓取用户的Hive Metadata,并利用这些数据生成用于创建MaxCompute表和分区的DDL语句以及用于迁移数据的Hive UDTF SQL。详情请参见 MMA概述。

搭建与管理(基于Hadoop)

HMS服务地址 目标Hadoop集群的Active和Standby NameNode的Hive元数据服务地址和端口号(端口号通常是9083)。具体详情,请您联系Hadoop集群管理员获取。集群名称 在Hadoop集群高可用环境下用于指代NameNode的名称。自构建Hadoop集群场景下...

数据源常见问题

是否支持连接采用kerberos认证的Hive自建数据源?是否支持连接Hologres数据源?支持哪些数据源?请参见 概述。是否支持连接自建数据库?可以。请参见 创建数据库数据源概述。是否支持清除MaxCompute查询缓存?不支持。如何配置关联模型?...

SQL与Catalog报错问题

解决方案 找到hive-conf-dir目录下的hive-site.xml文件,删除如下property信息。name>dlf.catalog.akMode</name><value>EMR_AUTO</value></property>配置AccessKeyId和AccessKeySecret。name>dlf.catalog....

创建TDH Inceptor数据源

通过创建TDH Inceptor数据源能够实现Dataphin...hive-site.xml:上传TDH Inceptor数据源集群的hive-site.xml配置文件。单击 测试连接,测试数据源是否可以和Dataphin进行正常的连通。测试成功后,单击 确定,完成TDH Inceptor数据源的创建。
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
API 网关 视觉智能开放平台 风险识别 对象存储 短信服务 弹性公网IP
新人特惠 爆款特惠 最新活动 免费试用