查看集群日报与分析

Hive使用量分析 在Hive使用分析中,您可以获取以下图表:Hive库存储量使用量分布图 Hive用户总存储量分布 Hive表文件大小分布比例 Hive表热冷数据分布 Hive表存储格式分布 Hive详细信息 在Hive信息中会展示Hive库和Hive表的详细信息。Hive...

新建Paimon数据源

版本 选择Paimon数据源的来源版本,支持 EMR3.x Hive 2.3.5、EMR5.x Hive 3.1.x、CDH6.x Hive 2.1.1、CDP7.x Hive 3.1.3、亚信DP5.x Hive 3.1.0。数据源描述 对数据源的简单描述。不得超过128个字符。数据源配置 选择需要配置的数据源:...

在EMR集群运行TPC-DS Benchmark

hive-f./hive-testbench-hdp3/ddl-tpcds/bin_partitioned/analyze.sql \-hiveconf hive.execution.engine=tez \-database tpcds_bin_partitioned_orc_$SF 说明 因为同时使用了数据湖构建(DLF)来保存Hive表的元数据,所以数据生成后,您...

新建HIVE_SQL任务

本文为您介绍如何基于Dataphin构建HIVE_SQL类型的离线计算任务。背景信息 HIVE_SQL计算任务适用于对已有数据进行加工处理,生成符合业务场景需求的数据的场景。操作步骤 在Dataphin首页,单击顶部菜单栏中的 研发。默认进入 开发 页面。...

配置Hive开启Ranger权限控制

本文介绍了Hive如何开启Ranger权限控制,以及详细的Ranger Hive权限配置示例进行说明。前提条件 已创建DataLake集群,并选择了Ranger服务,创建集群详情请参见 创建集群。注意事项 Hive开启Ranger权限控制后,HiveServer2服务会加载Ranger ...

从统一元数据库迁出到用户自建的RDS实例

为了保证更稳定的大规模Hive元数据服务,您可以从原有的统一元数据库迁出到您自建的RDS实例。前提条件 已购买RDS,详情请参见 创建RDS MySQL实例。使用限制 建议选择 MySQL 的5.7版本;系列 选择 高可用版。RDS MySQL实例须与E-MapReduce的...

Hive兼容数据类型版本

Hive兼容数据类型版本是MaxCompute三种数据类型版本之一,该数据类型版本下仅支持Hive兼容数据类型。本文为您介绍Hive兼容数据类型版本的定义、支持的数据类型以及与其他数据类型版本的差异。定义 项目空间选择数据类型版本为Hive兼容数据...

开启native查询加速

JindoTable通过Native Engine,支持对Spark、Hive或Presto上ORC或Parquet格式文件进行加速。本文为您介绍如何开启native查询加速,以提升Spark、Hive和Presto的性能。前提条件 已创建集群,且ORC或Parquet文件已存放至JindoFS或OSS,创建...

开启native查询加速

JindoTable通过Native Engine,支持对Spark、Hive或Presto上ORC或Parquet格式文件进行加速。本文为您介绍如何开启native查询加速,以提升Spark、Hive和Presto的性能。前提条件 已创建集群,且ORC或Parquet文件已存放至JindoFS或OSS,创建...

开启native查询加速

JindoTable通过Native Engine,支持对Spark、Hive或Presto上ORC或Parquet格式文件进行加速。本文为您介绍如何开启native查询加速,以提升Spark、Hive和Presto的性能。前提条件 已创建集群,且ORC或Parquet文件已存放至JindoFS或OSS,创建...

HiveServer2负载均衡

ktutil rkt/tmp/slb.keytab wkt/etc/ecm/hive-conf/hive.keytab hive.keytab 中应该有如下内容。修改集群的Hive配置。在EMR控制台的Hive服务的配置页签,搜索参数 hive.server2.authentication.kerberos.principal,修改参数值为 hive/121....

Dataphin提交至hive中的任务执行时间过长

问题描述 Dataphin提交至hive中的任务执行时间过长。具体情况如下:Dataphin日志显示2023-04-23 13:47:02.509 至 2023-04-23 13:51:34.297这4分32秒任务是在hive中执行;查看yarn日志,hive执行的时间只有28秒;还有4分4秒耗费在哪里呢?...

Dataphin中提交...Hive support because Hive classes...

问题描述 Dataphin中提交Spark任务报错“Unable to instantiate SparkSession with Hive support because Hive classes are not found.”是什么原因?问题原因 用户使用的计算引擎是hadoop集群,任务执行机器信息配置错误。解决方案 将...

EMR Hive数据整库离线同步至MaxCompute

本文以阿里云EMR Hive离线同步写入MaxCompute场景为例,为您介绍如何一次性把EMR Hive整个数据库的数据离线同步至MaxCompute。背景信息 Hive是基于Hadoop的一个数据仓库工具,用来进行数据的提取、转化、加载,可以存储、查询和分析存储在...

EMR Hive数据整库离线同步至MaxCompute

本文以阿里云EMR Hive离线同步写入MaxCompute场景为例,为您介绍如何一次性把EMR Hive整个数据库的数据离线同步至MaxCompute。背景信息 Hive是基于Hadoop的一个数据仓库工具,用来进行数据的提取、转化、加载,可以存储、查询和分析存储在...

Dataphin将csv文件同步到hive库,目标hive库字段值为...

产品名称 Dataphin 产品模块 数据集成 概述 通过该问题的分析处理过程,提供以下场景问题处理排查思路和注意点:管道任务数据集成到hive之后,hive库查询集成数据为空 问题描述 将本地csv文件数据集成到hive库中,任务运行成功,但是查询...

Hive访问TableStore数据

本文通过示例为您介绍EMR Hive作业如何处理TableStore中的数据。前提条件 已创建DataLake集群,详情请参见 创建集群。已登录集群,详情请参见 登录集群。已获取下方JAR包并上传到集群。JAR包名称 获取方法 参考下载链接 emr-tablestore-X.X...

新建Hive类型的公共节点

Hive类型的节点是离线节点,运行在Hive云计算资源之上,支持处理Hive、Hbase和Phoenix类型的数据。本文介绍如何新建Hive类型的公共节点。前提条件 已新建Hive类型云计算资源,具体操作,请参见 新建云计算资源。背景信息 Hive节点运行于...

使用Hive连接器读取DLF数据表

修改Hive连接器的配置后,可以正常读取DLF(Data Lake Formation)的数据表。本文为您介绍如何使用Hive连接器读取DLF数据表。前提条件 已在EMR on ACK控制台上创建Presto集群,详情请参见 创建集群。操作步骤 进入catelog-hive.properties...

连接Kyuubi

本文为您介绍如何使用Beeline或JDBC连接Kyuubi。使用Beeline连接Kyuubi时,您可以使用Zookeeper连接,或者直接连接Kyuubi服务。前提条件 已创建DataLake...} } 参考文档 Hive Beeline Getting Started With Hive JDBC Kyuubi Hive JDBC Driver

数据目录

Presto配置修改参考上述Hive配置修改并重启服务,需注意修改文件为hive.properties(Presto仅限于EMR 5.8.0/3.42.0及以上版本支持该功能)Impala配置不需要单独对Impala做此修改,它使用Hive的配置,仅修改Hive配置即可。

新建Hive类型的公共节点

Hive类型的节点是离线节点,运行在Hive云计算资源之上,支持处理Hive、Hbase和Phoenix类型的数据。本文介绍如何新建Hive类型的公共节点。前提条件 已新建Hive类型云计算资源,具体操作,请参见 新建云计算资源。背景信息 Hive节点运行于...

使用DLF元数据

CREATE EXTERNAL CATALOG hive_catalog properties("type"="hive","hive.metastore.type"="DLF");参数 是否必选 说明 type 是 数据源的类型。支持的数据源类型有hive、hudi、iceberg、deltalake。dlf.catalog.id 否 待读取的DLF Catalog ID...

通过EMR运行基于OSS-HDFS服务的TPC-DS Benchmark

hive-f./hive-testbench-hdp3/ddl-tpcds/bin_partitioned/analyze.sql \-hiveconf hive.execution.engine=tez \-database tpcds_bin_partitioned_orc_$SF 步骤4:运行TPC-DS SQL 本步骤分别介绍如何使用Hive和Spark运行TPC-DS SQL。...

Hive支持的DDL语句

RCFILE-(Note:Available in Hive 0.6.0 and later)|ORC-(Note:Available in Hive 0.11.0 and later)|PARQUET-(Note:Available in Hive 0.13.0 and later)|AVRO-(Note:Available in Hive 0.14.0 and later)|JSONFILE-(Note:Available in ...

Hive统一元数据

EMR-2.4.0之前版本,所有集群采用的是集群本地的MySQL数据库作为Hive元数据库;EMR-2.4.0及后续版本,E-MapReduce(简称EMR)支持统一的高可靠的Hive元数据库。背景信息 因为元数据库需要使用公网IP来连接,所以集群必须要有公网IP,同时请...

新建SPARK_JAR_ON_HIVE任务

本文为您介绍如何基于Dataphin新建SPARK_JAR_ON_HIVE类型的任务。背景信息 SPARK_JAR_ON_HIVE任务中引用到的JAR和PYTHON文件需要提前创建,因此您在资源管理中先上传JAR和PYTHON文件,然后在SPARK_JAR_ON_HIVE任务中引用。具体操作,请参见...

HIVECLI

使用资源中心中的Hive SQL文件 该示例演示了如何使用资源中心中的Hive SQL文件来执行任务。在本例中,先在 资源中心 中定义了 sql 类型的文件(例如,hive.sql),然后在 程序类型 下拉列表中选择 选择资源中心文件,在 资源 下拉列表中...

使用Kerberos认证

方式一:直接使用 hive 命令访问Hive Client hive 方式二:使用Beeline访问Hive Client beeline-u"jdbc:hive2:/master-1-1:10000/;principal=hive/_HOST@EMR"相关文档 创建Principal的官方文档,请参见 Database administration。创建TGT的...

开启native查询加速

因为EMR Hive 2.3.7(EMR-3.35.0)已经内置JindoTable Parquet加速的插件,所以您可以直接设置 hive.jindotable.native.enabled 来启用查询加速,或者可以在控制台配置页面的 hive-site.xml 页签,添加自定义参数 hive.jindotable.native....

Dataphin中从SAP HANA向Hive同步数据后数据精度丢失

问题描述 Dataphin中从SAP HANA向Hive同步数据,数据精度丢失。SAP HANA中字段是decimal(11,2)。同步到Hive后,小数丢失,只有整数。问题原因 从Hive中表结构可以看出,字段定义的是decimal(10,0)格式,因此同步到Hive数据只有整数。解决...

E-MapReduce数据迁移方案

需要修改hive.properties:connector.name=hive-hadoop2 hive.metastore.uri=thrift:/E-MapReduce-header-1.cluster-500148414:9083 hive.config.resources=etc/ecm/hadoop-conf/core-site.xml,/etc/ecm/hadoop-conf/hdfs-site.xml hive....

Hadoop生态外表联邦分析

云原生数据仓库AnalyticDB PostgreSQL版 支持通过外表访问Hadoop生态的外部数据源(包括HDFS与Hive)。注意事项 本特性只支持存储弹性模式实例,且需要 AnalyticDB PostgreSQL版 实例和目标访问的外部数据源处于同一个VPC网络。2020年9月6...

CDH Hive数据抽样采集器

您可以通过DataWorks的数据抽样采集器功能,从CDH Hive表中随机抽取表的部分数据用于数据保护伞的敏感数据识别。如果您在数据保护伞中配置了脱敏规则,那么在数据地图表详情页面进行数据预览时,命中的敏感字段将会被脱敏。本文为您介绍...

创建CDH Hive节点

如果您已部署CDH集群并希望借助DataWorks执行Hive任务(例如,数据查询作业或处理批量数据),可以使用CDH Hive节点。本文为您介绍如何创建CDH Hive节点。前提条件 数据开发(DataStudio)中已创建业务流程。数据开发(DataStudio)基于...

异构数据源访问

若您需要通过 AnalyticDB PostgreSQL版 访问外部异构数据源(HDFS、Hive和JDBC)时,可以使用异构数据源访问功能将外部数据转换为 AnalyticDB PostgreSQL版 数据库优化后的格式进行查询和分析。功能说明 外部数据源管理提供高性能的结构化...

DLF-Auth

步骤一:开启Hive权限控制 步骤二:添加RAM用户 步骤三:验证权限(可选)步骤四:开启Hive LDAP认证 如果开启了DLF-Auth权限,建议您开启Hive LDAP认证,以便于连接Hive的用户都可以通过LDAP认证后执行相关脚本。步骤一:开启Hive权限控制...

在EMR Hive或Spark中访问OSS-HDFS

EMR-3.42及后续版本或EMR-5.8.0及后续版本的集群,支持OSS-HDFS(JindoFS服务)作为数据存储,提供缓存加速服务和Ranger鉴权功能,使得在Hive或Spark等大数据ETL场景将获得更好的性能和HDFS平迁能力。本文为您介绍E-MapReduce(简称EMR)...

创建EMR Hive节点

您可以创建EMR(E-MapReduce)HIVE节点,通过类SQL语句协助读写、管理存储在分布式存储系统上的大数据集的数据仓库,完成海量日志数据的分析和开发工作。前提条件 数据开发(DataStudio)中已创建业务流程。数据开发(DataStudio)基于业务...

使用Presto访问

connector.name=hive hive.metastore.uri=thrift:/xxxx:9083#xxxx为启动hive元数据服务的IP地址 hive.config.resources=usr/local/hadoop-2.7.3/etc/hadoop/core-site.xml,/usr/local/hadoop-2.7.3/etc/hadoop/hdfs-site.xml#配置为您的...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
视频点播 视频直播 视图计算 钉钉会议 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用