开启native查询加速

JindoTable通过Native Engine,支持对Spark、Hive或Presto上ORC或Parquet格式文件进行加速。本文为您介绍如何开启native查询加速,以提升Spark、Hive和Presto的性能。前提条件 已创建集群,且ORC或Parquet文件已存放至JindoFS或OSS,创建...

开启native查询加速

JindoTable通过Native Engine,支持对Spark、Hive或Presto上ORC或Parquet格式文件进行加速。本文为您介绍如何开启native查询加速,以提升Spark、Hive和Presto的性能。前提条件 已创建集群,且ORC或Parquet文件已存放至JindoFS或OSS,创建...

开启native查询加速

JindoTable通过Native Engine,支持对Spark、Hive或Presto上ORC或Parquet格式文件进行加速。本文为您介绍如何开启native查询加速,以提升Spark、Hive和Presto的性能。前提条件 已创建集群,且ORC或Parquet文件已存放至JindoFS或OSS,创建...

开启native查询加速

提升Hive性能 重要 如果您对作业稳定性要求较高时,建议不要开启native查询加速。因为EMR Hive 2.3.7(EMR-3.35.0)已经内置JindoTable Parquet加速的插件,所以您可以直接设置 hive.jindotable.native.enabled 来启用查询加速,或者可以在...

Spark应用配置参数说明

spark.sql.hive.metastore.version 否 Spark SQL类型作业的默认值:adb。非Spark SQL类型作业的默认值:<hive_version>。指定采用元数据服务版本,支持如下配置:adb:连接 AnalyticDB for MySQL 中的元数据信息。hive_version>:指定Hive...

EMR-4.10.x版本说明

优化Hive默认参数,以提升作业性能。修改了E-MapReduce控制台上,Hive服务配置页面的 hive-env 页签的配置项名称为大写,便于用户使用。优化文件系统与MetaStore不一致时写Hive表的报错信息。Hive on JindoFS(Block)支持批量元数据优化...

EMR-5.2.x版本说明

优化Hive默认参数,以提升作业性能。修改E-MapReduce控制台上,Hive服务 配置 页面的 hive-env 页签的配置项名称为大写,便于用户使用。修复UDF(User Define Function)导致HiveServer2内存泄露的问题。优化文件系统与MetaStore不一致时写...

访问Hive数据源

AnalyticDB MySQL湖仓版(3.0)支持访问Hive数据源。本文以E-MapReduce集群的Hive服务为例,介绍使访问Hive数据的方法。前提条件 已创建AnalyticDB MySQL湖仓版(3.0)集群。具体操作,请参见 创建湖仓版(3.0)集群。已创建数据库账号。...

创建CDH Hive节点

如果您已部署CDH集群并希望借助DataWorks执行Hive任务(例如,数据查询作业或处理批量数据),可以使用CDH Hive节点。本文为您介绍如何创建CDH Hive节点。前提条件 数据开发(DataStudio)中已创建业务流程。数据开发(DataStudio)基于...

使用SQL管理外部项目

执行作业需要在普通项目下,不能是外部项目。use;访问阿里云E-MapReduce表必须设置,访问MaxCompute内部表不需要。set odps.sql.hive.compatible=true;指定写出到HDFS的用户名(非必须)。set odps.external.hadoop.user=;读取Hive表数据。...

访问Hive数据

云原生多模数据库 Lindorm 计算引擎提供完善的Hive数仓能力,支持用户通过Hive或Spark SQL定义数仓生产处理逻辑并开发相关作业。本文介绍如何使用SQL访问Hive数据。前提条件 已开通Lindorm实例的计算引擎服务,具体操作请参见 开通与变配。...

使用Hive查询JindoFS上的数据

Hive scratch目录 Hive会把一些临时输出文件和作业计划存储在scratch目录,可以通过设置hive-site的hive.exec.scratchdir把地址指向到JindoFS,也可以通过命令行传参。bin/hive-hiveconf hive.exec.scratchdir=jfs:/emr-jfs/scratch_dir ...

Helm版本说明

本文主要介绍 可观测监控 Prometheus 版 的监控组件Helm的版本发布说明。2024年 Helm版本号 Agent镜像版本号 变更内容 发布时间 变更影响 v1.1.19 registry-{REGION}.ack.aliyuncs.com/acs/arms-prometheus-agent:v4.1.0 改进大规模集群...

Helm版本说明

本文主要介绍 可观测监控 Prometheus 版 的监控组件Helm的版本发布说明。2024年 Helm版本号 Agent镜像版本号 变更内容 发布时间 变更影响 v1.1.19 registry-{REGION}.ack.aliyuncs.com/acs/arms-prometheus-agent:v4.1.0 改进大规模集群...

Hive概述

Hive Client Hive客户端,直接利用该客户端提交SQL作业,根据其设置运行引擎配置,可以将SQL转换成MR作业、Tez作业和Spark作业,该模块在所有EMR节点上均有安装。Hive语法 EMR产品最大程度的保持了开源社区的语法以及体验,在Hive语法上...

API概览

脚本 API 标题 API概述 ListScripts 查询脚本 监控诊断 API 标题 API概述 ListDoctorHiveDatabases 批量获取 Hive 库信息 批量获取 Hive 库维度分析结果。GetDoctorHiveDatabase 获取Hive库信息 获取 Hive 库维度分析结果。...

配置Hive开启Ranger权限控制

注意事项 Hive开启Ranger权限控制后,HiveServer2服务会加载Ranger Hive plugin,仅在您通过HiveServer2提交SQL作业时需要进行权限校验,其他方式访问Hive将不会触发权限校验。支持权限校验的访问方式 通过Beeline客户端访问HiveServer2。...

流式入库

例如,Hive和Delta Lake。Kudu也支持流式入库,但是Kudu的存储是自己设计的,不属于基于大数据存储系统之上的解决方案。本文以Kafka数据源为例介绍,其余数据源根据控制台提示操作即可。流式入库演变 阶段 详细情况 以前 以前针对流式入库...

Hive服务内存参数调整

调整场景 如果业务量上升,作业在元数据且作业执行相对延迟较大以及HiveMetaStore异常,且相关指标提示内存不足(例如HiveMetaStore内存指标(GC相关)超过阈值),可尝试将HiveMetaStore内存调大,如果HiveServer2也出现上述类似场景,可...

示例项目使用说明

本文介绍的项目都是完整的可编译可运行的项目,包括MapReduce、Pig、Hive和Spark。示例项目 示例名称如下所示,详情代码示例请参见 集群运行。MapReduce WordCount:单词统计 Hive sample.hive:表的简单查询 Pig sample.pig:Pig处理OSS...

Spark Load

hive_table 中抽取待去重字段的去重值,生成一张新的Hive表,记为 distinct_value_table。新建一张全局字典表,记为 dict_table。字典表一列为原始值,另一列为编码后的值。将 distinct_value_table 与 dict_table 做 left join,计算出...

2020-10-27版本

支持Hive Metastore:可读取Hive中维护的元数据信息,便于统一管理元数据。详情请参见 管理Hive Catalog。重要 仅支持Hive Metastore 2.3.6版本。Hive Metastore暂不支持Kerberos方式认证。支持快速配置监控告警:您可以直接在Flink全托管...

Spark Load

hive-table中抽取待去重字段的去重值,生成一张新的Hive表,记为distinct-value-table。新建一张全局字典表,记为dict-table。一列为原始值,一列为编码后的值。将distinct-value-table与dict-table进行LEFT JOIN,计算出新增的去重值...

Hive使用扩展记录数据血缘和访问历史

E-MapReduce集群默认在Hive服务上集成了EMR-HOOK。EMR-HOOK可以收集作业的SQL信息,例如数据血缘、访问频次等。通过EMR-HOOK,您可以利用数据湖构建(DLF)的数据概况,以统计表和分区的访问次数。同时,您也可以使用DataWorks来管理数据...

使用限制

数据湖元数据 限制项 用户配额 单表QPS 500 单表分区数量 100万 数据湖入湖预处理作业 限制项 用户配额 用户入湖作业数量(每个region)1000个 每个入湖作业最大资源量 100CU 兼容与使用限制说明 以下3种Hive特性不支持,建议采用最新Delta...

通过JDBC连接Spark Thrift Server提交Spark作业

本文介绍通过JDBC连接Spark Thrift Servert并成功提交Spark作业。前提条件 连接Spark Thrift Server需要校验用户名和密码,请进行用户认证配置,请参见:用户管理 DDI集群Spark Thrift Server默认端口号为10001,请确认成功添加安全组白...

2022-09-19版本

作业状态集管理 SQL作业启动 JAR作业启动 Python作业启动 作业停止 定时调优 定时调优功能针对业务上有明显波峰波谷的Flink作业,对于这类作业我们支持用户在平台设置好自定义的定时策略,在用户需要的时间将作业自动调整到用户预先设定好...

漏洞公告|Apache Log4j2远程代码执行漏洞

restore.sh 20211213001755 说明 对于已经在运行的YARN作业(Application,例如,Spark Streaming或Flink作业),需要停止作业后,批量滚动重启YARN NodeManager。重启服务。Hive、HDFS、Presto、Impala、Druid、Flink、Solr、Ranger、...

EMR Spark功能增强

修复统计聚合函数行为和Hive不一致的问题。修复读取Hive ORC表char类型数据正确性的问题。EMR-4.8.0 Spark 2.4.7 优化了部分默认配置。性能优化:支持Window TopK下推。增强Hive读写CSV或JSON表的兼容性。ANALYZE语句支持省略全表列名。...

数据目录

Presto配置修改参考上述Hive配置修改并重启服务,需注意修改文件为hive.properties(Presto仅限于EMR 5.8.0/3.42.0及以上版本支持该功能)Impala配置不需要单独对Impala做此修改,它使用Hive的配置,仅修改Hive配置即可。

在EMR集群运行TPC-DS Benchmark

部分参数在Hive 2和Hive 3等开源版本中不支持,继续使用TPC-DS会导致作业报错,所以需要参考以下命令替换参数。sed-i 's/hive.optimize.sort.dynamic.partition.threshold=0/hive.optimize.sort.dynamic.partition=true/' settings/*.sql ...

通过EMR运行基于OSS-HDFS服务的TPC-DS Benchmark

部分参数在Hive 2和Hive 3等开源版本中不支持,继续使用TPC-DS会导致作业报错,所以需要参考以下命令替换参数。sed-i 's/hive.optimize.sort.dynamic.partition.threshold=0/hive.optimize.sort.dynamic.partition=true/' settings/*.sql ...

Spark SQL

{"name":"DLA SQL Test","file":"oss:/path/to/example.py","conf":{"spark.driver.resourceSpec":"small","spark.sql.hive.metastore.version":"dla","spark.sql.catalogImplementation":"hive","spark.dla.connectors":"oss","spark....

Kyuubi计算引擎管理

例如用户user1在两个不同的终端同时提交作业,两个作业会使用同一个Spark引擎进行运算,多个作业会根据Spark内部的默认调度机制完成Executor资源分配。Console 1 kyuubi-beeline-n user1 \-u"jdbc:hive2:/master-1-1:10009/biz1"\-f query1...

通过Spark SQL读Lindorm数据

在 SQLConsole 窗口中输入以下作业内容:SET spark.adb.connectors=oss,external_hive;SET spark.adb.eni.enabled=true;SET spark.adb.eni.vswitchId=vsw-bp14pj8h0k5p0kwu3*;SET spark.adb.eni.securityGroupId=sg-bp11m93k021tp4ca*;SET ...

JDBC开发实践

} } } 可选:如果您需要配置更多的作业参数可以在JDBC连接地址中指定,示例如下:String endpoint="jdbc:hive2:/123.234.XX.XX:10009/;token=bisdfjis-f7dc-fdsa-9qwe-dasdfhhv8*;spark.dynamicAllocation.minExecutors=3;spark.sql....

创建EMR Hive节点

您可以创建EMR(E-MapReduce)HIVE节点,通过类SQL语句协助读写、管理存储在分布式存储系统上的大数据集的数据仓库,完成海量日志数据的分析和开发工作。前提条件 数据开发(DataStudio)中已创建业务流程。数据开发(DataStudio)基于业务...

DataWorks on EMR数据安全方案

在大数据领域,阿里云为企业用户提供了一整套数据安全方案,包含用户认证、数据权限、大数据作业管理体系等。本文以联合使用DataWorks与EMR为例,为您介绍DataWorks on EMR场景下的数据安全方案。背景信息 DataWorks on EMR目前支持LDAP...

访问JDBC外表

JDBC开发实践 JAR作业开发实践 Python作业开发实践 访问示例一:读取外部JDBC数据表(db0.mysql_tbl0)并关联Hive表(hive_tbl0),将结果写入Hive表(hive_tbl1)。INSERT INTO spark_catalog.default.hive_tbl1 SELECT A.col0,A.col1,A....

UDF(地理空间)

cp hive/target/spatial-sdk-hive-2.1.1-SNAPSHOT.jar./spatial-sdk-hive.jar 下载项目所依赖的JAR包。命令示例如下。wget '...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云监控 应用实时监控服务 检索分析服务 Elasticsearch版 轻量应用服务器 视图计算 弹性公网IP
新人特惠 爆款特惠 最新活动 免费试用