HDFS数据源

如果是Parquet文件格式,后面的parquetSchema则必填,此属性用来说明要读取的Parquet格式文件的格式。对于您指定的 column 信息,type 必须填写,index 和 value 必须选择其一。是 无 column 读取字段列表,type指定源数据的类型,index...

CDH6与文件引擎集成

三、安装HIVE服务 安装MySQL数据库,并创建用来存储hive元数据信息的数据库。登入CDH6任意的一台机器,执行如下指令,进行安装。切换到 root sudo su-#下载 MySQL的rpm 源 root@cdhlindorm001~/tool$wget ...

Dataphin集成任务报错:“Error while processing ...

问题描述 Dataphin集成任务报错:“Error while processing ...问题原因 用户的集成任务输入源是Hive,报错是配置的数据表分区无效,配置的分区在数据读取过程中找不到分区,因此报错。解决方案 配置正确的表分区信息即可。适用于 Dataphin

Dataphin计算源为CDH,代码任务运行报错“java.lang....

完整的异常信息如下:2022-03-24 16:05:08.652 Task failed:java.sql.SQLException:Error while compiling statement:FAILED:Execution Error,return code 2 from org.apache.hadoop.hive.ql.exec.tez.TezTask.Vertex failed,vertexName=...

Hudi

hive_sync.enable 是否开启同步元数据到Hive功能。boolean 否 false 参数取值如下:true:开启同步元数据到Hive功能。false:关闭同步元数据到Hive功能。hive_sync.mode Hive数据同步模式。String 否 hms 参数取值如下:hms:元数据同步到...

HDFS

参数说明如下:CATALOG:取值为hive,表示创建的是hive Schema。LOCATION:库所在的目录。创建表。CREATE EXTERNAL TABLE p(`a` int,`b` int,`c` int)partitioned by(d int)ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS `...

使用DLA访问

创建库语句的参数说明如下:CATALOG:取值为hive,表示创建的是hive Schema。LOCATION:库所在的目录。执行以下创建表的命令。USE `my_lindorm_store_db`;CREATE EXTERNAL TABLE p(`a` int,`b` int,`c` int)partitioned by(d int)ROW ...

两表差集

适用场景 计算链路 计算引擎 是否支持 离线 MaxCompute 是 Hive 否 HiveStorage 否 RDS/MySQL 否 Spark 否 使用说明 来源节点 两表差集算子必须指定两个 来源节点(又称为输入节点,每个来源节点可视为一张表),以求取这两个 来源节点 的...

通过命令行方式连接Trino

例如,如果要查看Hive数据源中默认数据库中的 test 表的数据,您可以使用 select*from hive.default.test;命令。可选:执行 quit;可以退出Trino命令行。高安全集群 通过SSH方式登录集群,详情请参见 登录集群。执行如下命令,连接Trino命令...

Dataphin是CDH计算引擎,即席查询插入数据出现串行

问题描述 Dataphin是CDH计算引擎,即席查询插入数据出现串行。使用select语句进行数据查询,结果是3条,使用insert overwrite 往表中插入查询...解决方案 这是Hive本身的一个问题,只能提前通过SQL预处理一下,把换行符去掉。适用于 Dataphin

ListDoctorApplications-批量获取任务分析结果

当前节点:container#存在问题:最大内存利用率为7.75%,利用率较低 尝试减小Tez Container内存,可通过hive.tez.container.size进行设置 RequestId string 请求 ID。DD6B1B2A-5837-5237-ABE4-FF0C8944*NextToken string 返回读取到的数据...

Presto FAQ

Schema的Catalog类型必须是Hive,否则会出现如下报错:big_query only support hive catalog.如何调整查询RDS类数据源的并发度?以RDS为例,使用DLA扫描线上数据时,如果RDS实例规格比较小,可能无法支撑默认的JDBC Connector并发度。您...

导入概述

您可以根据不同的数据来源选择不同的导入方式:离线数据导入:如果数据源是Hive或HDFS,推荐使用 Broker Load。如果数据表很多导入比较麻烦可以使用Hive外表,性能会比Broker load导入效果差,但是可以避免数据搬迁。实时数据导入:日志...

E-MapReduce数据迁移方案

Presto集群迁移 如果有单独的Presto集群仅仅用来做数据查询,需要修改 Hive 中配置文件,请参见 Presto文档。需要修改hive.properties:connector.name=hive-hadoop2 hive.metastore.uri=thrift:/E-MapReduce-header-1.cluster-500148414:...

SELECT TRANSFORM

数据的传输通过更底层的系统调用来读写,效率比Java高。无管道缓存限制。常量参数传输 常量参数需要传输。常量参数可以不用传输。线程 子进程和父进程是两个进程,如果计算占比较高,数据吞吐量较小,select transform 可以利用服务器的多...

SELECT TRANSFORM

数据的传输通过更底层的系统调用来读写,效率比Java高。无管道缓存限制。常量参数传输 常量参数需要传输。常量参数可以不用传输。线程 子进程和父进程是两个进程,如果计算占比较高,数据吞吐量较小,select transform 可以利用服务器的多...

文档修订记录

使用MaxCompute独享Tunnel进行数据同步 2023.4.19 新增功能 数据集成 以阿里云EMR Hive离线同步写入MaxCompute场景为例,为您介绍如何一次性把EMR Hive整个数据库的数据离线同步至MaxCompute。EMR Hive数据整库离线同步至MaxCompute 2023.4...

dsdemo代码介绍

model_dssm/DATE%EXP%_tmp_%WHEN%-user_model_dir/train/tf_model_dssm_user/DATE%EXP%_tmp_%WHEN%-item_model_dir/train/tf_model_dssm_item/DATE%EXP%_tmp_%WHEN%"#hivecli HIVE_REPOSITORY=ds_hivecli HIVE_VERSION=latest#HIVE_PUBLIC_...

Hive SQL作业配置

本文介绍如何配置Hive SQL类型的作业。前提条件 已创建好项目,详情请参见 项目管理。操作步骤 进入数据开发的项目列表页面。通过阿里云账号登录 阿里云E-MapReduce控制台。在顶部菜单栏处,根据实际情况选择地域 和资源组。单击上方的 ...

Hive连接器

使用Hive连接器可以查询和分析存储在Hive数据仓库中的数据。背景信息 Hive数仓系统由以下三部分内容组成:不同格式的数据文件,通常存储在Hadoop分布式文件系统(HDFS)或对象存储系统(例如,阿里云OSS)中。存储着数据文件到Schema和...

Quick BI连接hive数据源报错:"Required field&39;...

问题描述 Quick BI连接hive数据源报错:"Required field&39;client_protocol&39;is unset!Struct:TOpenSessionReq(client_protocol:null,configuration:{use:database=group3_dm}。问题原因 hive版本属于cdh hive,quick bi支持的是apache ...

Hive作业配置

E-MapReduce默认提供了Hive环境,您可以直接使用Hive来创建和操作创建的表和数据。前提条件 已创建好项目,详情请参见 项目管理。已准备好Hive SQL的脚本,并上传到OSS的某个目录中(例如 oss:/path/to/uservisits_aggre_hdfs.hive)。...

Hive访问EMR HBase数据

在阿里云E-MapReduce(EMR)中,Hive支持通过内部表和外部表两种方式来访问和处理存储在HBase中的数据。本文通过示例为您介绍,如何使用EMR上的Hive处理EMR HBase数据。前提条件 已创建选择了Hive、HBase和Zookeeper服务的自定义集群...

Hive访问EMR HBase数据

在阿里云E-MapReduce(EMR)中,Hive支持通过内部表和外部表两种方式来访问和处理存储在HBase中的数据。本文通过示例为您介绍,如何使用EMR上的Hive处理EMR HBase数据。前提条件 已创建选择了Hive、HBase和Zookeeper服务的自定义集群...

在EMR集群运行TPC-DS Benchmark

hive-f./hive-testbench-hdp3/ddl-tpcds/bin_partitioned/analyze.sql \-hiveconf hive.execution.engine=tez \-database tpcds_bin_partitioned_orc_$SF 说明 因为同时使用了数据湖构建(DLF)来保存Hive表的元数据,所以数据生成后,您...

Dataphin提交至hive中的任务执行时间过长

问题描述 Dataphin提交至hive中的任务执行时间过长。具体情况如下:Dataphin日志显示2023-04-23 13:47:02.509 至 2023-04-23 13:51:34.297这4分32秒任务是在hive中执行;查看yarn日志,hive执行的时间只有28秒;还有4分4秒耗费在哪里呢?...

Hive作业调优

您可以通过调整内存、CPU和Task个数等,实现对Hive作业的调优。本文为您介绍如何调优Hive作业。作业调优方案 作业调优方向 调优方案 参数调优 内存参数 CPU参数 Task数量优化 并行运行 Fetch task 开启向量化 合并小文件 代码优化 代码优化...

通过EMR运行基于OSS-HDFS服务的TPC-DS Benchmark

hive-f./hive-testbench-hdp3/ddl-tpcds/bin_partitioned/analyze.sql \-hiveconf hive.execution.engine=tez \-database tpcds_bin_partitioned_orc_$SF 步骤4:运行TPC-DS SQL 本步骤分别介绍如何使用Hive和Spark运行TPC-DS SQL。...

安全白皮书

Hive Kerberos集群访问 Kerberos是一种计算机网络授权协议,用来进行身份认证,以保证通信的安全性。如果您的Flink作业要访问的Hive支持了Kerberos,则需要您先在实时计算控制台注册Hive Kerberos集群,然后在Flink作业中配置Kerberos集群...

UDF开发(Java)

当MaxCompute提供的内建函数无法支撑您的业务实现时,您可以根据...如果UDF是在其他版本的Hive或Hadoop上开发的,您需要使用兼容的Hive或Hadoop版本重新编译UDF JAR包。在MaxCompute上使用Hive UDF的具体案例,请参见 兼容Hive Java UDF示例。

注册Hive Kerberos集群

背景信息 Kerberos是一种计算机网络授权协议,用来进行身份认证,以保证通信的安全性。如果您的Flink作业要访问的Hive支持了Kerberos,则需要您先在Flink全托管控制台上注册Hive Kerberos集群,然后在Flink作业中配置Kerberos集群信息,...

Dataphin脚本任务运行报错“Error while processing ...

问题描述 Dataphin脚本任务运行报错“Error while processing statement:FAILED:Execution Error,return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask。解决方案 上述报错信息是底层计算源抛的错,需要查看底层hadoop引擎上...

Hive统一元数据

EMR-2.4.0之前版本,所有集群采用的是集群本地的MySQL数据库作为Hive元数据库;EMR-2.4.0及后续版本,E-MapReduce(简称EMR)支持统一的高可靠的Hive元数据库。背景信息 因为元数据库需要使用公网IP来连接,所以集群必须要有公网IP,同时请...

常用SQL

DLA Presto基于开源Presto构建,DDL是兼容Hive的DDL语法标准,DML是支持ANSI SQL语法标准。DDL 常见DDL CREATE SCHEMA:创建SCHEMA/DATABASE。CREATE TABLE:创建表。DROP SCHEMA语法:删除SCHEMA/DATABASE。DROP TABLE:删除表。ALTER ...

MaxCompute TIMESTAMP_NTZ数据类型

创建一张表用来测试TIMESTAMP的行为 CREATE TABLE ts_test(ts timestamp)lifecycle 1;向表中插入一条记录 INSERT INTO TABLE ts_test VALUES(timestamp '1970-01-01 00:00:00');查询表中数据 SELECT*FROM ts_test;返回结果如下。输出如下...

自定义函数(UDF)

Hive提供了很多内建函数来满足您的计算需求,您也可以通过创建自定义函数(UDF)来满足不同的计算需求。UDF在使用上与普通的内建函数类似。本文为您介绍自定义函数的开发和使用流程。背景信息 UDF分类如下表。UDF分类 描述 UDF(User ...

Hive

Zeppelin的Hive解释器是使用JDBC连接HiveServer2。本文为您介绍如何在Zeppelin中使用Hive。背景信息 EMR数据开发的Zeppelin在以下两方面做了增强:在多个EMR集群中动态切换。您无需配置,所有配置都是自动完成。Zeppelin的Hive解释器提供...

普通模式和Hive兼容模式下SQL的差异

本文为您介绍MaxCompute中运算符、类型转换和内建函数分别在普通模式和Hive兼容模式下使用的区别。运算符 BITAND(&)当输入参数是BIGINT类型的时候,如果BITAND的计算结果是LONG_MIN(-2 63),在普通模式下会返回NULL,而Hive模式仍然是...

使用E-Mapreduce访问

[hadoop@emr-worker-2~]$hive Logging initialized using configuration in file:/etc/ecm/hive-conf-2.3.5-1.2.0/hive-log4j2.properties Async:true Hive-on-MR is deprecated in Hive 2 and may not be available in the future ...

开启native查询加速

JindoTable通过Native Engine,支持对Spark、Hive或Presto上ORC或Parquet格式文件进行加速。本文为您介绍如何开启native查询加速,以提升Spark、Hive和Presto的性能。前提条件 已创建集群,且ORC或Parquet文件已存放至JindoFS或OSS,创建...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云服务器 ECS 云数据库 RDS 数据库备份 DBS 轻量应用服务器 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用