Dataphin执行计算任务发现正则表达式不能使用

问题描述 用户执行一段SQL代码,发现在Hive执行结果和Dataphin不一致,用户使用了正则表达式。问题原因 MaxCompute计算引擎,如果没有开启Hive语法兼容,并不能完美适配Hive项目切换到MaxCompute之后的语法。解决方案 需要加上set odps.sql...

Dataphin执行Spark_jar_on_hive任务变量拼接有空格

问题描述 新建Spark_jar_on_hive任务,执行结果中任务变量拼接由空格。问题原因 这个是sparkJarOnHiveOperator,解析逻辑是split后拼接成spark-submit命令,但是这个用户是在写Shell,如果是Shell的话,需要使用ShellOperator。解决方案 ...

Catalog概述

当FE将生成的查询计划分发给各个BE后,各个BE会并行扫描Hive存储系统中的目标数据,并执行计算返回查询结果。查询数据 查询内部数据 如果需要查询存储在StarRocks中的数据,请参见 Default Catalog。查询外部数据 如果需要查询存储在外部...

Catalog概述

当FE将生成的查询计划分发给各个BE后,各个BE会并行扫描Hive存储系统中的目标数据,并执行计算返回查询结果。查询数据 查询内部数据 如果需要查询存储在StarRocks中的数据,请参见 内表数据源。查询外部数据 如果需要查询存储在外部数据源...

Hive作业异常排查及处理

hadoop fs-cp hdfs:/emr-header-1.xxx/old/path oss:/bucket/new/path hive-e"create table new_tbl like old_tbl location 'oss:/bucket/new/path'"Hive UDF和第三方包 Hive lib目录下放置三方包导致冲突 原因分析:在Hive lib目录($HIVE...

Ambari与文件引擎集成

su-hive#登入 hive 客户端 hive@ambaritest2~]$hive Beeline version 3.1.0.3.1.4.0-315 by Apache Hive 0:jdbc:hive2:/ambaritest1:2181,ambaritest2:>create table foo(id int,name string);INFO:Compiling command(queryId=hive_...

使用Prometheus监控E-MapReduce

步骤一:开启Exporter端口 创建EMR集群后,系统会默认在ECS上安装taihao-exporter,但此时的Prometheus端口未打开,需要您手动开启。登录 EMR on ECS控制台,获取EMR集群ID,然后单击目标集群名称。单击 节点管理 页签,找到master和core...

使用Prometheus监控E-MapReduce

步骤一:开启Exporter端口 创建EMR集群后,系统会默认在ECS上安装taihao-exporter,但此时的Prometheus端口未打开,需要您手动开启。登录 EMR on ECS控制台,获取EMR集群ID,然后单击目标集群名称。单击 节点管理 页签,找到master和core...

设置逻辑表质量规则

通过设置逻辑表质量规则并运行质量检测计划后,您可以查看逻辑表质量检查结果,方便用户掌握当前逻辑表的质量状况,您可以通过可视化方式与自定义SQL方式制定表级与字段级质量规则。本文以可视化方式为例介绍如何设置逻辑表表规则和字段...

设置逻辑表质量规则

通过设置逻辑表质量规则并运行质量检测计划后,您可以查看逻辑表质量检查结果,方便用户掌握当前逻辑表的质量状况,您可以通过可视化方式与自定义SQL方式制定表级与字段级质量规则。本文以可视化方式为例介绍如何设置逻辑表表规则和字段...

Paimon与Hive集成

hive 执行以下Hive SQL,查询刚刚写入的数据。select*from test_db.test_tbl;添加并查询外表。Hive也可以将指定路径下的Paimon表添加为外表并查询。CREATE EXTERNAL TABLE test_ext_tbl STORED BY 'org.apache.paimon.hive....

Flink Table Store与Hive集成

hive 执行以下Hive SQL,查询刚刚写入的数据。select*from test_db.test_tbl;添加并查询外表。Hive也可以将指定路径下的Flink Table Store表添加为外表并查询。CREATE EXTERNAL TABLE test_ext_tbl STORED BY 'org.apache.flink.table....

文件存储 HDFS 版和数据库MySQL双向数据迁移

export HADOOP_COMMON_HOME=usr/local/hadoop-2.8.5 export HADOOP_MAPRED_HOME=$HADOOP_COMMON_HOME export HIVE_HOME=usr/local/apache-hive-2.3.9-bin#若没有安装hive可不必添加此配置 执行 cp${HIVE_HOME}/lib/hive-common-2.3.9.jar${...

CDH6与文件引擎集成

三、安装HIVE服务 安装MySQL数据库,并创建用来存储hive元数据信息的数据库。登入CDH6任意的一台机器,执行如下指令,进行安装。切换到 root sudo su-#下载 MySQL的rpm 源 root@cdhlindorm001~/tool$wget ...

自定义函数(UDF)

hive 执行以下命令,应用生成的JAR包创建函数。create function myfunc as"org.example.MyUDF"using jar"hdfs:/user/hive/warehouse/hiveudf-1.0-SNAPSHOT.jar;代码中的 myfunc 是UDF函数的名称,org.example.MyUDF 是 开发UDF 中创建的类...

查看集群日报与分析

Hive使用量分析 在Hive使用分析中,您可以获取以下图表:Hive库存储量使用量分布图 Hive用户总存储量分布 Hive表文件大小分布比例 Hive表热冷数据分布 Hive存储格式分布 Hive详细信息 在Hive信息中会展示Hive库和Hive表的详细信息。...

配置CDH6使用文件存储 HDFS 版

命令,进入存储Hive元数据的MySQL数据库。修改表DBS中的数据。执行 SELECT*FROM DBS LIMIT 5;命令,查询表DBS中的数据。返回结果示例如下:+-+-+-+-+-+-+-+|DB_ID|DESC|DB_LOCATION_URI|NAME|OWNER_NAME|OWNER_TYPE|CREATE_TIME|+-+-+-+-+-...

查询Delta表数据

hive 执行以下命令,在Hive中查看Delta表的数据。select*from delta_table;返回如下信息。2 3 4 0 1 Time taken:2.937 seconds,Fetched:5 row(s)说明 查看数据与在Spark中插入的数据一致,说明Hive已经成功访问了Delta表的数据。通过Presto...

配置E-MapReduce服务使用文件存储 HDFS 版

执行 use hivemeta 命令,进入存储Hive元数据的MySQL数据库hivemeta。修改表CTLGS中的数据。执行 select*from CTLGS 命令,查询表CTLGS中的数据。返回结果示例如下:+-+-+-+-+|CTLG_ID|NAME|DESC|LOCATION_URI|+-+-+-+-+|1|hive|Default ...

通过数据湖元数据DLF读写Hudi

EMR-3.38.3及后续版本的DataFlow集群,可以通过数据湖元数据DLF(Data Lake Formation)作为元数据读取DataLake集群...hive 执行以下命令,验证表信息。查询hudi_tbl1 select*from test.hudi_tbl1;查询hudi_tbl2 select*from test.hudi_tbl2;

使用教程

本文主要为您介绍如何使用Hive或者HadoopMR访问表格存储中的表。数据准备 在表格存储中准备一张数据表pet,name是唯一的一列主键,数据示例请参见下表。说明 表中空白部分无需写入,因为表格存储是schema-free的存储结构,没有值也无需写入...

常见问题排查

如果 hadoop fs 命令可以成功运行,但是无法执行分析任务,请确认YARN等任务执行框架在安装 文件存储 HDFS 版 文件系统SDK后进行了重启。例如:您可以执行以下命令重启YARN:${HADOOP_HOME}/sbin/stop-yarn.sh${HADOOP_HOME}/sbin/start-...

HIVECLI

HIVECLI任务类型用于执行SQL脚本语句或者SQL任务文件。本文为您介绍创建HIVECLI类型任务时涉及的参数,并提供了HIVECLI任务的示例。参数说明 参数 说明 节点名称 任务的名称。一个工作流定义中的节点名称是唯一的。运行标志 正常(默认):...

数据湖生态接入

HDFS服务 HBase 将HBase快照保存在OSS HBase使用OSS-HDFS服务作为底层存储 Hive Hive使用JindoSDK处理OSS-HDFS服务中的数据 HDP 通过HDP 2.6 Hadoop读取和写入OSS数据 Kafka 将Kafka数据导入OSS Logstash 使用Logstash将日志导入OSS Impala...

开通并配置OSS存储分析

EMR Doctor支持分析OSS上的数据,开通OSS存储分析功能可以帮助您进一步了解OSS存储资源的使用情况和健康状态,让您更好地治理存储在OSS上的数据。背景信息 OSS提供了存储清单功能,配置该功能后会定期为Bucket生成清单文件,清单文件中保存...

Hive数据源

The directory for caching permission data,needs to be writable<property><name>ranger.plugin.hive.policy.cache.dir</name><value>/mnt/datadisk0/zhangdong/rangerdata</value></property>#The time interval for ...

通过EMR运行基于OSS-HDFS服务的TPC-DS Benchmark

具体命令如下:cd~/hive-testbench-hdp3#生成一个Hive配置文件,并指定Hive执行引擎为Tez。echo 'set hive.execution.engine=tez;'>sample-queries-tpcds/testbench.settings./runSuite.pl tpcds$SF 使用Spark运行TPC-DS SQL TPC-DS工具...

创建CDH Hive节点

如果您已部署CDH集群并希望借助DataWorks执行Hive任务(例如,数据查询作业或处理批量数据),可以使用CDH Hive节点。本文为您介绍如何创建CDH Hive节点。前提条件 数据开发(DataStudio)中已创建业务流程。数据开发(DataStudio)基于...

Spark UDF

初始化一个Maven管理工程,并在依赖中加入如下代码:<dependency><groupId>org.apache.hive</groupId><artifactId>hive-exec</artifactId><version>1.2.1</version></dependency>在Package的 org.test.udf 中实现一个 Ten.java,它会为数据...

在EMR集群运行TPC-DS Benchmark

具体命令如下:cd~/hive-testbench-hdp3#生成一个Hive配置文件,并指定Hive执行引擎为Tez。echo 'set hive.execution.engine=tez;'>sample-queries-tpcds/testbench.settings./runSuite.pl tpcds$SF 使用Spark运行TPC-DS SQL TPC-DS工具...

Hive作业调优

您可以通过调整内存、CPU和Task个数等,实现对Hive作业的调优。本文为您介绍如何调优Hive作业。作业调优方案 作业调优方向 调优方案 参数调优 内存参数 CPU参数 Task数量优化 并行运行 Fetch task 开启向量化 合并小文件 代码优化 代码优化...

E-MapReduce数据迁移方案

需要修改hive.properties:connector.name=hive-hadoop2 hive.metastore.uri=thrift:/E-MapReduce-header-1.cluster-500148414:9083 hive.config.resources=etc/ecm/hadoop-conf/core-site.xml,/etc/ecm/hadoop-conf/hdfs-site.xml hive....

Superset(仅对存量用户开放)

您可以执行Hive命令查看数据库信息。如下图所示。常见问题 问题现象:EMR-4.6和EMR-3.33之前版本的集群,使用admin用户第一次登录Superset的Web UI时,报错invalid login。解决方法:使用SSH方式登录到集群主节点,详情请参见 登录集群。...

Hive连接器

使用Hive连接器可以查询和分析存储Hive数据仓库中的数据。背景信息 Hive数仓系统由以下三部分内容组成:不同格式的数据文件,通常存储在Hadoop分布式文件系统(HDFS)或对象存储系统(例如,阿里云OSS)中。存储着数据文件到Schema和...

HDFS数据源

支持的版本 目前不支持阿里云文件存储HDFS版。使用限制 离线读 使用HDFS Reader时,请注意以下事项:由于连通默认资源组到HDFS的网络链路比较复杂,建议您使用 独享数据集成资源组 完成数据同步任务。您需要确保您的独享数据集成资源组具备...

应用场景

表格存储 有互联网应用架构(包括数据库分层架构和分布式结构化数据存储架构)、数据湖架构和物联网架构三种典型应用架构。本文结合 表格存储 的典型应用架构介绍了不同应用架构下的应用场景。互联网应用 目前互联网已在日常生活中广泛应用...

数据开发常见问题

hivevar rating=${rating}-f ossref:/bucket_name/path/to/hivesql.hive 执行作业。本示例执行结果如下。如何使用阿里云E-MapReduce HDFS的Balancer功能以及参数调优?登录待配置集群任意节点。执行以下命令,切换到hdfs用户并执行Balancer...

使用E-Mapreduce访问

Hive的元数据存储在MySQL中,进入存储Hive元数据的MySQL数据库hivemeta中,修改DBS表和SDS表,如下所示。MariaDB[(none)]>use hivemeta;修改表“DBS”MariaDB[hivemeta]>select*from DBS;DB_ID|DESC|DB_LOCATION_URI|NAME|OWNER_NAME|OWNER...

通过控制台使用SQL查询

表格存储支持使用SQL查询功能快速查询数据。使用控制台创建映射关系后,您可以执行SELECT语句快速查询所需数据。前提条件 如果要使用RAM用户进行操作,请确保已创建RAM用户,并为RAM用户授予所有SQL操作权限,即在自定义权限策略中配置...

冷热分层存储

场景 执行命令 执行结果 为写入OSS-HDFS服务的数据设置存储策略为 低频访问存储./jindo fs-setStoragePolicy-path oss:/examplebucket/dir1-policy CLOUD_IA dir1/目录下的文件对应的数据块会携带Key为 transition-storage-class、Value为 ...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
文件存储 CPFS 对象存储 混合云存储 云存储网关 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用