环境准备

使用Hive/HadoopMR来访问表格存储中的表前,您需要完成JDK、Hadoop环境、Hive环境、表格存储Java SDK和阿里云EMR SDK的安装。使用Hive/HadoopMR来访问表格存储中的表 通过 表格存储 及 E-MapReduce 官方团队发布的依赖包,可以直接使用Hive...

使用Hive查询JindoFS上的数据

Hive scratch目录 Hive会把一些临时输出文件和作业计划存储在scratch目录,可以通过设置hive-site的hive.exec.scratchdir把地址指向到JindoFS,也可以通过命令行传参。bin/hive-hiveconf hive.exec.scratchdir=jfs:/emr-jfs/scratch_dir ...

数据湖生态接入

HDFS服务 HBase 将HBase快照保存在OSS HBase使用OSS-HDFS服务作为底层存储 Hive Hive使用JindoSDK处理OSS-HDFS服务中的数据 HDP 通过HDP 2.6 Hadoop读取和写入OSS数据 Kafka 将Kafka数据导入OSS Logstash 使用Logstash将日志导入OSS Impala...

Hive数据源

Hive数据源为您提供读取和写入Hive双向通道的功能,本文为您介绍DataWorks的Hive数据同步的能力支持情况。背景信息 Hive是基于Hadoop的数据仓库工具,用于解决海量结构化日志的数据统计。Hive可以将结构化的数据文件映射为一张表,并提供...

转换存储类型

OSS支持标准、低频访问、归档、冷归档、深度冷归档多种存储类型,您可以通过生命周期规则或者CopyObject的方式随时转换文件(Object)的存储类型。警告 对开通了OSS-HDFS服务的Bucket,建议不要修改OSS-HDFS的数据存储目录.dlsdata/下任意...

通过Hive访问云数据库HBase

操作步骤 进入Hive配置目录,例如:/etc/ecm/hive-conf/。创建 hbase-site.xml 配置文件。在 hbase-site.xml 配置文件下编写以下语句。name>hbase.zookeeper.quorum</name><value>hb-xxx-001.hbase.rds.aliyuncs.com,hb-xxx-002...

管理Hive Catalog

本文将从以下方面为您介绍如何管理Hive Catalog:配置Hive元数据 创建Hive Catalog 使用Hive Catalog 查看Hive Catalog 删除Hive Catalog 前提条件 在使用Hive MetaStore或阿里云DLF作为Hive Catalog元数据中心前,需要完成以下配置:使用...

DLF统一元数据

切换元数据存储类型 您可以通过修改Hive参数的方式,切换Hive MetaStore的存储方式。说明 如果需要迁移数据库的元数据信息,请参见 EMR元数据迁移公告。进入Hive服务页面。登录EMR on ECS控制台。在顶部菜单栏处,根据实际情况选择地域 和...

配置连接器

连接器 功能 对应文档 hive 使用Hive连接器可以查询存储Hive数据仓库中的数据。Hive连接器 kudu 使用Kudu连接器可以查询、插入和删除存储在Kudu里的数据。Kudu连接器 iceberg 使用Iceberg连接器可以查询Iceberg格式的数据文件。Iceberg...

EMR元数据迁移到数据湖构建(DLF)

本文为您介绍如何将Hive MetaStore存储在MySQL、RDS中的元数据迁移到DLF中,并介绍如何在EMR集群中配置使用DLF作为数据湖统一元数据。适用场景 从其他大数据集群迁移到阿里云E-MapReduce产品。从阿里云EMR老集群(MySQL做元数据),整体...

EMR元数据迁移DLF最佳实践

本文主要介绍如何将Hive Metasstore存储在MySQL/RDS中的元数据迁移到DLF中,并介绍如何在EMR集群中配置使用DLF作为数据湖统一元数据。适用场景 从其他大数据集群迁移到阿里云E-MapReduce产品时,元数据迁移可以参考该文档。从阿里云EMR老...

文件存储 HDFS 版和数据库MySQL双向数据迁移

本文介绍如何使用Sqoop工具实现 文件存储 HDFS 版 和关系型数据库MySQL之间的双向数据迁移。前提条件 已开通 文件存储 HDFS 版 服务并创建文件系统实例和挂载点。具体操作,请参见 文件存储HDFS版快速入门。已搭建Hadoop集群。建议您使用的...

常用文件路径

JINDOTABLE_EXTRA_CLASSPATH=opt/apps/METASTORE/metastore-current/hive2 HIVE_HOME=opt/apps/HIVE/hive-current HIVE_LOG_DIR=var/log/taihao-apps/hive HIVE_CONF_DIR=etc/taihao-apps/hive-conf PATH=opt/apps/JINDOSDK/jindosdk-...

Kubeflow MLPipeline示例

Hive CLI 进入Hive CLI目录并制作镜像。cd hivecli&make Spark CLI 进入Spark CLI目录并制作镜像。cd sparkcli&make dscontroller 进入dscontroller目录并制作镜像。cd dscontroller&make Hue 进入Hue目录并制作镜像。cd hue&make notebook...

自建Hive数据仓库迁移到阿里云E-MapReduce

客户在IDC或者公有云环境自建Hadoop集群,数据集中保存在HDFS文件系统,同时借助Hive进行常见的ETL任务。客户在决策上云之后,会将自建Hadoop集群的数据迁移到阿里云自建Hadoop或者EMR。方案优势 易用性 您可以简单选择所需ECS机型(CPU、...

使用前须知

版本控制概述 在开启版本控制的Bucket中删除Object 版本控制相关操作 删除目录 数据丢失 为避免影响OSS-HDFS服务的正常使用或者引发数据丢失的风险,在开通了OSS-HDFS服务的Bucket中删除某个目录时,禁止删除OSS-HDFS的数据存储目录....

EMR-3.22.x之前版本说明

EMR-3.0.1 支持交互式,支持统一的表管理,使用外部统一数据库保存Hive meta,所有使用外部Hive meta的集群都共享同一份meta信息。升级emr-core到1.2.4版本,优化了OSS读写的性能。Spark升级到2.0.2版本。说明 与EMR-3.0.0版本完全兼容。...

logging(日志转存)

ossutil64 logging-method put oss:/srcbucket oss:/destbucket 将源存储空间srcbucket产生的日志文件保存至目标存储空间destbucket的根目录下的子目录destdir。ossutil64 logging-method put oss:/srcbucket oss:/destbucket/destdir 以下...

日志转存

如果指定此项,则日志文件将保存在目标Bucket的指定目录下。如果不指定此项,则日志文件将保存在目标Bucket的根目录下。例如,日志前缀指定为 log/,则日志文件将被记录在 log/目录下。单击 保存。使用阿里云SDK 仅支持通过Java SDK设置...

开通并授权访问OSS-HDFS服务

禁止以非OSS-HDFS提供的方式对OSS-HDFS的数据存储目录.dlsdata/及目录下的Object执行写入操作,例如重命名目录、删除目录或者删除Object等,否则会影响OSS-HDFS服务的正常使用或者引发数据丢失的风险。在删除已开通OSS-HDFS服务的Bucket...

日志转存

如果不指定此项,则日志文件将保存在目标Bucket的根目录下。例如,日志前缀指定为 log/,则日志文件将被记录在 log/目录下。单击 保存。使用阿里云SDK 以下仅列举常见SDK的设置日志转存的代码示例。关于其他SDK的设置日志转存的代码示例,...

使用NAS动态存储

在NAS文件系统中通过创建子目录并将其映射为一个动态PV提供给应用。本文介绍如何使用NAS动态存储卷。前提条件 已创建Kubernetes集群,并且在该集群中安装Flexvolume插件。具体操作,请参见 创建Kubernetes托管版集群。已部署alicloud-nas-...

在文件存储 HDFS 版上使用Apache HBase

本文主要介绍在 文件存储 HDFS 版 上使用Apache HBase的方法。前提条件 已开通 文件存储 HDFS 版 服务并创建文件系统实例和挂载点。具体操作,请参见 文件存储HDFS版快速入门。已为Hadoop集群所有节点安装JDK,且JDK版本不低于1.8。已部署...

Impala概述

注意事项 如果使用Impala组件,请勿直接通过系统文件删除hive表分区目录,请使用Impala或者Hive命令删除,否则会导致该表不可用。优点 为了避免延迟,Impala没有使用MapReduce,而是使用分布式查询引擎直接访问数据,该引擎与RDBMS中的查询...

Hive访问Iceberg数据

Hive支持通过内表或外表的方式访问Iceberg数据。本文通过示例为您介绍如何使用EMR上的Hive访问EMR Iceberg数据。前提条件 已创建Hadoop集群,详情请参见 创建集群。说明 此文档仅适用于EMR-3.38.0及后续版本与EMR-5.4.0及后续版本的Hadoop...

EMR Hive功能增强

本文为您介绍E-MapReduce(简称EMR)各版本对应的Hive组件版本,以及各版本中Hive相对开源增强的功能。...EMR-3.23.0之前版本 Hive 2.x 外部统一数据库保存Hive Meta,所有使用外部Hive Meta的集群共享同一份Meta信息。

通过整库迁移配置集成任务

离线整库迁移可用于将本地数据中心或在ECS上自建的数据库同步数据至大数据计算服务,包括MaxCompute、Hive、TDH Inceptor等数据源。本文为您介绍如何新建并配置整库迁移任务。前提条件 已完成所需迁移的数据源创建。整库迁移支持MySQL、...

Hive Metastore使用加密文件访问RDS

DataLake或Custom集群类型 sudo mv/tmp/hive.jceks$HIVE_CONF_DIR sudo chown hive$HIVE_CONF_DIR/hive.jceks Hadoop集群类型 sudo mv/tmp/hive.jceks$HIVE_CONF_DIR sudo chown hadoop$HIVE_CONF_DIR/hive.jceks 在EMR控制台目标集群Hive...

冷热分层存储

并不是所有OSS-HDFS中存储的数据都需要频繁访问,但基于数据合规或者存档等原因,部分数据仍然需要继续保存。针对以上问题,OSS-HDFS服务支持数据的冷热分层存储,对于经常需要访问的数据以标准类型进行存储,对于较少访问的数据以低频、...

JindoTable表或分区访问热度收集

您可以通过JindoTable表或分区的访问热度收集功能来区分冷热数据,从而节约整体的存储成本,提高缓存利用效率。前提条件 已创建集群,详情请参见 创建集群。背景信息 JindoTable支持收集访问Hive表的记录,收集的数据保存在SmartData服务的...

JindoTable表或分区访问热度收集

您可以通过JindoTable表或分区的访问热度收集功能来区分冷热数据,从而节约整体的存储成本,提高缓存利用效率。前提条件 已创建集群,详情请参见 创建集群。背景信息 JindoTable支持收集访问Hive表的记录,收集的数据保存在SmartData服务的...

JindoTable表或分区访问热度收集

您可以通过JindoTable表或分区的访问热度收集功能来区分冷热数据,从而节约整体的存储成本,提高缓存利用效率。前提条件 已创建集群,详情请参见 创建集群。背景信息 JindoTable支持收集访问Hive表的记录,收集的数据保存在SmartData服务的...

JindoTable表或分区访问热度收集

您可以通过JindoTable表或分区的访问热度收集功能来区分冷热数据,从而节约整体的存储成本,提高缓存利用效率。前提条件 已创建集群,详情请参见 创建集群。背景信息 JindoTable支持收集访问Hive表的记录,收集的数据保存在SmartData服务的...

JindoTable表或分区访问热度收集

您可以通过JindoTable表或分区的访问热度收集功能来区分冷热数据,从而节约整体的存储成本,提高缓存利用效率。前提条件 已创建集群,详情请参见 创建集群。背景信息 JindoTable支持收集访问Hive表的记录,收集的数据保存在SmartData服务的...

JindoTable表或分区访问热度收集

您可以通过JindoTable表或分区的访问热度收集功能来区分冷热数据,从而节约整体的存储成本,提高缓存利用效率。前提条件 已创建集群,详情请参见 创建集群。背景信息 JindoTable支持收集访问Hive表的记录,收集的数据保存在SmartData服务的...

管理元数据

由于计算引擎类型包括Hive和MaxCompute,因此存储类型包括Hive和MaxCompute。单租户模式下只能选择和计算引擎一致的类型;单实例多租户模式下只能选择和元数据仓库一致的类型。数据对象 元数据表中所要描述的主题对象,包括 物理表、逻辑表...

管理元数据

由于计算引擎类型包括Hive和MaxCompute,因此存储类型包括Hive和MaxCompute。单租户模式下只能选择和计算引擎一致的类型;单实例多租户模式下只能选择和元数据仓库一致的类型。数据对象 元数据表中所要描述的主题对象,包括 物理表、逻辑表...

文件存储

主节点和只读节点的数据和WAL日志保存在共享存储中。配置文件、Log文件和临时文件在每个节点都会单独保存。主节点的CLOG文件存储在共享存储中;只读节点的CLOG文件会在各自节点上进行维护。主节点的pg_control文件存储在共享存储中;只读...

Hive访问TableStore数据

操作步骤 在EMR Master节点上创建一个目录,同时将Hive访问TableStore所需JAR包复制到该目录。mkdir-p/path/to/tablestore/jars cp emr-tablestore-2.2.0.jar tablestore-5.13.11-jar-with-dependencies.jar \/path/to/tablestore/jars 在...

SQL与Catalog报错问题

解决方案 找到hive-conf-dir目录下的hive-site.xml文件,删除如下property信息。name>dlf.catalog.akMode</name><value>EMR_AUTO</value></property>配置AccessKeyId和AccessKeySecret。name>dlf.catalog....
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
文件存储 CPFS 对象存储 云存储网关 混合云存储 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用