阿里云搭建hadoop集群-阿里云搭建hadoop集群文档介绍内容-阿里云

基于Hadoop集群支持Delta Lake或Hudi存储机制

基于<em>Hadoop集群</em>支持Delta Lake或Hudi存储机制

涉及模块对应阿里云产品说明开源Hadoop 本地机房搭建Hadoop集群 云上虚拟机搭建Hadoop集群 阿里云E-MapReduce 原始数据存储在Hadoop集群中。基于Hadoop集群支持Delta Lake或Hudi湖仓一体架构前提条件已创建MaxCompute项目（非External...

搭建与管理（基于Hadoop）

说明如果Hadoop集群搭建在Linux操作系统上，krb5.conf文件一般位于Hadoop HDFS namenode master节点的/etc 目录下。hmsPrincipals：HMS服务身份标识。您可以在Hadoop集群Kerberos终端，用 list_principals 命令获取HMS Principals。该选项...

从OSS迁移数据

搭建Hadoop集群。建议您使用的Hadoop版本不低于2.7.3，本文档中使用的Hadoop版本为Apache Hadoop 2.7.3，修改Hadoop 配置信息，详情参见使用开源HDFS客户端访问。在Hadoop集群所有节点上安装JDK，本操作要求JDK版本不低于1.8。在Hadoop...

迁移开源HDFS的数据到文件存储 HDFS 版

基于阿里云ECS搭建Hadoop集群（下称"迁移集群"），用于访问文件存储 HDFS 版实例和迁移数据，并满足以下条件：迁移集群与文件存储 HDFS 版实例在相同区域、相同可用区。迁移集群与文件存储 HDFS 版实例的挂载点使用相同阿里云VPC网络...

文件存储 HDFS 版和对象存储OSS双向数据迁移

已搭建Hadoop集群并且所有集群节点已安装JDK，JDK版本不低于1.8。建议您使用的Hadoop版本不低于2.7.2，本文档中使用的Hadoop版本为Apache Hadoop 2.8.5。已开通对象存储OSS服务并创建存储空间（Bucket）。具体操作，请参见对象存储OSS快速...

在文件存储 HDFS 版上使用Presto

已搭建Hadoop集群并且所有集群节点已安装JDK，JDK版本不低于1.8。建议您使用的Hadoop版本不低于2.7.2，本文档中使用的Hadoop版本为Apache Hadoop 2.8.5。已在集群中安装Hive。本文使用的Hive版本为2.3.7。已下载Presto安装包和presto-cli...

文件存储 HDFS 版和数据库MySQL双向数据迁移

已搭建Hadoop集群。建议您使用的Hadoop版本不低于2.7.2，本文使用的Hadoop版本为Apache Hadoop 2.8.5。已为Hadoop集群所有节点安装JDK，且JDK版本不低于1.8。更多信息，下载JDK。背景信息 Sqoop 是一款开源的工具，主要用于在Hadoop和结构...

从自建HDFS迁移数据

自建Hadoop集群数据迁移阿里云ECS自建Hadoop集群和文件引擎处于相同VPC网络环境时，可以直接通过VPC网络迁移数据到文件引擎。迁移命令如下所示：hadoop distcp-m 1000-bandwidth 30 hdfs:/oldcluster:8020/user/hive/warehouse hdfs:/${...

自建Hadoop数据迁移到阿里云E-MapReduce

客户在IDC或者公有云环境自建Hadoop集群，数据集中保存在HDFS文件系统用于数据分析任务。客户在决定上云之后，会将自建Hadoop集群的数据迁移到阿里云自建Hadoop集群或者EMR集群。本实践方案提供安全和低成本的HDFS数据迁移方案。适用场景 ...

弹性伸缩概述

使用方式集群类型相关文档 DataLake、Dataflow、OLAP和Custom集群添加弹性伸缩规则查看弹性伸缩活动可视化弹性成本分析查看集群资源概览 Hadoop集群 配置弹性伸缩（仅Hadoop集群类型）开启或关闭弹性伸缩（仅Hadoop集群类型）查看...

MaxCompute+Hadoop搭建实践

准备Hadoop数据源创建Hadoop集群，具体操作请参见开通阿里云EMR服务。进入Hive准备数据。使用Workbench方式登录集群主节点后，在终端界面输入如下命令：[has@emr-header-1 root]$hive-创建库 create database if not exists myhive;切换...

Dataphin如何使用一个Hadoop集群为所有项目创建计算源...

概述本文为您介绍Dataphin如何使用一个Hadoop集群为所有项目创建计算源从而提供计算与存储资源。详细信息 1.Dataphin一个计算源只可以被一个项目所绑定。2.通过创建不同的Hive DB从而创建不同的计算源来达到一个Hadoop集群创建多个计算源...

准备工作

环境准备已创建阿里云E-MapReduce的Hadoop集群。具体操作，请参见创建集群。已下载E-MapReduce的最新 SDK，SDK包的名称格式为emr-datasources_shaded_*.jar，emr-datasources_shaded_*.jar中包含Tablestore相关的Spark批流Source和Sink。...

设置Dataphin实例的计算引擎为Hadoop

如下图所示：已创建集群：可以通过E-MapReduce 5.x Hadoop集群的详情页查看所创建的集群存储类型。如下图所示：NameNode Hadoop支持添加同集群多个HDFS地址，只要有一个地址校验成功，即可完成元数据采集。例如 host=192.xxx.xx.xxx,...

Spark对接Kafka

本文介绍如何在E-MapReduce的Hadoop集群运行Spark Streaming作业，处理Kafka集群的数据。背景信息 E-MapReduce上的Hadoop集群和Kafka集群都是基于纯开源软件，相关编程使用方法可参见官方相应文档。Spark官方文档：streaming-kafka-...

使用Druid

对于独立的E-MapReduce Druid集群，如果您需要存放索引数据至一个Hadoop集群的HDFS，请设置两个集群的连通性（详情请参见与Hadoop集群交互）。在E-MapReduce Druid 配置页面的 common.runtime 页签，配置如下参数。参数描述 druid....

数据源

本文将解答与数据源相关的问题。Q：Databricks数据洞察的支持哪些数据源？目前支持读写阿里云对象存储（OSS）的数据。Q：是否支持当前的DDI集群访问其他集群的HDFS数据？支持访问同账号下的EMR Hadoop集群上的HDFS数据。

在文件存储 HDFS 版上使用Apache Tez

本文主要介绍在挂载文件存储 HDFS 版的Hadoop集群上安装及使用Apache Tez。前提条件已开通文件存储 HDFS 版服务并创建文件系统实例和挂载点。具体操作，请参见文件存储HDFS版快速入门。已为Hadoop集群所有节点安装JDK，且JDK版本不...

Gateway节点运行Flume进行数据同步

在Gateway节点运行Flume可以避免对E-MapReduce Hadoop集群产生影响。使用Gateway节点部署Flume Agent的基本数据流如下图所示。环境准备本示例在华北1（杭州）进行测试，版本选择EMR-3.17.0。创建Hadoop集群，在可选服务中选择 Flume。...

测试环境

场景三：1 TB测试数据下DLA Spark+用户自建Hadoop集群与自建Hadoop+Spark性能对比场景说明：使用自建Spark和DLA Spark分别访问自建Hadoop集群，运行Terasort 1 TB基准测试，对它们的耗时进行对比分析。DLA Spark+OSS配置如下：配置名称 ...

快捷模式与安全模式差异比对

说明 Hadoop用户拥有Hadoop集群的所有权限，请谨慎授权。适用于对任务执行者数据权限无强管控要求的工作空间。安全模式用于实现更具安全性的数据权限管理。使用该模式绑定EMR引擎时，阿里云主账号或RAM用户在下发代码的同时，DataWorks会...

自建Hive数据仓库迁移到阿里云E-MapReduce

客户在IDC或者公有云环境自建Hadoop集群，数据集中保存在HDFS文件系统，同时借助Hive进行常见的ETL任务。客户在决策上云之后，会将自建Hadoop集群的数据迁移到阿里云自建Hadoop或者EMR。方案优势易用性您可以简单选择所需ECS机型（CPU、...

扩容磁盘

Hadoop集群类型中通过弹性伸缩模块创建的弹性伸缩组（创建详情请参见配置弹性伸缩（仅Hadoop集群类型）），无法进行该操作。注意事项云盘扩容后无法缩容，建议您合理规划存储空间。操作步骤进入节点管理页面。登录EMR on ECS控制台。在...

缩容集群

Hadoop集群类型中通过弹性伸缩模块创建的弹性伸缩组（创建详情请参见配置弹性伸缩（仅Hadoop集群类型）），无法进行该操作。操作步骤进入节点管理页面。登录 E-MapReduce控制台。在顶部菜单栏处，根据实际情况选择地域和资源组。单击...

创建Hadoop计算源

若您需开启Impala任务进行快速查询和分析数据，请您提前在Hadoop集群上部署Impala（Impala v2.5及以上版本）。在E-MapReduce5.x计算引擎下，若您需要使用基于OSS创建的Hive外部表进行离线集成。您需要进行相关配置后，才可以正常使用。配置...

数据迁移

本文为您介绍如何迁移自建Kudu集群的数据到E-MapReduce上的Hadoop集群。前提条件您已自建Kudu集群。已创建E-MapReduce的Hadoop集群，并选择了Kudu服务，详情请参见创建集群。背景信息 EMR Kudu支持社区1.10以及1.11版本，可以使用社区...

在文件存储 HDFS 版上使用Apache HBase

步骤一：Hadoop集群挂载文件存储 HDFS 版实例在Hadoop集群中配置文件存储 HDFS 版实例。具体操作，请参见挂载文件存储 HDFS 版文件系统。步骤二：配置Apache HBase 将Hadoop中配置的core-site.xml复制到${HBASE_HOME}/conf目录下。cp...

DataLake或Custom集群类型 sudo mv/tmp/hive.jceks$HIVE_CONF_DIR sudo chown hive$HIVE_CONF_DIR/hive.jceks Hadoop集群类型 sudo mv/tmp/hive.jceks$HIVE_CONF_DIR sudo chown hadoop$HIVE_CONF_DIR/hive.jceks 在EMR控制台目标集群Hive...

测试结果

1 TB测试数据下DLA Spark+用户自建Hadoop集群与自建Hadoop+Spark性能对比结果集群类型运行Terasort基准测试集耗时（min）DLA Spark+OSS 43.5 自建Hadoop+Spark 44.8 您可以将自建Hadoop和DLA Spark混合使用，自建Hadoop集群在高峰期需要...

使用Fuse-DFS挂载文件存储 HDFS 版

步骤一：Hadoop集群挂载文件存储 HDFS 版实例在Hadoop集群中配置文件存储 HDFS 版实例。具体操作，请参见挂载文件存储 HDFS 版文件系统。步骤二：配置Fuse-DFS 在Hadoop客户端上安装依赖并载入FUSE模块。执行以下命令，安装依赖。yum...

通过DataWorks将Hadoop数据同步到阿里云ES

说明已存在Hadoop集群，且Hadoop集群中存在数据。Hadoop集群、ES实例和DataWorks工作空间所在地域需保持一致。Hadoop集群、ES实例和DataWorks工作空间需要在同一时区下，否则同步与时间相关的数据时，同步前后的数据可能存在时区差。费用...

创建HBase数据源

背景信息 HBase是用于处理存储在Hadoop集群中大量数据的SQL查询引擎。如果您使用的是HBase，在导出Dataphin数据至HBase，您需要先完成HBase数据源的创建。更多HBase信息，请参见 HBase官网。使用限制 Dataphin仅支持超级管理员、数据源管理...

EMR Doctor常见问题

如果您的Hadoop集群没有此功能，则需要开通EMR Doctor，详情请参见开通EMR Doctor（Hadoop集群类型）。EMR Doctor在安装和升级过程中，是否会对集群组件和集群任务产生影响？EMR Doctor在安装和升级过程中不会重启任何服务，本身过程也...

EMR-5.6.x版本说明

Hadoop集群 服务版本 HDFS 3.2.1 YARN 3.2.1 Hive 3.1.2 Spark 3.2.1 Knox 1.1.0 Tez 0.9.2 Ganglia 3.7.2 Sqoop 1.4.7 JindoData 4.3.0 DLF-Auth 2.0.0 Iceberg 0.13.1 Hudi 0.10.1 DeltaLake 1.1.0 OpenLDAP 2.4.44 Hue 4.9.0 JindoSDK ...

扩容集群

Hadoop集群类型中通过弹性伸缩模块创建的弹性伸缩组（创建详情请参见配置弹性伸缩（仅Hadoop集群类型）），无法进行该操作。操作步骤重要集群扩容操作不会重启存量节点上的应用进程。进入节点管理页面。登录 E-MapReduce控制台。在顶部...

管理LDAP认证

前提条件已创建Hadoop集群，详情请参见创建集群。使用限制 EMR-3.34.0及后续版本或EMR-4.8.0及后续版本的Hadoop集群，支持一键开启LDAP认证。开启LDAP认证进入Hue页面。登录阿里云E-MapReduce控制台。在顶部菜单栏处，根据实际情况选择...

创建Hive数据源

配置文件上传集群的 core-site.xml 和 hivemetastore-site.xml 配置文件，配置文件可在Hadoop集群导出。AccessKey ID、AccessKey Secret 填写访问集群OSS的AccessKey ID和AccessKey Secret。查看AccessKey，请参见查看AccessKey。重要 ...

管理节点组（Hadoop、Data science和EMR Studio集群）

本文为您介绍如何新增、修改和删除节点组。背景信息您可以新增节点组，以满足不同实例节点的需求。例如，内存型实例节点（vCore:vMem=1 vCPU:8 GiB）用于大...如果需要查看弹性伸缩记录，详情请参见查看弹性伸缩记录（仅Hadoop集群类型）。

数据湖集群

与Hadoop集群的主要差异模块功能项数据湖集群 Hadoop集群 集群集群创建时间平均时间小于5分钟。平均时间小于10分钟。集群节点组新增节点平均时间小于3.5分钟。平均时间小于10分钟。开放API 支持。支持。域名支持 Private Zone。hosts...

开启或关闭弹性伸缩（仅Hadoop集群类型）

前提条件已完成弹性伸缩的配置，详情请参见配置弹性伸缩（仅Hadoop集群类型）。注意事项当伸缩组内节点数为0时，您才可以关闭弹性伸缩。当伸缩组内节点不为0时，您需要先为伸缩组设置缩容规则或者修改最大实例数为0，直至伸缩组内节点...

阿里云搭建hadoop集群

新品推荐