涉及模块 对应阿里云产品 说明 开源Hadoop 本地机房搭建Hadoop集群 云上虚拟机搭建Hadoop集群 阿里云E-MapReduce 原始数据存储在Hadoop集群中。基于Hadoop集群支持Delta Lake或Hudi湖仓一体架构 前提条件 已创建MaxCompute项目(非External...
说明 如果Hadoop集群搭建在Linux操作系统上,krb5.conf文件一般位于Hadoop HDFS namenode master节点的/etc 目录下。hmsPrincipals:HMS服务身份标识。您可以在Hadoop集群Kerberos终端,用 list_principals 命令获取HMS Principals。该选项...
搭建Hadoop集群。建议您使用的Hadoop版本不低于2.7.3,本文档中使用的Hadoop版本为Apache Hadoop 2.7.3,修改Hadoop 配置信息,详情参见 使用开源HDFS客户端访问。在Hadoop集群所有节点上安装JDK,本操作要求JDK版本不低于1.8。在Hadoop...
基于阿里云ECS搭建Hadoop集群(下称"迁移集群"),用于访问 文件存储 HDFS 版 实例和迁移数据,并满足以下条件:迁移集群与 文件存储 HDFS 版 实例在相同区域、相同可用区。迁移集群与 文件存储 HDFS 版 实例的挂载点使用相同阿里云VPC网络...
已搭建Hadoop集群并且所有集群节点已安装JDK,JDK版本不低于1.8。建议您使用的Hadoop版本不低于2.7.2,本文档中使用的Hadoop版本为Apache Hadoop 2.8.5。已开通对象存储OSS服务并创建存储空间(Bucket)。具体操作,请参见 对象存储OSS快速...
已搭建Hadoop集群并且所有集群节点已安装JDK,JDK版本不低于1.8。建议您使用的Hadoop版本不低于2.7.2,本文档中使用的Hadoop版本为Apache Hadoop 2.8.5。已在集群中安装Hive。本文使用的Hive版本为2.3.7。已 下载Presto安装包 和presto-cli...
已搭建Hadoop集群。建议您使用的Hadoop版本不低于2.7.2,本文使用的Hadoop版本为Apache Hadoop 2.8.5。已为Hadoop集群所有节点安装JDK,且JDK版本不低于1.8。更多信息,下载JDK。背景信息 Sqoop 是一款开源的工具,主要用于在Hadoop和结构...
自建Hadoop集群数据迁移 阿里云ECS自建Hadoop集群和文件引擎处于相同VPC网络环境时,可以直接通过VPC网络迁移数据到文件引擎。迁移命令如下所示:hadoop distcp-m 1000-bandwidth 30 hdfs:/oldcluster:8020/user/hive/warehouse hdfs:/${...
客户在IDC或者公有云环境自建Hadoop集群,数据集中保存在HDFS文件系统用于数据分析任务。客户在决定上云之后,会将自建Hadoop集群的数据迁移到阿里云自建Hadoop集群或者EMR集群。本实践方案提供安全和低成本的HDFS数据迁移方案。适用场景 ...
使用方式 集群类型 相关文档 DataLake、Dataflow、OLAP和Custom集群 添加弹性伸缩规则 查看弹性伸缩活动 可视化弹性成本分析 查看集群资源概览 Hadoop集群 配置弹性伸缩(仅Hadoop集群类型)开启或关闭弹性伸缩(仅Hadoop集群类型)查看...
准备Hadoop数据源 创建Hadoop集群,具体操作请参见 开通阿里云EMR服务。进入Hive准备数据。使用Workbench方式登录集群主节点后,在终端界面输入如下命令:[has@emr-header-1 root]$hive-创建库 create database if not exists myhive;切换...
概述 本文为您介绍Dataphin如何使用一个Hadoop集群为所有项目创建计算源从而提供计算与存储资源。详细信息 1.Dataphin一个计算源只可以被一个项目所绑定。2.通过创建不同的Hive DB从而创建不同的计算源来达到一个Hadoop集群创建多个计算源...
环境准备 已创建阿里云E-MapReduce的Hadoop集群。具体操作,请参见 创建集群。已下载E-MapReduce的最新 SDK,SDK包的名称格式为emr-datasources_shaded_*.jar,emr-datasources_shaded_*.jar中包含Tablestore相关的Spark批流Source和Sink。...
如下图所示:已创建集群:可以通过E-MapReduce 5.x Hadoop集群的详情页查看所创建的集群存储类型。如下图所示:NameNode Hadoop支持添加同集群多个HDFS地址,只要有一个地址校验成功,即可完成元数据采集。例如 host=192.xxx.xx.xxx,...
本文介绍如何在E-MapReduce的Hadoop集群运行Spark Streaming作业,处理Kafka集群的数据。背景信息 E-MapReduce上的Hadoop集群和Kafka集群都是基于纯开源软件,相关编程使用方法可参见官方相应文档。Spark官方文档:streaming-kafka-...
对于独立的E-MapReduce Druid集群,如果您需要存放索引数据至一个Hadoop集群的HDFS,请设置两个集群的连通性(详情请参见 与Hadoop集群交互)。在E-MapReduce Druid 配置 页面的 common.runtime 页签,配置如下参数。参数 描述 druid....
本文将解答与数据源相关的问题。Q:Databricks数据洞察的支持哪些数据源?目前支持读写阿里云对象存储(OSS)的数据。Q:是否支持当前的DDI集群访问其他集群的HDFS数据?支持访问同账号下的EMR Hadoop集群上的HDFS数据。
本文主要介绍在挂载 文件存储 HDFS 版 的Hadoop集群上安装及使用Apache Tez。前提条件 已开通 文件存储 HDFS 版 服务并创建文件系统实例和挂载点。具体操作,请参见 文件存储HDFS版快速入门。已为Hadoop集群所有节点安装JDK,且JDK版本不...
在Gateway节点运行Flume可以避免对E-MapReduce Hadoop集群产生影响。使用Gateway节点部署Flume Agent的基本数据流如下图所示。环境准备 本示例在华北1(杭州)进行测试,版本选择EMR-3.17.0。创建Hadoop集群,在 可选服务 中选择 Flume。...
场景三:1 TB测试数据下DLA Spark+用户自建Hadoop集群与自建Hadoop+Spark性能对比 场景说明:使用自建Spark和DLA Spark分别访问自建Hadoop集群,运行Terasort 1 TB基准测试,对它们的耗时进行对比分析。DLA Spark+OSS配置如下:配置名称 ...
说明 Hadoop用户拥有Hadoop集群的所有权限,请谨慎授权。适用于对任务执行者数据权限无强管控要求的工作空间。安全模式 用于实现更具安全性的数据权限管理。使用该模式绑定EMR引擎时,阿里云主账号或RAM用户在下发代码的同时,DataWorks会...
客户在IDC或者公有云环境自建Hadoop集群,数据集中保存在HDFS文件系统,同时借助Hive进行常见的ETL任务。客户在决策上云之后,会将自建Hadoop集群的数据迁移到阿里云自建Hadoop或者EMR。方案优势 易用性 您可以简单选择所需ECS机型(CPU、...
Hadoop集群类型中通过弹性伸缩模块创建的弹性伸缩组(创建详情请参见 配置弹性伸缩(仅Hadoop集群类型)),无法进行该操作。注意事项 云盘扩容后无法缩容,建议您合理规划存储空间。操作步骤 进入节点管理页面。登录EMR on ECS控制台。在...
Hadoop集群类型中通过弹性伸缩模块创建的弹性伸缩组(创建详情请参见 配置弹性伸缩(仅Hadoop集群类型)),无法进行该操作。操作步骤 进入节点管理页面。登录 E-MapReduce控制台。在顶部菜单栏处,根据实际情况选择地域 和资源组。单击...
若您需开启Impala任务进行快速查询和分析数据,请您提前在Hadoop集群上部署Impala(Impala v2.5及以上版本)。在E-MapReduce5.x计算引擎下,若您需要使用基于OSS创建的Hive外部表进行离线集成。您需要进行相关配置后,才可以正常使用。配置...
本文为您介绍如何迁移自建Kudu集群的数据到E-MapReduce上的Hadoop集群。前提条件 您已自建Kudu集群。已创建E-MapReduce的Hadoop集群,并选择了Kudu服务,详情请参见 创建集群。背景信息 EMR Kudu支持社区1.10以及1.11版本,可以使用社区...
步骤一:Hadoop集群挂载 文件存储 HDFS 版 实例 在Hadoop集群中配置 文件存储 HDFS 版 实例。具体操作,请参见 挂载文件存储 HDFS 版文件系统。步骤二:配置Apache HBase 将Hadoop中配置的core-site.xml复制到${HBASE_HOME}/conf目录下。cp...
DataLake或Custom集群类型 sudo mv/tmp/hive.jceks$HIVE_CONF_DIR sudo chown hive$HIVE_CONF_DIR/hive.jceks Hadoop集群类型 sudo mv/tmp/hive.jceks$HIVE_CONF_DIR sudo chown hadoop$HIVE_CONF_DIR/hive.jceks 在EMR控制台目标集群Hive...
1 TB测试数据下DLA Spark+用户自建Hadoop集群与自建Hadoop+Spark性能对比结果 集群类型 运行Terasort基准测试集耗时(min)DLA Spark+OSS 43.5 自建Hadoop+Spark 44.8 您可以将自建Hadoop和DLA Spark混合使用,自建Hadoop集群在高峰期需要...
步骤一:Hadoop集群挂载 文件存储 HDFS 版 实例 在Hadoop集群中配置 文件存储 HDFS 版 实例。具体操作,请参见 挂载文件存储 HDFS 版文件系统。步骤二:配置Fuse-DFS 在Hadoop客户端上安装依赖并载入FUSE模块。执行以下命令,安装依赖。yum...
说明 已存在Hadoop集群,且Hadoop集群中存在数据。Hadoop集群、ES实例和DataWorks工作空间所在地域需保持一致。Hadoop集群、ES实例和DataWorks工作空间需要在同一时区下,否则同步与时间相关的数据时,同步前后的数据可能存在时区差。费用...
背景信息 HBase是用于处理存储在Hadoop集群中大量数据的SQL查询引擎。如果您使用的是HBase,在导出Dataphin数据至HBase,您需要先完成HBase数据源的创建。更多HBase信息,请参见 HBase官网。使用限制 Dataphin仅支持超级管理员、数据源管理...
如果您的Hadoop集群没有此功能,则需要开通EMR Doctor,详情请参见 开通EMR Doctor(Hadoop集群类型)。EMR Doctor在安装和升级过程中,是否会对集群组件和集群任务产生影响?EMR Doctor在安装和升级过程中不会重启任何服务,本身过程也...
Hadoop集群 服务 版本 HDFS 3.2.1 YARN 3.2.1 Hive 3.1.2 Spark 3.2.1 Knox 1.1.0 Tez 0.9.2 Ganglia 3.7.2 Sqoop 1.4.7 JindoData 4.3.0 DLF-Auth 2.0.0 Iceberg 0.13.1 Hudi 0.10.1 DeltaLake 1.1.0 OpenLDAP 2.4.44 Hue 4.9.0 JindoSDK ...
Hadoop集群类型中通过弹性伸缩模块创建的弹性伸缩组(创建详情请参见 配置弹性伸缩(仅Hadoop集群类型)),无法进行该操作。操作步骤 重要 集群扩容操作不会重启存量节点上的应用进程。进入节点管理页面。登录 E-MapReduce控制台。在顶部...
前提条件 已创建Hadoop集群,详情请参见 创建集群。使用限制 EMR-3.34.0及后续版本或EMR-4.8.0及后续版本的Hadoop集群,支持一键开启LDAP认证。开启LDAP认证 进入Hue页面。登录 阿里云E-MapReduce控制台。在顶部菜单栏处,根据实际情况选择...
配置文件 上传集群的 core-site.xml 和 hivemetastore-site.xml 配置文件,配置文件可在Hadoop集群导出。AccessKey ID、AccessKey Secret 填写访问集群OSS的AccessKey ID和AccessKey Secret。查看AccessKey,请参见 查看AccessKey。重要 ...
本文为您介绍如何新增、修改和删除节点组。背景信息 您可以新增节点组,以满足不同实例节点的需求。例如,内存型实例节点(vCore:vMem=1 vCPU:8 GiB)用于大...如果需要查看弹性伸缩记录,详情请参见 查看弹性伸缩记录(仅Hadoop集群类型)。
与Hadoop集群的主要差异 模块 功能项 数据湖集群 Hadoop集群 集群 集群创建时间 平均时间小于5分钟。平均时间小于10分钟。集群节点组新增节点 平均时间小于3.5分钟。平均时间小于10分钟。开放API 支持。支持。域名支持 Private Zone。hosts...
前提条件 已完成弹性伸缩的配置,详情请参见 配置弹性伸缩(仅Hadoop集群类型)。注意事项 当伸缩组内节点数为0时,您才可以关闭弹性伸缩。当伸缩组内节点不为0时,您需要先为伸缩组设置缩容规则或者修改最大实例数为0,直至伸缩组内节点...