基于Hadoop集群支持Delta Lake或Hudi存储机制

涉及模块 对应阿里云产品 说明 开源Hadoop 本地机房搭建Hadoop集群 云上虚拟机搭建Hadoop集群 阿里云E-MapReduce 原始数据存储在Hadoop集群中。基于Hadoop集群支持Delta Lake或Hudi湖仓一体架构 前提条件 已创建MaxCompute项目(非External...

搭建与管理(基于Hadoop

说明 如果Hadoop集群搭建在Linux操作系统上,krb5.conf文件一般位于Hadoop HDFS namenode master节点的/etc 目录下。hmsPrincipals:HMS服务身份标识。您可以在Hadoop集群Kerberos终端,用 list_principals 命令获取HMS Principals。该选项...

从OSS迁移数据

搭建Hadoop集群。建议您使用的Hadoop版本不低于2.7.3,本文档中使用的Hadoop版本为Apache Hadoop 2.7.3,修改Hadoop 配置信息,详情参见 使用开源HDFS客户端访问。在Hadoop集群所有节点上安装JDK,本操作要求JDK版本不低于1.8。在Hadoop...

迁移开源HDFS的数据到文件存储 HDFS 版

基于阿里云ECS搭建Hadoop集群(下称"迁移集群"),用于访问 文件存储 HDFS 版 实例和迁移数据,并满足以下条件:迁移集群与 文件存储 HDFS 版 实例在相同区域、相同可用区。迁移集群与 文件存储 HDFS 版 实例的挂载点使用相同阿里云VPC网络...

文件存储 HDFS 版和对象存储OSS双向数据迁移

搭建Hadoop集群并且所有集群节点已安装JDK,JDK版本不低于1.8。建议您使用的Hadoop版本不低于2.7.2,本文档中使用的Hadoop版本为Apache Hadoop 2.8.5。已开通对象存储OSS服务并创建存储空间(Bucket)。具体操作,请参见 对象存储OSS快速...

在文件存储 HDFS 版上使用Presto

搭建Hadoop集群并且所有集群节点已安装JDK,JDK版本不低于1.8。建议您使用的Hadoop版本不低于2.7.2,本文档中使用的Hadoop版本为Apache Hadoop 2.8.5。已在集群中安装Hive。本文使用的Hive版本为2.3.7。已 下载Presto安装包 和presto-cli...

文件存储 HDFS 版和数据库MySQL双向数据迁移

搭建Hadoop集群。建议您使用的Hadoop版本不低于2.7.2,本文使用的Hadoop版本为Apache Hadoop 2.8.5。已为Hadoop集群所有节点安装JDK,且JDK版本不低于1.8。更多信息,下载JDK。背景信息 Sqoop 是一款开源的工具,主要用于在Hadoop和结构...

从自建HDFS迁移数据

自建Hadoop集群数据迁移 阿里云ECS自建Hadoop集群和文件引擎处于相同VPC网络环境时,可以直接通过VPC网络迁移数据到文件引擎。迁移命令如下所示:hadoop distcp-m 1000-bandwidth 30 hdfs:/oldcluster:8020/user/hive/warehouse hdfs:/${...

自建Hadoop数据迁移到阿里云E-MapReduce

客户在IDC或者公有云环境自建Hadoop集群,数据集中保存在HDFS文件系统用于数据分析任务。客户在决定上云之后,会将自建Hadoop集群的数据迁移到阿里云自建Hadoop集群或者EMR集群。本实践方案提供安全和低成本的HDFS数据迁移方案。适用场景 ...

弹性伸缩概述

使用方式 集群类型 相关文档 DataLake、Dataflow、OLAP和Custom集群 添加弹性伸缩规则 查看弹性伸缩活动 可视化弹性成本分析 查看集群资源概览 Hadoop集群 配置弹性伸缩(仅Hadoop集群类型)开启或关闭弹性伸缩(仅Hadoop集群类型)查看...

MaxCompute+Hadoop搭建实践

准备Hadoop数据源 创建Hadoop集群,具体操作请参见 开通阿里云EMR服务。进入Hive准备数据。使用Workbench方式登录集群主节点后,在终端界面输入如下命令:[has@emr-header-1 root]$hive-创建库 create database if not exists myhive;切换...

Dataphin如何使用一个Hadoop集群为所有项目创建计算源...

概述 本文为您介绍Dataphin如何使用一个Hadoop集群为所有项目创建计算源从而提供计算与存储资源。详细信息 1.Dataphin一个计算源只可以被一个项目所绑定。2.通过创建不同的Hive DB从而创建不同的计算源来达到一个Hadoop集群创建多个计算源...

准备工作

环境准备 已创建阿里云E-MapReduce的Hadoop集群。具体操作,请参见 创建集群。已下载E-MapReduce的最新 SDK,SDK包的名称格式为emr-datasources_shaded_*.jar,emr-datasources_shaded_*.jar中包含Tablestore相关的Spark批流Source和Sink。...

设置Dataphin实例的计算引擎为Hadoop

如下图所示:已创建集群:可以通过E-MapReduce 5.x Hadoop集群的详情页查看所创建的集群存储类型。如下图所示:NameNode Hadoop支持添加同集群多个HDFS地址,只要有一个地址校验成功,即可完成元数据采集。例如 host=192.xxx.xx.xxx,...

Spark对接Kafka

本文介绍如何在E-MapReduce的Hadoop集群运行Spark Streaming作业,处理Kafka集群的数据。背景信息 E-MapReduce上的Hadoop集群和Kafka集群都是基于纯开源软件,相关编程使用方法可参见官方相应文档。Spark官方文档:streaming-kafka-...

使用Druid

对于独立的E-MapReduce Druid集群,如果您需要存放索引数据至一个Hadoop集群的HDFS,请设置两个集群的连通性(详情请参见 与Hadoop集群交互)。在E-MapReduce Druid 配置 页面的 common.runtime 页签,配置如下参数。参数 描述 druid....

数据源

本文将解答与数据源相关的问题。Q:Databricks数据洞察的支持哪些数据源?目前支持读写阿里云对象存储(OSS)的数据。Q:是否支持当前的DDI集群访问其他集群的HDFS数据?支持访问同账号下的EMR Hadoop集群上的HDFS数据。

在文件存储 HDFS 版上使用Apache Tez

本文主要介绍在挂载 文件存储 HDFS 版 的Hadoop集群上安装及使用Apache Tez。前提条件 已开通 文件存储 HDFS 版 服务并创建文件系统实例和挂载点。具体操作,请参见 文件存储HDFS版快速入门。已为Hadoop集群所有节点安装JDK,且JDK版本不...

Gateway节点运行Flume进行数据同步

在Gateway节点运行Flume可以避免对E-MapReduce Hadoop集群产生影响。使用Gateway节点部署Flume Agent的基本数据流如下图所示。环境准备 本示例在华北1(杭州)进行测试,版本选择EMR-3.17.0。创建Hadoop集群,在 可选服务 中选择 Flume。...

测试环境

场景三:1 TB测试数据下DLA Spark+用户自建Hadoop集群与自建Hadoop+Spark性能对比 场景说明:使用自建Spark和DLA Spark分别访问自建Hadoop集群,运行Terasort 1 TB基准测试,对它们的耗时进行对比分析。DLA Spark+OSS配置如下:配置名称 ...

快捷模式与安全模式差异比对

说明 Hadoop用户拥有Hadoop集群的所有权限,请谨慎授权。适用于对任务执行者数据权限无强管控要求的工作空间。安全模式 用于实现更具安全性的数据权限管理。使用该模式绑定EMR引擎时,阿里云主账号或RAM用户在下发代码的同时,DataWorks会...

自建Hive数据仓库迁移到阿里云E-MapReduce

客户在IDC或者公有云环境自建Hadoop集群,数据集中保存在HDFS文件系统,同时借助Hive进行常见的ETL任务。客户在决策上云之后,会将自建Hadoop集群的数据迁移到阿里云自建Hadoop或者EMR。方案优势 易用性 您可以简单选择所需ECS机型(CPU、...

扩容磁盘

Hadoop集群类型中通过弹性伸缩模块创建的弹性伸缩组(创建详情请参见 配置弹性伸缩(仅Hadoop集群类型)),无法进行该操作。注意事项 云盘扩容后无法缩容,建议您合理规划存储空间。操作步骤 进入节点管理页面。登录EMR on ECS控制台。在...

缩容集群

Hadoop集群类型中通过弹性伸缩模块创建的弹性伸缩组(创建详情请参见 配置弹性伸缩(仅Hadoop集群类型)),无法进行该操作。操作步骤 进入节点管理页面。登录 E-MapReduce控制台。在顶部菜单栏处,根据实际情况选择地域 和资源组。单击...

创建Hadoop计算源

若您需开启Impala任务进行快速查询和分析数据,请您提前在Hadoop集群上部署Impala(Impala v2.5及以上版本)。在E-MapReduce5.x计算引擎下,若您需要使用基于OSS创建的Hive外部表进行离线集成。您需要进行相关配置后,才可以正常使用。配置...

数据迁移

本文为您介绍如何迁移自建Kudu集群的数据到E-MapReduce上的Hadoop集群。前提条件 您已自建Kudu集群。已创建E-MapReduce的Hadoop集群,并选择了Kudu服务,详情请参见 创建集群。背景信息 EMR Kudu支持社区1.10以及1.11版本,可以使用社区...

在文件存储 HDFS 版上使用Apache HBase

步骤一:Hadoop集群挂载 文件存储 HDFS 版 实例 在Hadoop集群中配置 文件存储 HDFS 版 实例。具体操作,请参见 挂载文件存储 HDFS 版文件系统。步骤二:配置Apache HBase 将Hadoop中配置的core-site.xml复制到${HBASE_HOME}/conf目录下。cp...

Hive Metastore使用加密文件访问RDS

DataLake或Custom集群类型 sudo mv/tmp/hive.jceks$HIVE_CONF_DIR sudo chown hive$HIVE_CONF_DIR/hive.jceks Hadoop集群类型 sudo mv/tmp/hive.jceks$HIVE_CONF_DIR sudo chown hadoop$HIVE_CONF_DIR/hive.jceks 在EMR控制台目标集群Hive...

测试结果

1 TB测试数据下DLA Spark+用户自建Hadoop集群与自建Hadoop+Spark性能对比结果 集群类型 运行Terasort基准测试集耗时(min)DLA Spark+OSS 43.5 自建Hadoop+Spark 44.8 您可以将自建Hadoop和DLA Spark混合使用,自建Hadoop集群在高峰期需要...

使用Fuse-DFS挂载文件存储 HDFS 版

步骤一:Hadoop集群挂载 文件存储 HDFS 版 实例 在Hadoop集群中配置 文件存储 HDFS 版 实例。具体操作,请参见 挂载文件存储 HDFS 版文件系统。步骤二:配置Fuse-DFS 在Hadoop客户端上安装依赖并载入FUSE模块。执行以下命令,安装依赖。yum...

通过DataWorks将Hadoop数据同步到阿里云ES

说明 已存在Hadoop集群,且Hadoop集群中存在数据。Hadoop集群、ES实例和DataWorks工作空间所在地域需保持一致。Hadoop集群、ES实例和DataWorks工作空间需要在同一时区下,否则同步与时间相关的数据时,同步前后的数据可能存在时区差。费用...

创建HBase数据源

背景信息 HBase是用于处理存储在Hadoop集群中大量数据的SQL查询引擎。如果您使用的是HBase,在导出Dataphin数据至HBase,您需要先完成HBase数据源的创建。更多HBase信息,请参见 HBase官网。使用限制 Dataphin仅支持超级管理员、数据源管理...

EMR Doctor常见问题

如果您的Hadoop集群没有此功能,则需要开通EMR Doctor,详情请参见 开通EMR Doctor(Hadoop集群类型)。EMR Doctor在安装和升级过程中,是否会对集群组件和集群任务产生影响?EMR Doctor在安装和升级过程中不会重启任何服务,本身过程也...

EMR-5.6.x版本说明

Hadoop集群 服务 版本 HDFS 3.2.1 YARN 3.2.1 Hive 3.1.2 Spark 3.2.1 Knox 1.1.0 Tez 0.9.2 Ganglia 3.7.2 Sqoop 1.4.7 JindoData 4.3.0 DLF-Auth 2.0.0 Iceberg 0.13.1 Hudi 0.10.1 DeltaLake 1.1.0 OpenLDAP 2.4.44 Hue 4.9.0 JindoSDK ...

扩容集群

Hadoop集群类型中通过弹性伸缩模块创建的弹性伸缩组(创建详情请参见 配置弹性伸缩(仅Hadoop集群类型)),无法进行该操作。操作步骤 重要 集群扩容操作不会重启存量节点上的应用进程。进入节点管理页面。登录 E-MapReduce控制台。在顶部...

管理LDAP认证

前提条件 已创建Hadoop集群,详情请参见 创建集群。使用限制 EMR-3.34.0及后续版本或EMR-4.8.0及后续版本的Hadoop集群,支持一键开启LDAP认证。开启LDAP认证 进入Hue页面。登录 阿里云E-MapReduce控制台。在顶部菜单栏处,根据实际情况选择...

创建Hive数据源

配置文件 上传集群的 core-site.xml 和 hivemetastore-site.xml 配置文件,配置文件可在Hadoop集群导出。AccessKey ID、AccessKey Secret 填写访问集群OSS的AccessKey ID和AccessKey Secret。查看AccessKey,请参见 查看AccessKey。重要 ...

管理节点组(Hadoop、Data science和EMR Studio集群

本文为您介绍如何新增、修改和删除节点组。背景信息 您可以新增节点组,以满足不同实例节点的需求。例如,内存型实例节点(vCore:vMem=1 vCPU:8 GiB)用于大...如果需要查看弹性伸缩记录,详情请参见 查看弹性伸缩记录(仅Hadoop集群类型)。

数据湖集群

Hadoop集群的主要差异 模块 功能项 数据湖集群 Hadoop集群 集群 集群创建时间 平均时间小于5分钟。平均时间小于10分钟。集群节点组新增节点 平均时间小于3.5分钟。平均时间小于10分钟。开放API 支持。支持。域名支持 Private Zone。hosts...

开启或关闭弹性伸缩(仅Hadoop集群类型)

前提条件 已完成弹性伸缩的配置,详情请参见 配置弹性伸缩(仅Hadoop集群类型)。注意事项 当伸缩组内节点数为0时,您才可以关闭弹性伸缩。当伸缩组内节点不为0时,您需要先为伸缩组设置缩容规则或者修改最大实例数为0,直至伸缩组内节点...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
阿里邮箱 云数据库 Redis 版 开源大数据平台 E-MapReduce 商标服务 轻量应用服务器 弹性公网IP
新人特惠 爆款特惠 最新活动 免费试用