通用hadoop 负载集群-通用hadoop 负载集群文档介绍内容-阿里云

异构数据源访问

准备测试数据集准备测试数据集，并执行 hadoop fs-put<本地文件名称><文件保存在Hadoop集群的路径>命令将数据集保存在Hadoop集群路径。例如，将本地文件/home/user/file.txt 上传到HDFS的/tmp 目录下，执行 hadoop fs-put/home/user/file....

自建Hadoop数据迁移到阿里云E-MapReduce

客户在IDC或者公有云环境自建Hadoop集群，数据集中保存在HDFS文件系统用于数据分析任务。客户在决定上云之后，会将自建Hadoop集群的数据迁移到阿里云自建Hadoop集群或者EMR集群。本实践方案提供安全和低成本的HDFS数据迁移方案。适用场景 ...

基于Hadoop集群支持Delta Lake或Hudi存储机制

涉及模块对应阿里云产品说明开源Hadoop 本地机房搭建Hadoop集群 云上虚拟机搭建Hadoop集群 阿里云E-MapReduce 原始数据存储在Hadoop集群中。基于Hadoop集群支持Delta Lake或Hudi湖仓一体架构前提条件已创建MaxCompute项目（非External...

从自建HDFS迁移数据

自建Hadoop集群数据迁移阿里云ECS自建Hadoop集群和文件引擎处于相同VPC网络环境时，可以直接通过VPC网络迁移数据到文件引擎。迁移命令如下所示：hadoop distcp-m 1000-bandwidth 30 hdfs:/oldcluster:8020/user/hive/warehouse hdfs:/${...

搭建与管理（基于Hadoop）

通过MaxCompute与Hadoop构建湖仓一体方案旨在实现对海量数据的统一管理、存储和分析，提供了一个既能处理结构化、半结构化数据，又能满足高并发分析需求的一体化数据平台。本文为您介绍如何通过MaxCompute与Hadoop构建湖仓一体，以及管理湖...

MaxCompute+Hadoop搭建实践

本文以E-MapReduce的Hive为例，为您介绍在MaxCompute中如何创建外部项目，并查询Hadoop中的表数据。使用限制仅华东1（杭州）、华东2（上海）、华北2（北京）、华北3（张家口）、华南1（深圳）、中国香港、新加坡和德国（法兰克福）地域...

Dataphin如何使用一个Hadoop集群为所有项目创建计算源...

概述本文为您介绍Dataphin如何使用一个Hadoop集群为所有项目创建计算源从而提供计算与存储资源。详细信息 1.Dataphin一个计算源只可以被一个项目所绑定。2.通过创建不同的Hive DB从而创建不同的计算源来达到一个Hadoop集群创建多个计算源...

准备工作

环境准备已创建阿里云E-MapReduce的Hadoop集群。具体操作，请参见创建集群。已下载E-MapReduce的最新 SDK，SDK包的名称格式为emr-datasources_shaded_*.jar，emr-datasources_shaded_*.jar中包含Tablestore相关的Spark批流Source和Sink。...

Spark对接Kafka

本文介绍如何在E-MapReduce的Hadoop集群运行Spark Streaming作业，处理Kafka集群的数据。背景信息 E-MapReduce上的Hadoop集群和Kafka集群都是基于纯开源软件，相关编程使用方法可参见官方相应文档。Spark官方文档：streaming-kafka-...

使用Druid

EMR-3.11.0及其后续版本...将Hadoop集群的hosts写入到E-MapReduce Druid集群的hosts列表中，注意Hadoop集群的hostname应采用长名形式，如emr-header-1.cluster-xxxxxxxx，且最好将Hadoop的hosts放在本集群hosts之后，例如：.10.157.*.*emr-as....

Hadoop

本文主要介绍如何使用DLA Spark访问用户VPC中的HADOOP集群（开启kerberos认证的集群暂不支持）。前提条件您已开通数据湖分析DLA（Data Lake Analytics）服务。如何开通，请参见开通云原生数据湖分析服务。您已登录云原生数据库分析DLA...

./hadoop-mapreduce/hadoop-2.8.5/share/hadoop/hdfs/*:./hadoop-mapreduce/hadoop-2.8.5/share/hadoop/hdfs/lib/*:./hadoop-mapreduce/hadoop-2.8.5/share/hadoop/yarn/*:./hadoop-mapreduce/hadoop-2.8.5/share/hadoop/yarn/lib/*:./...

数据源

本文将解答与数据源相关的问题。Q：Databricks数据洞察的支持哪些数据源？目前支持读写阿里云对象存储（OSS）的数据。Q：是否支持当前的DDI集群访问其他集群的HDFS数据？支持访问同账号下的EMR Hadoop集群上的HDFS数据。

配置自建RDS

本文介绍如何配置自建的阿里云RDS，作为E-MapReduce（简称EMR）上DataLake集群、Custom集群或Hadoop集群的元数据。前提条件已购买RDS MySQL实例（EMR所有版本均支持MySQL 5.7，仅EMR-3.35.0以上版本、EMR-5.0.0以上版本同时支持MySQL 5.7...

从OSS迁移数据

cp./jindofs-sdk-*.jar${HADOOP_HOME}/share/hadoop/hdfs/lib/为Hadoop集群所有节点创建JindoFS SDK配置文件。添加如下环境变量到/etc/profile 文件。export B2SDK_CONF_DIR=etc/jindofs-sdk-conf 创建OSS存储工具配置文件/etc/jindofs-sdk...

扩容磁盘

Hadoop集群类型中通过弹性伸缩模块创建的弹性伸缩组（创建详情请参见配置弹性伸缩（仅Hadoop集群类型）），无法进行该操作。注意事项云盘扩容后无法缩容，建议您合理规划存储空间。操作步骤进入节点管理页面。登录EMR on ECS控制台。在...

缩容集群

Hadoop集群类型中通过弹性伸缩模块创建的弹性伸缩组（创建详情请参见配置弹性伸缩（仅Hadoop集群类型）），无法进行该操作。操作步骤进入节点管理页面。登录 E-MapReduce控制台。在顶部菜单栏处，根据实际情况选择地域和资源组。单击...

使用独立的Trino集群

如果要使用独立的Trino集群，需要先创建一个DataLake集群、自定义集群或Hadoop集群，或使用已有的DataLake集群、自定义集群或Hadoop集群作为数据集群。创建完独立的Trino集群后，您需要进行以下配置：配置连接器可选：配置数据湖元数据 ...

数据迁移

本文为您介绍如何迁移自建Kudu集群的数据到E-MapReduce上的Hadoop集群。前提条件您已自建Kudu集群。已创建E-MapReduce的Hadoop集群，并选择了Kudu服务，详情请参见创建集群。背景信息 EMR Kudu支持社区1.10以及1.11版本，可以使用社区...

Hive Metastore使用加密文件访问RDS

DataLake或Custom集群类型 sudo mv/tmp/hive.jceks$HIVE_CONF_DIR sudo chown hive$HIVE_CONF_DIR/hive.jceks Hadoop集群类型 sudo mv/tmp/hive.jceks$HIVE_CONF_DIR sudo chown hadoop$HIVE_CONF_DIR/hive.jceks 在EMR控制台目标集群Hive...

在文件存储 HDFS 版上使用Apache HBase

步骤一：Hadoop集群挂载文件存储 HDFS 版实例在Hadoop集群中配置文件存储 HDFS 版实例。具体操作，请参见挂载文件存储 HDFS 版文件系统。步骤二：配置Apache HBase 将Hadoop中配置的core-site.xml复制到${HBASE_HOME}/conf目录下。cp...

使用Fuse-DFS挂载文件存储 HDFS 版

vim hadoop-2.8.5-src/hadoop-hdfs-project/hadoop-hdfs-native-client/src/main/native/fuse-dfs/fuse_options.c 执行以下命令编译Hadoop源码中hadoop-hdfs-project模块下的hadoop-hdfs-native-client子模块。cd hadoop-2.8.5-src/mvn ...

通过DataWorks将Hadoop数据同步到阿里云ES

当您基于Hadoop进行交互式大数据分析查询，遇到查询延迟的问题时，可以将数据同步至阿里云Elasticsearch中再进行查询分析。ES对于多种查询类型，特别是即席查询（Ad Hoc），基本可以达到秒级响应。本文介绍通过DataWorks的数据集成服务，...

管理节点组（Hadoop、Data science和EMR Studio集群）

前提条件已在EMR控制台创建Hadoop、Data science或EMR studio集群，详情请参见创建集群。使用限制支持新增Core和Task节点组。最多支持新增10个节点组。仅支持删除Task节点组，不支持删除Core节点组。注意事项当待操作节点组的节点数...

创建Hive数据源

如下图所示：已创建集群：可以通过E-MapReduce5.x Hadoop集群的详情页查看所创建的集群存储类型。如下图所示：集群存储根目录填写集群存储根目录。可以通过查看E-MapReduce5.x Hadoop集群信息获取进行。如下图所示：重要若填写的路径中...

管理LDAP认证

前提条件已创建Hadoop集群，详情请参见创建集群。使用限制 EMR-3.34.0及后续版本或EMR-4.8.0及后续版本的Hadoop集群，支持一键开启LDAP认证。开启LDAP认证进入Hue页面。登录阿里云E-MapReduce控制台。在顶部菜单栏处，根据实际情况选择...

集群自定义监控报表

集群主机 load1 过去 1 分钟系统平均负载集群主机 load15 过去15分钟系统平均负载集群主机 load5 过去5分钟系统平均负载集群主机 cpu_percent CPU 使用率集群主机 memory_buffers 内核 Buffer Cache 大小集群主机 memory_cached 缓存...

开启或关闭弹性伸缩（仅Hadoop集群类型）

前提条件已完成弹性伸缩的配置，详情请参见配置弹性伸缩（仅Hadoop集群类型）。注意事项当伸缩组内节点数为0时，您才可以关闭弹性伸缩。当伸缩组内节点不为0时，您需要先为伸缩组设置缩容规则或者修改最大实例数为0，直至伸缩组内节点...

扩容集群

Hadoop集群类型中通过弹性伸缩模块创建的弹性伸缩组（创建详情请参见配置弹性伸缩（仅Hadoop集群类型）），无法进行该操作。注意事项如果您的集群中包含StarRocks服务，且StarRocks服务执行过手动升级，则后续的扩容操作有可能引发集群...

Hadoop Streaming

hadoop jar/usr/lib/hadoop-current/share/hadoop/tools/lib/hadoop-streaming-X.X.X.jar-file/home/hadoop/mapper.py-mapper mapper.py-file/home/hadoop/reducer.py-reducer reducer.py-input/tmp/hosts-output/tmp/output 参数描述 ...

文件存储 HDFS 版和对象存储OSS双向数据迁移

步骤一：Hadoop集群挂载文件存储 HDFS 版实例在Hadoop集群中配置文件存储 HDFS 版实例。具体操作，请参见挂载文件存储 HDFS 版文件系统。步骤二：Hadoop集群部署JindoSDK 下载最新的 JindoSDK安装包。本文以jindosdk-4.5.0为例。执行...

网络开通流程

您需要开通网络连接以便访问外网或VPC中的目标服务（例如指定IP或域名、RDS、HBase集群、Hadoop集群等）。本文为您介绍MaxCompute与目标服务间的网络结构及支持的网络开通方案。免责声明 MaxCompute提供的公网与VPC访问能力目前属于免费...

数据上云场景

Sqoop执行时，会在原来的Hadoop集群上执行MR作业，可以分布式地将数据传输到MaxCompute上，详情请参见 Sqoop工具的介绍。MMA利用Meta Carrier连接您的Hive Metastore服务，获取Hive Metadata，并利用这些数据生成用于创建MaxCompute表和...

YARN概述

YARN是Hadoop系统的核心组件，主要功能包括负责在Hadoop集群中的资源管理，负责对作业进行调度运行以及监控。基本概念名称描述 ResourceManager 负责集群的资源管理与调度，为运行在YARN上的各种类型作业分配资源。非HA集群部署在EMR的...

Ranger概述

Apache Ranger提供集中式的权限管理框架，可以对Hadoop生态中的HDFS、Hive和YARN等组件进行细粒度的权限访问控制，并且提供了Web UI方便管理员操作。Ranger组件介绍 Ranger主要由三个组件组成：Ranger Admin 您可以创建和更新安全访问策略...

迁移开源HDFS的数据到文件存储 HDFS 版

基于阿里云ECS搭建Hadoop集群（下称"迁移集群"），用于访问文件存储 HDFS 版实例和迁移数据，并满足以下条件：迁移集群与文件存储 HDFS 版实例在相同区域、相同可用区。迁移集群与文件存储 HDFS 版实例的挂载点使用相同阿里云VPC网络...

修改集群名称

调用ModifyClusterName接口修改集群名称。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。请求参数名称类型是否必选示例值描述 Action String 是 ...

Hive访问Iceberg数据

前提条件已创建Hadoop集群，详情请参见创建集群。说明此文档仅适用于EMR-3.38.0及后续版本与EMR-5.4.0及后续版本的Hadoop集群。使用限制 EMR-3.38.0及后续版本与EMR-5.4.0及后续版本的Hadoop集群，支持Hive读写Iceberg的数据。操作步骤 ...

Spark流式写入Iceberg

前提条件已在E-MapReduce控制台上，创建Hadoop集群，详情请参见创建集群。说明此文档仅适用于EMR-3.38.0及后续版本与EMR-5.4.0及后续版本的Hadoop集群。已在E-MapReduce控制台上，创建Kafka集群，详情请参见创建集群。使用限制 Hadoop...

场景：注册跨账号的EMR集群

后续步骤集群创建后，您可执行如下操作：设置集群身份映射：当EMR集群默认访问身份非Hadoop账号时，您需要配置集群身份映射，控制操作DataWorks的RAM用户在DataWorks仅可访问其有权限的资源，实现权限管控。基于该集群进行数据集成同步...

通用hadoop 负载集群

新品推荐