阿里云搭建hadoop集群-阿里云搭建hadoop集群文档介绍内容-阿里云

配置弹性伸缩（仅Hadoop集群类型）

前提条件已新建Hadoop集群，创建详情请参见创建集群。注意事项弹性伸缩配置可以指定伸缩的节点的硬件规格。您可以在弹性伸缩功能未开启的情况下配置具体实例规格。如果特殊情况确实需要修改，可以关闭弹性伸缩功能后，再次开启。系统会...

创建EMR函数

Hadoop：Hadoop集群开发前准备工作。您需要先上传资源，才可以注册函数。新建EMR资源详情可参考文档：创建和使用EMR资源操作步骤进入数据开发页面。登录 DataWorks控制台。在左侧导航栏，单击工作空间列表。选择工作空间所在地域后，...

开通EMR Doctor（Hadoop集群类型）

E-MapReduce（简称EMR）的数据湖（DataLake）、数据服务（DataServing）和自定义业务场景下的集群默认提供EMR Doctor服务，如果您使用的是旧版数据湖场景下的Hadoop集群类型（EMR-3.41.0之前版本、EMR 4.x版本、EMR-5.6.0之前版本），则...

备份HBase集群

前提条件已创建两个Hadoop集群，并添加HBase和Zookeeper服务，详情请参见创建集群。操作步骤通过SSH方式登录集群。详情请参见使用SSH连接主节点。创建Table并添加数据。打开HBase Shell。hbase shell 创建表。create 'test','cf' 添加...

Delta连接器

前提条件已创建DataLake集群、Custom集群，并选择了Trino服务，或者创建Hadoop集群，并选择了Presto服务，详情请参见创建集群。使用限制 DataLake集群、Custom集群，和EMR-3.39.1及后续版本、EMR-5.5.0及后续版本的Hadoop集群，支持配置...

UserGroupsMapping

前提条件已创建Hadoop环境、Hadoop集群或者Hadoop客户端。具体操作，请参见创建Hadoop运行环境。已开通OSS-HDFS服务。具体操作，请参见开通并授权访问OSS-HDFS服务。已配置4.5.0及以上版本JindoSDK。具体操作，请参见非EMR集群接入OSS-...

启动实时检测与分析

开启健康检查功能的具体操作，请参见开通EMR Doctor（Hadoop集群类型）。启动实时检测进入基础信息页面。登录 EMR on ECS控制台。在顶部菜单栏处，根据实际情况选择地域和资源组。单击目标集群的集群名称。单击上方的健康检查页签。...

在调度中使用EMR Doctor任务采集功能

旧版本集群指的是旧版控制台的Hadoop集群和Gateway集群。引擎名称参数需追加的EMR Doctor配置 MapReduce yarn.app.mapreduce.am.command-opts 新版本集群-javaagent:/opt/apps/TAIHAODOCTOR/taihaodoctor-current/emr-agent/btrace-agent...

访问链接与端口

Hadoop集群：HDFS、YARN、Tez、Gangla、Spark、Oozie、HBase、Flink、Impala、Presto、Kudu。方式二：通过内网IP地址访问开源组件UI 不需要添加Knox服务。客户端机器需要与集群节点处于同一内网环境。需要根据访问的服务端口逐一添加安全组...

创建和使用EMR资源

Hadoop：Hadoop集群开发前准备工作。创建EMR资源进入数据开发页面。登录 DataWorks控制台。在左侧导航栏，单击工作空间列表。选择工作空间所在地域后，单击相应工作空间后的快速进入>数据开发。鼠标悬停至图标，单击新建资源>EMR>...

管理JupyterHub

支持关联Hadoop集群、Dataflow集群和DataScience集群三种集群类型。单击待关联集群操作列的关联集群。在关联集群对话框中，单击绑定。待已关联集群页签，显示关联的集群信息时，表示关联成功。说明绑定集群过程大约需要1~2分钟，请...

ProxyUser

前提条件已创建Hadoop环境、Hadoop集群或者Hadoop客户端。具体操作，请参见创建Hadoop运行环境。已开通OSS-HDFS服务。具体操作，请参见开通并授权访问OSS-HDFS服务。已配置4.5.0及以上版本JindoSDK。具体操作，请参见非EMR集群接入OSS-...

计算设置概述

具备海量数据计算无缝伸缩能力设置Dataphin实例的计算引擎AnalyticDB for PostgreSQL E-MapReduce3.x Hadoop与E-MapReduce5.x Hadoopp 基于阿里云E-MapReduce(EMR)构建的在阿里云云服务器ECS上的开源Hadoop集群。设置Dataphin实例的计算...

管理Hive Catalog

网络连通后，Flink就可以使用Hadoop集群的配置文件访问Hadoop集群。在OSS控制台新建目录，并将Hive配置文件和Hadoop依赖上传至目标路径。登录 OSS管理控制台 OSS管理控制台。单击 Bucket列表。单击目标Bucket名称。在 oss:/${bucket}/...

Hadoop Yarn RPC 0 Day在野利用分析与传播手段披露

通过配置开启了基于HTTP的认证，或通过防火墙或安全组封禁了RESTful API对应的8088端口，但由于他们没有意识到Hadoop同时提供RPC服务，并且访问控制机制开启方式跟REST API不一样，导致用户Hadoop集群中RPC服务所在的8032端口仍然可以未...

设置全局YARN资源队列

背景信息 YARN是一个分布式的资源管理系统，是Hadoop的核心组件，在Hadoop集群中主要负责资源管理、调度运行及监控作业。关于EMR YARN的详情，请参见 YARN调度器。在DataWorks中，您可通过如下方式配置调度节点运行时使用的YARN资源队列：...

查询项目中可用的集群列表

Type String HADOOP 集群类型：HADOOP KAFKA GATEWAY DRUID ZOOKEEPER DATA_SCIENCE PageNumber Integer 1 当前页码，从1开始。PageSize Integer 10 分页查询时设置的每页行数。RequestId String 0d18b019-00ab-455f-b60c-2891bf02f538 ...

HAS Kerberos认证使用方法

前提条件已创建EMR-3.40及之前版本，EMR-4.10.1及之前版本的Hadoop集群，详情请参见创建集群。通过hadoop命令访问HDFS 以test用户访问HDFS服务为例介绍。在Gateway节点配置 krb5.conf 文件。scp root@emr-header-1:/etc/krb5.conf/etc/...

动态加载UDF

使用限制 EMR-3.39.1及后续版本、EMR-5.5.0及后续版本的Hadoop集群或选择了Trino的集群，支持UDF的动态加载和更新。注意事项如果本文示例中的 xxxxxx 的内容为现有连接器，例如 hive、mysql 等，执行DROP命令会直接删除该连接器目录下的...

Superset（仅对存量用户开放）

这里以E-MapReduce Hadoop集群默认安装的Hive引擎为例，更多的数据库类型访问方式请参见 SQLAlchemy。登录Superset。您需要在SSH连接中创建隧道以查看开源组件的Web页面，详情请参见通过SSH隧道方式访问开源组件Web UI。默认用户名和密码...

样例代码

request.set_InstanceIdList(["i-1*","i-2*"])#可开启YARN Decommission，目前只允许对HADOOP集群的Task组开启。request.set_EnableGracefulDecommission(True)#优雅下线超时时长，单位为秒。不填写时默认超时时间为3600s。request.set_...

集群管理常见问题

如果您的Hadoop集群没有此功能，则需要开通EMR Doctor，详情请参见开通EMR Doctor（Hadoop集群类型）。EMR Doctor在安装和升级过程中，是否会对集群组件和集群任务产生影响？EMR Doctor在安装和升级过程中不会重启任何服务，本身过程也...

模拟IDC Spark读写MaxCompute实践

现有湖仓一体架构是以MaxCompute为中心读写Hadoop集群数据，有些线下IDC场景，客户不愿意对公网暴露集群内部信息，需要从Hadoop集群发起访问云上的数据。本文以开源大数据开发平台E-MapReduce（云上Hadoop）方式模拟本地Hadoop集群，为您...

常见问题

这是因为EMR的Hadoop集群配置了lzo压缩。解决方法：拷贝 EMR$HADOOP_HOME/lib 下的JAR包和 native 文件夹到E-MapReduce Druid的druid.extensions.hadoopDependenciesDir（默认为$DRUID_HOME/hadoop-dependencies）。索引时提示如下错误：...

实现Hue多实例负载均衡

前提条件已创建E-MapReduce的Hadoop集群，详情请参见创建集群。步骤一：创建Gateway 登录阿里云E-MapReduce控制台。在顶部菜单栏处，根据实际情况选择地域和资源组。单击上方的集群管理页签。单击右上角的创建Gateway。在创建...

ClickHouse SQL

Hadoop：Hadoop集群开发前准备工作。已创建ClickHouse数据源并绑定至工作空间。您需先将您的ClickHouse数据库创建为DataWorks的ClickHouse数据源并绑定至数据开发（DataStudio），才可通过ClickHouse数据源访问ClickHouse数据，进行后续的...

通过RootPolicy访问

前提条件已创建Hadoop环境、Hadoop集群或者Hadoop客户端。具体操作，请参见创建Hadoop运行环境。已开通OSS-HDFS服务。具体操作，请参见开通并授权访问OSS-HDFS服务。已配置4.5.0及以上版本JindoSDK。具体操作，请参见非EMR集群接入OSS-...

使用OSS作为HBase的底层存储

hbase.wal.dir 指定HBase的WAL存储目录到本地Hadoop集群。参数值为：非HA集群：配置为 hdfs:/emr-header-1:9000/hbase。HA集群：配置为 hdfs:/emr-cluster/hbase。停止HBase服务。如需停止HBase服务，首先通过flush操作来保证内存中所有表...

新建ArgoDB数据源

配置文件用于上传Hadoop的配置文件，例如 hdfs-site.xml、core-site.xml，配置文件可在Hadoop集群导出。认证方式如果HDFS集群无需认证，则选择无认证；如果HDFS集群需要认证，Dataphin支持 Kerberos。若选择 Kerbero 认证方式需配置相关...

使用SQL管理外部项目

构建湖仓一体时，您需要创建外部项目（External Project）用于关联Hadoop集群，或关联DLF及OSS。本文为您介绍如何使用SQL方式对不同场景中已创建的外部项目、及其中的表进行管理，例如查询或更新表数据等操作。背景信息您在通过DataWorks...

测试方法

场景三：1 TB测试数据下DLA Spark+用户自建Hadoop集群与自建Hadoop+Spark性能对比准备测试数据在自建Hadoop上生成1 TB Terasort测试数据。使用spark-submit命令向自建Spark集群中提交运行生成1 TB Terasort测试数据的Spark程序。示例如下...

使用EMR-CLI自定义部署Gateway环境

对于已存在的Hadoop集群和Kafka集群的Gateway环境部署，详情请参见创建Gateway集群。说明如果您在2022年12月19日17点（UTC+8）以后第一次创建EMR集群，则不能选择Hadoop、Kafka集群类型。请勿使用EMR集群的ECS实例作为Gateway机器，以免...

Spark批式读写Iceberg

前提条件已创建Hadoop集群，详情请参见创建集群。说明此文档仅适用于EMR-3.38.0及后续版本与EMR-5.4.0及后续版本的Hadoop集群。操作步骤新建Maven项目，引入Pom依赖。引入Spark及Iceberg的依赖，以下代码示例指定了Spark 3.1.1与...

创建TDH Inceptor数据源

配置文件用于上传Hadoop的配置文件，例如 hdfs-site.xml、core-site.xml，配置文件可在Hadoop集群导出。认证方式如果HDFS集群无需认证，则选择无认证；如果HDFS集群需要认证，Dataphin支持选择 Kerberos。若选择 Kerbero 认证方式需配置...

Serverless Spark概述

0运维：用户只需通过产品接口管理Spark作业即可，无需关心服务器配置以及Hadoop集群配置，无需扩缩容等运维操作。作业级细粒度的弹性能力：Serverless Spark按照Driver和Executor的粒度创建资源，相比于集群版的计算节点，粒度要细很多，...

快速入门

支持关联Hadoop集群、Dataflow集群和DataScience集群三种集群类型。选择待关联集群的集群类型。单击待关联集群操作列的关联集群。在关联集群对话框中，单击绑定。待已关联集群页签，显示关联的集群信息时，表示关联成功。说明绑定...

查看集群日报与分析

注意信息默认情况下，Hadoop集群健康检查功能不包括集群日报分析。如果您需要查看集群日报分析，则需要开通EMR Doctor。开通EMR Doctor的具体操作，请参见开通EMR Doctor（Hadoop集群类型）。查看报告进入基础信息页面。登录 EMR on ECS...

ClusterType String 是 HADOOP 集群类型，取值如下：HADOOP KAFKA DATA SCIENCE DRUID FLINK GATEWAY CLICKHOUSE ZOOKEEPER SHUFFLE_SERVICE EMR_STUDIO Config.N.ConfigKey String 是 fs.trash.interval 自定义配置项的Key。Config.N....

修改集群模版

ClusterType String 是 HADOOP 集群类型。Config.N.ConfigKey String 是 fs.trash.interval 自定义配置项的Key。Config.N.ConfigValue String 是 60 自定义配置项的值。Config.N.FileName String 是 yarn-site 自定义配置项所属文件名。...

通过JDBC方式连接Trino

Hadoop集群：主节点名称为emr-header-1。其余版本时，您可以通过如下JDBC URL，使用JDBC Driver连接数据库。jdbc:presto:/<COORDINATOR>:<PORT>/[CATALOG]/[SCHEMA]连接示例如下所示。jdbc:presto:/<主节点名称>:9090#连接数据库，使用默认...

阿里云搭建hadoop集群

新品推荐