配置弹性伸缩(仅Hadoop集群类型)

前提条件 已新建Hadoop集群,创建详情请参见 创建集群。注意事项 弹性伸缩配置可以指定伸缩的节点的硬件规格。您可以在弹性伸缩功能未开启的情况下配置具体实例规格。如果特殊情况确实需要修改,可以关闭弹性伸缩功能后,再次开启。系统会...

创建EMR函数

Hadoop:Hadoop集群开发前准备工作。您需要先上传资源,才可以注册函数。新建EMR资源详情可参考文档:创建和使用EMR资源 操作步骤 进入 数据开发 页面。登录 DataWorks控制台。在左侧导航栏,单击 工作空间列表。选择工作空间所在地域后,...

开通EMR Doctor(Hadoop集群类型)

E-MapReduce(简称EMR)的数据湖(DataLake)、数据服务(DataServing)和自定义业务场景下的集群默认提供EMR Doctor服务,如果您使用的是旧版数据湖场景下的Hadoop集群类型(EMR-3.41.0之前版本、EMR 4.x版本、EMR-5.6.0之前版本),则...

备份HBase集群

前提条件 已创建两个Hadoop集群,并添加HBase和Zookeeper服务,详情请参见 创建集群。操作步骤 通过SSH方式登录集群。详情请参见 使用SSH连接主节点。创建Table并添加数据。打开HBase Shell。hbase shell 创建表。create 'test','cf' 添加...

Delta连接器

前提条件 已创建DataLake集群、Custom集群,并选择了Trino服务,或者创建Hadoop集群,并选择了Presto服务,详情请参见 创建集群。使用限制 DataLake集群、Custom集群,和EMR-3.39.1及后续版本、EMR-5.5.0及后续版本的Hadoop集群,支持配置...

UserGroupsMapping

前提条件 已创建Hadoop环境、Hadoop集群或者Hadoop客户端。具体操作,请参见 创建Hadoop运行环境。已开通OSS-HDFS服务。具体操作,请参见 开通并授权访问OSS-HDFS服务。已配置4.5.0及以上版本JindoSDK。具体操作,请参见 非EMR集群接入OSS-...

启动实时检测与分析

开启健康检查功能的具体操作,请参见 开通EMR Doctor(Hadoop集群类型)。启动实时检测 进入基础信息页面。登录 EMR on ECS控制台。在顶部菜单栏处,根据实际情况选择地域 和资源组。单击目标集群的集群名称。单击上方的 健康检查 页签。...

在调度中使用EMR Doctor任务采集功能

旧版本集群指的是旧版控制台的Hadoop集群和Gateway集群。引擎名称 参数 需追加的EMR Doctor配置 MapReduce yarn.app.mapreduce.am.command-opts 新版本集群-javaagent:/opt/apps/TAIHAODOCTOR/taihaodoctor-current/emr-agent/btrace-agent...

访问链接与端口

Hadoop集群:HDFS、YARN、Tez、Gangla、Spark、Oozie、HBase、Flink、Impala、Presto、Kudu。方式二:通过内网IP地址访问开源组件UI 不需要添加Knox服务。客户端机器需要与集群节点处于同一内网环境。需要根据访问的服务端口逐一添加安全组...

创建和使用EMR资源

Hadoop:Hadoop集群开发前准备工作。创建EMR资源 进入 数据开发 页面。登录 DataWorks控制台。在左侧导航栏,单击 工作空间列表。选择工作空间所在地域后,单击相应工作空间后的 快速进入>数据开发。鼠标悬停至 图标,单击 新建资源>EMR>...

管理JupyterHub

支持关联Hadoop集群、Dataflow集群和DataScience集群三种集群类型。单击待关联集群操作列的 关联集群。在 关联集群 对话框中,单击 绑定。待 已关联集群 页签,显示关联的集群信息时,表示关联成功。说明 绑定集群过程大约需要1~2分钟,请...

ProxyUser

前提条件 已创建Hadoop环境、Hadoop集群或者Hadoop客户端。具体操作,请参见 创建Hadoop运行环境。已开通OSS-HDFS服务。具体操作,请参见 开通并授权访问OSS-HDFS服务。已配置4.5.0及以上版本JindoSDK。具体操作,请参见 非EMR集群接入OSS-...

计算设置概述

具备海量数据计算无缝伸缩能力 设置Dataphin实例的计算引擎AnalyticDB for PostgreSQL E-MapReduce3.x Hadoop与E-MapReduce5.x Hadoopp 基于阿里云E-MapReduce(EMR)构建的在阿里云云服务器ECS上的开源Hadoop集群。设置Dataphin实例的计算...

管理Hive Catalog

网络连通后,Flink就可以使用Hadoop集群的配置文件访问Hadoop集群。在OSS控制台新建目录,并将Hive配置文件和Hadoop依赖上传至目标路径。登录 OSS管理控制台 OSS管理控制台。单击 Bucket列表。单击目标Bucket名称。在 oss:/${bucket}/...

Hadoop Yarn RPC 0 Day在野利用分析与传播手段披露

通过配置开启了基于HTTP的认证,或通过防火墙或安全组封禁了RESTful API对应的8088端口,但由于他们没有意识到Hadoop同时提供RPC服务,并且访问控制机制开启方式跟REST API不一样,导致用户Hadoop集群中RPC服务所在的8032端口仍然可以未...

设置全局YARN资源队列

背景信息 YARN是一个分布式的资源管理系统,是Hadoop的核心组件,在Hadoop集群中主要负责资源管理、调度运行及监控作业。关于EMR YARN的详情,请参见 YARN调度器。在DataWorks中,您可通过如下方式配置调度节点运行时使用的YARN资源队列:...

查询项目中可用的集群列表

Type String HADOOP 集群类型:HADOOP KAFKA GATEWAY DRUID ZOOKEEPER DATA_SCIENCE PageNumber Integer 1 当前页码,从1开始。PageSize Integer 10 分页查询时设置的每页行数。RequestId String 0d18b019-00ab-455f-b60c-2891bf02f538 ...

HAS Kerberos认证使用方法

前提条件 已创建EMR-3.40及之前版本,EMR-4.10.1及之前版本的Hadoop集群,详情请参见 创建集群。通过hadoop命令访问HDFS 以test用户访问HDFS服务为例介绍。在Gateway节点配置 krb5.conf 文件。scp root@emr-header-1:/etc/krb5.conf/etc/...

动态加载UDF

使用限制 EMR-3.39.1及后续版本、EMR-5.5.0及后续版本的Hadoop集群或选择了Trino的集群,支持UDF的动态加载和更新。注意事项 如果本文示例中的 xxxxxx 的内容为现有连接器,例如 hive、mysql 等,执行DROP命令会直接删除该连接器目录下的...

Superset(仅对存量用户开放)

这里以E-MapReduce Hadoop集群默认安装的Hive引擎为例,更多的数据库类型访问方式请参见 SQLAlchemy。登录Superset。您需要在SSH连接中创建隧道以查看开源组件的Web页面,详情请参见 通过SSH隧道方式访问开源组件Web UI。默认用户名和密码...

样例代码

request.set_InstanceIdList(["i-1*","i-2*"])#可开启YARN Decommission,目前只允许对HADOOP集群的Task组开启。request.set_EnableGracefulDecommission(True)#优雅下线超时时长,单位为秒。不填写时默认超时时间为3600s。request.set_...

集群管理常见问题

如果您的Hadoop集群没有此功能,则需要开通EMR Doctor,详情请参见 开通EMR Doctor(Hadoop集群类型)。EMR Doctor在安装和升级过程中,是否会对集群组件和集群任务产生影响?EMR Doctor在安装和升级过程中不会重启任何服务,本身过程也...

模拟IDC Spark读写MaxCompute实践

现有湖仓一体架构是以MaxCompute为中心读写Hadoop集群数据,有些线下IDC场景,客户不愿意对公网暴露集群内部信息,需要从Hadoop集群发起访问云上的数据。本文以开源大数据开发平台E-MapReduce(云上Hadoop)方式模拟本地Hadoop集群,为您...

常见问题

这是因为EMR的Hadoop集群配置了lzo压缩。解决方法:拷贝 EMR$HADOOP_HOME/lib 下的JAR包和 native 文件夹到E-MapReduce Druid的druid.extensions.hadoopDependenciesDir(默认为$DRUID_HOME/hadoop-dependencies)。索引时提示如下错误:...

实现Hue多实例负载均衡

前提条件 已创建E-MapReduce的Hadoop集群,详情请参见 创建集群。步骤一:创建Gateway 登录 阿里云E-MapReduce控制台。在顶部菜单栏处,根据实际情况选择地域 和资源组。单击上方的 集群管理 页签。单击右上角的 创建Gateway。在 创建...

ClickHouse SQL

Hadoop:Hadoop集群开发前准备工作。已创建ClickHouse数据源并绑定至工作空间。您需先将您的ClickHouse数据库创建为DataWorks的ClickHouse数据源并绑定至数据开发(DataStudio),才可通过ClickHouse数据源访问ClickHouse数据,进行后续的...

通过RootPolicy访问

前提条件 已创建Hadoop环境、Hadoop集群或者Hadoop客户端。具体操作,请参见 创建Hadoop运行环境。已开通OSS-HDFS服务。具体操作,请参见 开通并授权访问OSS-HDFS服务。已配置4.5.0及以上版本JindoSDK。具体操作,请参见 非EMR集群接入OSS-...

使用OSS作为HBase的底层存储

hbase.wal.dir 指定HBase的WAL存储目录到本地Hadoop集群。参数值为:非HA集群:配置为 hdfs:/emr-header-1:9000/hbase。HA集群:配置为 hdfs:/emr-cluster/hbase。停止HBase服务。如需停止HBase服务,首先通过flush操作来保证内存中所有表...

新建ArgoDB数据源

配置文件 用于上传Hadoop的配置文件,例如 hdfs-site.xml、core-site.xml,配置文件可在Hadoop集群导出。认证方式 如果HDFS集群无需认证,则选择 无认证;如果HDFS集群需要认证,Dataphin支持 Kerberos。若选择 Kerbero 认证方式需配置相关...

使用SQL管理外部项目

构建湖仓一体时,您需要创建外部项目(External Project)用于关联Hadoop集群,或关联DLF及OSS。本文为您介绍如何使用SQL方式对不同场景中已创建的外部项目、及其中的表进行管理,例如查询或更新表数据等操作。背景信息 您在通过DataWorks...

测试方法

场景三:1 TB测试数据下DLA Spark+用户自建Hadoop集群与自建Hadoop+Spark性能对比 准备测试数据 在自建Hadoop上生成1 TB Terasort测试数据。使用spark-submit命令向自建Spark集群中提交运行生成1 TB Terasort测试数据的Spark程序。示例如下...

使用EMR-CLI自定义部署Gateway环境

对于已存在的Hadoop集群和Kafka集群的Gateway环境部署,详情请参见 创建Gateway集群。说明 如果您在2022年12月19日17点(UTC+8)以后第一次创建EMR集群,则不能选择Hadoop、Kafka集群类型。请勿使用EMR集群的ECS实例作为Gateway机器,以免...

Spark批式读写Iceberg

前提条件 已创建Hadoop集群,详情请参见 创建集群。说明 此文档仅适用于EMR-3.38.0及后续版本与EMR-5.4.0及后续版本的Hadoop集群。操作步骤 新建Maven项目,引入Pom依赖。引入Spark及Iceberg的依赖,以下代码示例指定了Spark 3.1.1与...

创建TDH Inceptor数据源

配置文件 用于上传Hadoop的配置文件,例如 hdfs-site.xml、core-site.xml,配置文件可在Hadoop集群导出。认证方式 如果HDFS集群无需认证,则选择 无认证;如果HDFS集群需要认证,Dataphin支持选择 Kerberos。若选择 Kerbero 认证方式需配置...

Serverless Spark概述

0运维:用户只需通过产品接口管理Spark作业即可,无需关心服务器配置以及Hadoop集群配置,无需扩缩容等运维操作。作业级细粒度的弹性能力:Serverless Spark按照Driver和Executor的粒度创建资源,相比于集群版的计算节点,粒度要细很多,...

快速入门

支持关联Hadoop集群、Dataflow集群和DataScience集群三种集群类型。选择待关联集群的集群类型。单击待关联集群操作列的 关联集群。在 关联集群 对话框中,单击 绑定。待 已关联集群 页签,显示关联的集群信息时,表示关联成功。说明 绑定...

查看集群日报与分析

注意信息 默认情况下,Hadoop集群健康检查功能不包括集群日报分析。如果您需要查看集群日报分析,则需要开通EMR Doctor。开通EMR Doctor的具体操作,请参见 开通EMR Doctor(Hadoop集群类型)。查看报告 进入基础信息页面。登录 EMR on ECS...

创建集群

ClusterType String 是 HADOOP 集群类型,取值如下:HADOOP KAFKA DATA SCIENCE DRUID FLINK GATEWAY CLICKHOUSE ZOOKEEPER SHUFFLE_SERVICE EMR_STUDIO Config.N.ConfigKey String 是 fs.trash.interval 自定义配置项的Key。Config.N....

修改集群模版

ClusterType String 是 HADOOP 集群类型。Config.N.ConfigKey String 是 fs.trash.interval 自定义配置项的Key。Config.N.ConfigValue String 是 60 自定义配置项的值。Config.N.FileName String 是 yarn-site 自定义配置项所属文件名。...

通过JDBC方式连接Trino

Hadoop集群:主节点名称为emr-header-1。其余版本时,您可以通过如下JDBC URL,使用JDBC Driver连接数据库。jdbc:presto:/<COORDINATOR>:<PORT>/[CATALOG]/[SCHEMA]连接示例如下所示。jdbc:presto:/<主节点名称>:9090#连接数据库,使用默认...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
阿里邮箱 云数据库 Redis 版 开源大数据平台 E-MapReduce 商标服务 轻量应用服务器 弹性公网IP
新人特惠 爆款特惠 最新活动 免费试用