mapreduce多路径输出-mapreduce多路径输出文档介绍内容-阿里云

E-MapReduce快速入门

更多集群参数信息，请参见创建集群。步骤二：创建并执行作业集群创建成功后，您可以在该集群创建并执行作业。通过SSH方式连接集群，详情请参见登录集群。在命令行执行以下命令，提交并运行作业。本文以Spark 3.1.1版本为例，输入的命令...

基于JindoFS存储YARN MR或SPARK作业日志

本文为您介绍如何将MapReduce和Spark作业日志配置到JindoFS或OSS上。背景信息 E-MapReduce集群支持按量计费以及包年包月的付费方式，满足不同用户的使用需求。对于按量计费的集群随时会被释放，而Hadoop默认会把日志存储在HDFS上，当集群...

OSS/OSS-HDFS的性能优化最佳实践

如果您在运行MapReduce或Spark任务，还有以下选择：对于提交MapReduce任务，可以通过Hadoop参数 mapreduce.job.maps 和 mapreduce.job.reduces 控制并行的执行程序数量。对于提交Spark执行程序，可以通过选项-num-executors 或者Spark参数 ...

产品优势

阿里云E-MapReduce（简称EMR）为您提供相对方便可控的企业级开源大数据服务。您可以快速搭建开源大数据服务，例如Hadoop、Spark、Flink、Kafka和HBase服务。稳定可靠的开源组件 100%采用社区开源组件，随开源版本升级迭代，详情请参见版本...

SmartData使用说明（EMR-3.22.0~3.25.1版本）

JindoFS是一种云原生的文件系统，结合OSS和本地存储，成为E-MapReduce产品的新一代存储系统，为上层计算提供了高效可靠的存储。本文主要说明JindoFS的配置使用方式，以及介绍一些典型的应用场景。概述 JindoFS提供了块存储模式（Block）和...

统一命名空间缓存加速

应用程序可以通过统一命名空间和接口来访问多个独立的存储系统，从而实现只连接JindoFSx就可与不同的底层存储系统进行通信。前提条件已在E-MapReduce上创建EMR-3.42.0及后续版本、EMR-5.6.0及后续版本的集群，具体操作请参见创建集群。...

安装第三方插件

说明本文示例中的$FLUME_HOME 表示Flume的安装路径，配置第三方插件时，请根据实际情况指定路径。EMR集群中Flume的软件安装目录为/opt/apps/FLUME/flume-current/lib。方式三：上传第三方的JAR包至$FLUME_HOME/plugins.d/目录下。相关的...

常见问题

重要路径需要添加 file:前缀。如何使用Spark3的小文件合并功能？您可以通过设置参数 spark.sql.adaptive.merge.output.small.files.enabled 为true，来自动合并小文件。由于合并后的文件会压缩，如果您觉得合并后的文件太小，可以适当调大...

SHELL

选择所需文件后，您可以在任务脚本中通过完整路径引用它们。例如，path/to/test.txt。自定义参数任务自定义参数，会替换脚本中${变量} 的内容。更多参数配置信息，请参见参数说明。前置任务设置当前任务的前置（上游）任务。任务示例 ...

常见命令

您可以在已经创建好的E-MapReduce（简称EMR）集群中，直接使用Alluxio Shell命令来对Alluxio中的文件进行操作，也可以使用Hadoop Shell命令操作Alluxio中的文件。本文为您介绍Alluxio的常见命令。前提条件已创建集群，并选择了Alluxio服务...

Kerberos基础使用

删除Principal delprinc修改Principal密码 change_password查看所有Principal listprincs Keytab维护 Keytab内存储了一个或多个Principal的密钥，利用这些密钥可以获取相应的Ticket。如需导出Keytab文件，请执行以下命令。ktadd-k...

Spark对接Kafka

本文介绍如何在E-MapReduce的Hadoop集群运行Spark Streaming作业，处理Kafka集群的数据。背景信息 E-MapReduce上的Hadoop集群和Kafka集群都是基于纯开源软件，相关编程使用方法可参见官方相应文档。Spark官方文档：streaming-kafka-...

安全中心

更多信息，请参见自定义机器人接入。所有人是否@所有人。启用代理是否启用代理。Http 在告警实例管理页面，单击创建告警实例。在弹出的对话框中，设置相关参数。参数说明告警实例名称告警实例的名称。选择插件选择 Http 。告警...

创建工作空间

更多信息，请参见工作空间类型说明。专业版高级设置打开该开关后，您需要配置以下信息：执行角色：指定EMR Serverless Spark运行作业所采用的角色名，角色名称为AliyunEMRSparkJobRunDefaultRole。EMR Spark使用该角色来访问您在其他云...

EMR Studio概述

EMR Studio是E-MapReduce提供的开源大数据开发套件，包含Apache Zeppelin、Jupyter Notebook和Apache Airflow等开源组件。能够无缝关联EMR集群（EMR on ECS和EMR on ACK）的计算引擎提交任务，并提供了交互式开发、任务调度和任务监控等...

SDK概述

E-MapReduce各版本SDK的发布说明。说明 emr-oss：支持Hadoop、Spark与OSS数据源的交互，默认已经存在集群的运行环境中，作业打包时不需要将emr-oss打进去。emr-tablestore：支持Hadoop、Hive、Spark与TableStore数据源的交互，使用时需要打...

管理JupyterHub

JupyterHub是一个支持多用户的Notebook服务器，用于创建、管理和代理多个Jupyter Notebook实例。本文为您介绍如何访问JupyterHub的Web UI及JupyterHub的配置项信息。前提条件已创建EMR Studio集群，详情请参见创建集群。已创建EMR Studio...

EMR Spark功能增强

阿里云E-MapReduce产品构建于阿里云云服务器ECS上，基于开源的Apache Hadoop和Apache Spark，做了大量优化。本文为您介绍E-MapReduce（简称EMR）Spark相对开源增强的功能。背景信息阿里云EMR 100%采用社区开源组件，随开源版本升级迭代，...

日志配置说明

E-MapReduce（简称EMR）支持在控制台查看或配置日志参数，也支持在命令行中设置参数。本文为您介绍ClickHouse服务的日志配置。前提条件已创建OLAP集群，且选择了ClickHouse服务，详情请参见创建ClickHouse集群。Clickhouse控制台日志配置...

快速使用EMR on ACK

此时，需要您修改命令中的 local:/opt/spark/examples/spark-examples.jar 为您OSS上存放JAR包的真实路径，路径格式为 oss:/<yourBucketName>/<path>.jar。准备工作创建EMR on ACK集群前，需要在容器服务管理控制台，进行以下操作：创建...

EMR Hive功能增强

本文为您介绍E-MapReduce（简称EMR）各版本对应的Hive组件版本，以及各版本中Hive相对开源增强的功能。Hive针对开源功能增强的功能如下表。EMR版本组件版本功能增强 EMR-5.2.1 Hive 3.1.2 修复使用DLF元数据执行 show create table 命令...

管理笔记本

您可以在一个工作空间内创建一个或多个笔记本。每个笔记本由单元格（Cell）组成。目前EMR Notebook支持以下类型的单元格：SQL：用于编辑和运行SQL代码。Python：用于编辑和运行Python程序。Markdown：用于进行文本编辑，支持Markdown的语法...

ClickHouse概述

开源大数据平台E-MapReduce（简称EMR）的ClickHouse提供了开源OLAP分析引擎ClickHouse的云上托管服务。EMR ClickHouse完全兼容开源版本的产品特性，同时提供集群快速部署、集群管理、扩容、缩容和监控告警等云上产品功能，并且在开源的基础...

管理告警组和告警实例

您可以创建多个云监控告警实例，并通过事件内容关键词，将告警实例和云监控事件订阅一一对应。例如，以工作流运行失败为例，订阅范围配置如下图。通知通知配置在下拉列表中单击创建通知配置。在创建通知配置面板中，输入名称，选择已...

Paimon与Trino集成

E-MapReduce支持在Trino中查询Paimon数据。本文通过示例为您介绍如何在Trino中查询Paimon中的数据。使用限制 EMR-3.46.0及后续版本、EMR-5.12.0及后续版本的集群，支持在Trino中查询Paimon中的数据。操作步骤指定warehouse路径。Paimon将...

自定义函数（UDF）

UDTF（User Defined Table-valued Function）自定义表值函数，用来解决一次函数调用输出多行数据场景的，也是唯一一个可以返回多个字段的自定义函数。UDAF（User Defined Aggregation Function）自定义聚合函数，其输入与输出是多对一的...

管理模板

阿里云E-MapReduce(简称EMR)Serverless Spark提供了任务模板和SQL Compute模板两种模板，以支持不同的任务执行和管理需求。任务模板适用于有固定执行参数和资源需求的批处理任务，而SQL Compute模板适合SQL任务的开发和快速迭代。本文档将...

Paimon数据源

本文为您介绍如何在E-MapReduce的StarRocks集群上创建和查看Paimon Catalog。前提条件已创建包含Paimon服务的集群，例如DataLake或Custom集群，详情请参见创建集群。已创建包含StarRocks服务的集群，例如OLAP或Custom集群，并成功连接到...

管理用户和角色

工作空间为多角色协同开发的基本单元，所有开发工作都将在具体的工作空间内开展，如果您需要RAM用户（子账号）协同开发，您可以将RAM用户加入工作空间并按照职能为该用户分配空间角色。背景信息 EMR Serverless Spark支持的角色及权限如下...

登录集群

chmod 400~/.ssh/ecs.pem~/.ssh/ecs.pem 为 ecs.pem 私钥文件在本地服务器上的存储路径。执行以下命令，连接主节点。ssh-i~/.ssh/ecs.pem emr-user@<主节点公网IP地址>本地使用Windows操作系统（通过PuTTY配置信息）您可以按照以下方式登录...

JindoFS缓存模式

oss:/oss-bucket/说明该配置也可以配置到OSS bucket下的具体目录，该命名空间即以该目录作为根目录来读写数据，但一般情况下配置bucket即可，这样路径就和原生OSS保持一致。jfs.namespaces.test.mode 表示test命名空间为缓存模式。cache ...

Node Labels特性使用

引擎配置项说明 MapReduce mapreduce.job.node-label-expression 作业所有容器默认使用的节点分区。mapreduce.job.am.node-label-expression ApplicationMaster使用的节点分区。mapreduce.map.node-label-expression map子任务使用的节点...

Jindo CLI支持操作JindoFSx命令

前提条件已在E-MapReduce上创建EMR-3.42.0及后续版本、EMR-5.6.0及后续版本的集群，具体操作请参见创建集群。当数据源为OSS、OSS-HDFS、Apache HDFS、NAS时，请先完成如下配置：阿里云OSS/OSS-HDFS服务透明缓存加速 Apache HDFS透明缓存...

管理工作空间

登录 E-MapReduce控制台。在左侧导航栏，选择 EMR Serverless>Spark。在Spark页面，单击创建工作空间。在创建工作空间对话框中，完成相关配置。参数说明地域地域指数据中心所在的地理区域，建议选择与您数据所在地相同的地域，创建...

Flink Table Store与Trino集成

E-MapReduce的Flink Table Store服务支持在Trino中查询数据。本文通过示例为您介绍如何在Trino中查询Flink Table Store中的数据。使用限制仅EMR-3.45.0版本、EMR-5.11.0版本的集群，支持在Trino中查询Flink Table Store中的数据。操作步骤...

Iceberg数据源

本文为您介绍如何在E-MapReduce的StarRocks集群上创建和查看Iceberg Catalog。前提条件已创建包含Iceberg服务的集群，例如DataLake或Custom集群，详情请参见创建集群。已创建包含StarRocks服务的集群，例如OLAP或Custom集群，并成功连接到...

从HDFS迁移数据到OSS/OSS-HDFS

在 Hadoop-Common 服务的 core-site.xml 页签，新增以下配置项，以避免使用时多次填写的问题。新增配置项的具体操作，请参见管理配置项。参数说明 fs.oss.accessKeyId OSS/OSS-HDFS的AccessKey ID。fs.oss.accessKeySecret OSS/OSS-HDFS...

Hive连接器

多连接器如果您有多个Hive集群，或者同时访问DLF与Hive Metastore，可以通过以下方式配置多连接器：在 etc/catalog 路径下增加相应数量的.properties后缀的Catalog文件。例如，如果您创建了一个名为sales.properties的属性文件，则Presto...

ECS应用角色（EMR 3.32及之前版本和EMR 4.5及之前版本...

E-MapReduce环境提供了MetaService服务，MetaService服务是一种特殊的ECS应用角色。EMR 3.32及之前版本和EMR 4.5及之前版本，创建时会自动绑定该角色。在EMR集群之上运行的应用程序通过该角色来获得与其他云服务交互的权限，实现以免...

通过Spark Streaming作业处理Kafka数据

本文介绍在阿里云E-MapReduce创建的包含kafka服务的DataFlow集群中，如何使用Spark Streaming作业从Kafka中实时消费数据。前提条件已注册阿里云账号。已开通E-MapReduce服务。已完成云账号的授权，详情请参见角色授权。步骤一：创建...

mapreduce多路径输出

新品推荐