作业模板（EMR-作业模板（EMR文档介绍内容-阿里云

使用ECI弹性调度Spark作业

在EMR on ACK上提交Spark作业时，可以通过设置Label（标签）、Annotation或者Spark Conf来实现ECI调度Spark作业。提交Spark作业详情，请参见提交Spark作业。说明本文示例中版本以Spark 3.1.1（EMR-5.2.1-ack）为例，其他版本时请修改...

Hadoop集群迁移至DataLake集群

作业迁移为了确保旧集群的作业能在新集群上顺利调度执行，针对不同的调度系统和环境，我们需要采取相应的迁移策略：对于正在使用EMR旧版数据开发的用户，需要迁移至EMR Workflow，详情请参见 EMR旧版数据开发迁移公告。采用其他开发环境...

EMR数据开发停止更新公告

2022年2月21日21点起，E-MapReduce（简称EMR）数据开发功能停止更新，进入维护状态，会影响创建项目、新建和运行作业、工作流、数据开发运维等功能。如果您还在使用数据开发功能，请尽快迁移到DataWorks构建数据开发平台。本文为您介绍数据...

EMR Hive功能增强

本文为您介绍E-MapReduce（简称EMR）各版本对应的Hive组件版本，以及各版本中Hive相对开源增强的功能。Hive针对开源功能增强的功能如下表。EMR版本组件版本功能增强 EMR-5.2.1 Hive 3.1.2 修复使用DLF元数据执行 show create table 命令...

提交运行作业

调用SubmitFlowJob接口提交运行作业，每次只允许存在一个正在运行的实例。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。请求参数名称类型是否必选 ...

EMR Spark功能增强

本文为您介绍E-MapReduce（简称EMR）Spark相对开源增强的功能。背景信息阿里云EMR 100%采用社区开源组件，随开源版本升级迭代，基于开源组件，优化和增强阿里云部署环境。功能增强 Spark针对开源功能增强的功能如下表。EMR版本组件版本 ...

基础使用

本文为您介绍如何在E-MapReduce上提交Flink作业以及查看作业。背景信息 Dataflow集群中的Flink服务是以YARN模式部署的，您可以通过SSH方式登录Dataflow集群，在命令行中进行Flink作业提交。基于YARN模式部署的Dataflow集群支持以Session...

DataWorks on EMR Serverless StarRocks最佳实践

了解DataWorks on EMR Serverless StarRocks DataWorks作为阿里云一站式大数据开发治理平台，通过数据源对接EMR Serverless StarRocks，可实现EMR Serverless StarRocks的数据集成、作业周期性调度，同时结合StarRocks引擎在数据分析和数据...

Hive开发手册

本文介绍如何在E-MapReduce集群中开发Hive作业流程。在Hive中使用OSS 在Hive中读写OSS时，先创建一个external的表。CREATE EXTERNAL TABLE eusers(userid INT)LOCATION 'oss:/emr/users';使用示例 Hive作业流程示例如下：示例1 编写如下...

使用kubectl管理作业

您可以在EMR on ACK控制台管理您的作业，也可以通过Kubernetes工具或API直接管理您的作业。本文为您介绍如何通过kubectl管理Spark作业。前提条件已在E-MapReduce on ACK控制台创建Spark集群，详情请参见快速入门。操作步骤通过kubectl...

jfs:/emr-jfs/emr-cluster-log/jobhistory/done oss:/${oss-bucket}/emr-cluster-log/jobhistory/done mapreduce.jobhistory.intermediate-done-dir JobHistory存放未归档的 Hadoop作业记录的目录。jfs:/emr-jfs/emr-cluster-log/...

Spark3使用JDK 11

EMR-3.45.0及后续版本、EMR-5.11.0及后续版本的Spark 3支持使用JDK 11运行作业。本文为您介绍如何使用JDK 11，以及使用JDK 11后如何切换为默认的JDK 8。注意事项目前EMR Doctor不支持JDK 11，当Spark作业使用JDK 11时，需要同时修改EMR ...

切换为Hadoop原生的JobCommitter

E-MapReduce（简称EMR）集群默认使用JindoCommitter加速大数据作业，解决OSS等对象存储在Spark、MapReduce等作业使用原生Hadoop JobCommitter时遇到的性能和一致性等问题。如果您不想使用默认的JindoCommitter，则可以参照本文切换为Hadoop...

使用Flink处理JindoFS上的数据

JindoFS配置以EMR-3.35版本为例，创建名为 emr-jfs 的命名空间，相关配置参数示例如下：jfs.namespaces=emr-jfs jfs.namespaces.emr-jfs.oss.uri=oss:/oss-bucket/oss-dir jfs.namespaces.emr-jfs.mode=block 使用JindoFS Flink作业同样...

Pig开发手册

本文介绍如何在E-MapReduce集群中开发Pig作业流程。在Pig中使用OSS 在Pig中使用OSS路径时，请使用类似如下的形式。oss:/${AccessKeyId}:${AccessKeySecret}@${bucket}.${endpoint}/${path} 参数说明：${accessKeyId}：您账号的AccessKey ID...

Spark流式写入Iceberg

kafka-console-producer.sh-broker-list emr-header-1:9092,emr-worker-1:9092,emr-worker-2:9092-topic iceberg_test 通过Spark SQL创建测试使用的数据库iceberg_db和表iceberg_table，详细操作请参见基础使用。编写Spark代码。以Scala版...

EMR元数据迁移公告

阿里云EMR团队+客户 30分钟三、验证阶段观察作业运行一周或者更长时间，查看运行结果。如果正常运行，则迁移成功。如果遇到问题，则需要定位分析，可以根据实际情况确定是在线解决还是进入回滚阶段。回滚详情，请参见步骤四。阿里云EMR...

DataWorks on EMR数据安全方案

在大数据领域，阿里云为企业用户提供了一整套数据安全方案，包含用户认证、数据权限、大数据作业管理体系等。本文以联合使用DataWorks与EMR为例，为您介绍DataWorks on EMR场景下的数据安全方案。背景信息 DataWorks on EMR目前支持LDAP...

配置代码模板

引擎类型节点类型默认模板 MaxCompute ODPS Script ODPS SQL ODPS MR PyODPS 2 PyODPS 3 EMR EMR MR EMR Shell EMR Presto EMR Spark Streaming EMR Trino EMR Hive EMR Spark EMR Spark SQL EMR Impala CDH CDH Hive CDH Spark CDH MR ...

Sqoop作业配置

使用限制 EMR-1.3.0及后续版本支持Sqoop作业类型。在低版本集群上运行Sqoop作业会失败，errlog会报不支持的错误。参数详情请参见 Sqoop。操作步骤进入数据开发的项目列表页面。通过阿里云账号登录阿里云E-MapReduce控制台。在顶部菜单栏...

YARN高安全特性使用指南

YARN作业管理权限 YARN作业权限有查看作业信息的权限 VIEW_APP 和修改作业的权限 MODIFY_APP 两类。查看作业信息的权限：主要指YARN各个组件中获取作业信息和日志查看的权限，不包括引擎侧自身对用户VIEW_APP行为的限制。MapReduce引擎在 ...

使用MapReduce处理JindoFS上的数据

以EMR-3.35版本为例，创建名为 emr-jfs 的命名空间，相关配置参数示例如下：jfs.namespaces=emr-jfs jfs.namespaces.emr-jfs.oss.uri=oss:/oss-bucket/oss-dir jfs.namespaces.emr-jfs.mode=block MapReduce简介 Hadoop MapReduce作业通常...

创建EMR Studio集群

数据开发存储 EMR Studio集群的数据都会存在OSS上，即使您的EMR Studio集群销毁了，您可以通过重新创建集群来恢复原有集群的状态（包括您的Notebook以及Airflow调度的作业），并且代码和配置都不会丢失。EMR Studio集群会在您所选OSS路径下...

配置YARN开启Ranger权限控制

本文介绍如何将YARN集成至Ranger，以及如何配置权限。背景信息 Ranger YARN仅支持Scheduler队列的权限控制，不支持Fair队列的...emr-user用户可以向root.default队列提交作业。说明添加、删除或修改Policy后，需要等待约一分钟至授权生效。

E-MapReduce快速入门

步骤三：查看作业运行记录提交作业后，您可以通过YARN UI方式查看作业运行记录。（可选）步骤四：释放集群如果不再使用该集群，可以释放集群以节约成本。步骤一：创建集群进入创建集群页面。登录 EMR on ECS控制台。在顶部菜单栏处，...

EMR旧版数据开发迁移公告

阿里云EMR团队+客户 1小时三、验证阶段在EMR Workflow上导入的工作流默认处于下线状态，需要您逐一进行手动执行或定时调度，以测试和观察作业的运行结果。说明如果在作业运行过程中遇到问题，您可以随时联系阿里云EMR团队，他们会提供...

Spark作业配置

本文介绍如何配置Spark类型的作业。前提条件已创建好项目，详情请参见项目管理。操作步骤进入数据开发的项目列表页面。通过阿里云账号登录阿里云E-MapReduce控制台。在顶部菜单栏处，根据实际情况选择地域和资源组。单击上方的数据...

FLINK

flink run-m yarn-cluster-yjm 1024-ytm 2048 \ path/to/oss/of/WordCount.jar \-input oss:/path/to/oss/to/data \-output oss:/path/to/oss/to/result EMR-3.x系列自EMR-3.28.2版本开始，Flink类型作业同时支持PyFlink作业。flink run-m ...

API概览

集群模板 API 标题 API概述 CreateApiTemplate 创建API模板创建一个预定义的API模板，该模板包含了API的基本结构、请求方式、URL路径、请求参数和响应格式等信息。UpdateApiTemplate 更新API模板更新API模板。ListApiTemplates 查看API...

使用Druid

worker-1.cluster-1234 emr-worker-1 emr-header-2.cluster-1234 emr-header-2 iZbp1h9g7boqo9x23qb*192.168.*.*emr-worker-2.cluster-1234 emr-worker-2 emr-header-3.cluster-1234 emr-header-3 iZbp1eaa5819tkjx55y*192.168.*.*emr-...

什么是EMR on ACK

阿里云E-MapReduce（简称EMR）on ACK提供了全新构建大数据平台的方式。您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注...

Spark对接Kafka

本文介绍如何在E-MapReduce的Hadoop集群运行Spark Streaming作业，处理Kafka集群的数据。背景信息 E-MapReduce上的Hadoop集群和Kafka集群都是基于纯开源软件，相关编程使用方法可参见官方相应文档。Spark官方文档：streaming-kafka-...

添加弹性伸缩规则

当您的业务量需求不断波动时，建议您开启弹性伸缩功能并配置相应的伸缩规则，以便于E-MapReduce（简称EMR）可以按业务量波动增加或减少Task节点。确保作业完成的同时，可以节省成本。本文为您介绍如何在EMR控制台配置弹性伸缩。前提条件已...

JindoData版本已知问题

4.6.1版本 JindoSDK 4.6.1版本在EMR集群使用免密访问OSS-HDFS出现等待Token更新，导致部分作业中断的问题。您可以使用固定AccessKey或者升级到4.6.2及以上版本，EMR集群JindoSDK升级请参见 EMR集群JindoSDK升级流程（新版控制台）。...

数据源支持概述

从EMR-3.21.0版本开始支持使用Spark SQL开发流式分析作业。本文介绍Spark SQL支持的数据源类型，以及支持数据源的方式。支持的数据源数据源批量读批量写流式读流式写 Kafka 有无有有 Loghub 有有有有 Tablestore 有有有有 ...

旧版控制台文档说明

监控大盘：作业大盘：您可以使用新版控制台的E-MapReduce Doctor（简称EMR Doctor）全局了解集群的健康状况和动态走势，详情请参见 E-MapReduce Doctor。日志中心：详情请参见管理日志。事件中心：详情请参见管理事件中心。集群监控：...

升级大版本

EMR Serverless StarRocks版本更新分为小版本和大版本。大版本更新（例如，2.x升级到3.x）通常涉及较大规模的功能改进、新特性或架构变化等。您可以一键升级实例的版本，实现版本的无缝切换。前提条件已创建StarRocks实例，详情请参见 ...

EMR集群JindoSDK升级流程（旧版控制台）

updating.emr-worker-1>>>updating.emr-worker-2#DONE 说明对于已经在运行的YARN作业（Application，例如：Spark Streaming或Flink作业），需要停止作业后，批量滚动重启YARN NodeManager。升级后重启服务升级完成后在EMR控制台上重启...

EMR集群JindoSDK升级流程（新版控制台）

updating.master-1-1>>>updating.core-1-1>>>updating.core-1-2#DONE 说明对于已经在运行的YARN作业（Application，例如：Spark Streaming或Flink作业），需要停止作业后，批量滚动重启YARN NodeManager。升级后重启服务升级完成后在EMR...

常见问题

说明对于Hive作业报错或其他异常问题请参见 Hive作业异常排查及处理。对于Hive Metastore和HiveServer等服务相关的异常请参见 Hive服务异常排查及处理。作业长时间处于等待状态，如何处理？Map端是否读取了小文件？Reduce Task任务耗时，...

作业模板（EMR

新品推荐