作业模板（EMR-作业模板（EMR文档介绍内容-阿里云

编辑作业

本文介绍如何通过OpenAPI的方式创建作业、运行作业以及查看结果。前提条件已创建集群，详情请参见创建集群。已获取集群ID，详情请参见查看集群列表与详情。已创建AccessKey，详情请参见获取AccessKey。已获取相应的SDK，Java SDK请参见...

快速使用EMR Workflow

在绑定EMR集群/集群模板对话框中，单击绑定，绑定EMR集群或集群模板。在弹出的对话框中，选择交换机和安全组，单击确定。说明绑定集群大约需要5~10分钟，请耐心等待。（可选）关联工作空间。说明首次开通EMR Workflow服务时，将免费...

工作流快速入门

已在EMR on ECS页面创建集群或集群模板，详情请参见创建集群或创建集群模板。支持绑定的集群类型为DataLake、Hadoop和Custom。步骤一：绑定集群和关联工作空间使用阿里云账号（主账号）或RAM用户登录 E-MapReduce控制台。在左侧导航栏...

Hive作业异常排查及处理

Hive Beeline或者JDBC提交的作业日志位于HiveServer服务日志中（一般位于/var/log/emr/hive 或者/mnt/disk1/log/hive 目录）。查看Hive作业提交的YARN Application日志，使用 yarn 命令可以获取日志。yarn logs-applicationId application_...

查看作业列表

本文为您介绍如何查看您集群下的作业信息。前提条件已在E-MapReduce控制台创建on ACK的集群，详情请参见快速入门。操作步骤进入作业详情页面。登录 EMR on ACK控制台。在EMR on ACK页面，单击待查看集群的名称。单击上方的作业详情页...

手动任务快速入门

已在EMR on ECS页面创建集群或集群模板，详情请参见创建集群或创建集群模板。支持绑定的集群类型为DataLake、Hadoop和Custom。步骤一：绑定集群和关联工作空间使用阿里云账号（主账号）或RAM用户登录 E-MapReduce控制台。在左侧导航栏...

DSW连接EMR集群

本文为您介绍如何在DSW环境中连接至EMR集群，提交并执行Spark作业，以及通过PySpark实现交互式应用开发。您可以在同一DSW实例中，充分利用EMR的强大计算性能高效处理数据，并无缝衔接至模型开发、训练和部署阶段，感受一体化的大数据与AI...

常见问题

通过flink run命令运行作业时，作业的参数没有生效在通过命令行命令运行Flink作业时，Flink作业的参数需要放在Flink作业JAR包的后面，例如 flink run-d-t yarn-per-job test.jar arg1 arg2。报错Multiple factories for identifier '.' ...

YARN概述

YARN是Hadoop系统的核心组件，主要功能包括负责在Hadoop集群中的资源管理，负责对作业进行调度运行以及监控。基本概念名称描述 ResourceManager 负责集群的资源管理与调度，为运行在YARN上的各种类型作业分配资源。非HA集群部署在EMR的...

SQOOP

提交到Yarn执行警告该模式下，作业会被提交到EMR集群的YARN中执行，会直接影响EMR集群的文件、环境等，请谨慎操作。该开关默认打开。您还可以选择配置以下参数：调度队列：指定作业提交的YARN队列。任务执行容器内存（MB）：指定作业执行...

为Spark集群关联RSS

RSS（EMR Remote Shuffle Service）是E-MapReduce（简称EMR）为了提升Shuffle稳定性和性能推出的扩展组件，优化了Spark原生的Shuffle。本文为您介绍EMR on ACK上的Spark集群如何关联RSS。背景信息目前在ACK的场景下，Spark Shuffle面临的...

管理手动任务

提交到Yarn执行警告该模式下，作业会被提交到EMR集群的YARN中执行，会直接影响EMR集群的文件、环境等，请谨慎操作。该开关默认关闭。打开该开关，您还可以选择配置以下参数：调度队列：指定作业提交的YARN队列。任务执行容器内存（MB）：...

HIVECLI

提交到Yarn执行警告该模式下，作业会被提交到EMR集群的YARN中执行，会直接影响EMR集群的文件、环境等，请谨慎操作。该开关默认打开。您还可以选择配置以下参数：调度队列：指定作业提交的YARN队列。任务执行容器内存（MB）：指定作业执行...

SHELL

提交到Yarn执行警告该模式下，作业会被提交到EMR集群的YARN中执行，会直接影响EMR集群的文件、环境等，请谨慎操作。该开关默认关闭。打开该开关，您还可以选择配置以下参数：调度队列：指定作业提交的YARN队列。任务执行容器内存（MB）：...

通过集群模板创建集群

使用现有的集群模板直接一键创建集群，可以省去重复选择各配置项的时间。本文为您介绍如何通过集群模板创建集群。前提条件已创建集群模板，具体操作请参见创建集群模板。操作步骤进入管理集群模板页面。登录 E-MapReduce控制台。在左侧...

使用Arm虚拟节点运行Spark作业

EMR on ACK默认部署在x86架构的节点上，您也可以通过配置将Spark作业运行在Arm虚拟节点（弹性容器实例ECI）上。本文为您介绍如何使用Arm虚拟节点运行Spark作业。索引前提条件 EMR和EMR on ACK介绍操作步骤前提条件已在EMR on ACK控制台...

Spark作业异常排查及处理

读取Snappy文件时报错OutOfMemoryError 针对Spark作业，您可以在EMR控制台中Spark服务配置页面的 spark-defaults.conf 页签下，新增 spark.hadoop.io.compression.codec.snappy.native=true 配置。其他Spark Driver OOM内存不足场景您可以...

常见问题

您可以在EMR控制台目标集群的访问链接与端口页签，单击Spark UI链接，即查看到Spark历史作业运行信息。访问UI详情，请参见访问链接与端口。是否支持Standalone模式提交Spark作业？不支持。E-MapReduce支持使用Spark on YARN以及Spark on...

什么是EMR Workflow

提供与Apache DolphinScheduler兼容的接口和使用体验，支持开源DolphinScheduler和EMR旧版数据开发作业的一键迁移。产品功能 EMR Workflow具有如下功能：支持多种任务类型。例如 SHELL、SPARK、HIVECLI 等多种类型的任务调度。可视化的任务...

使用日志服务收集Presto作业日志

背景信息由于EMR on ACK使用虚拟容器运行作业，作业运行完成后，相关的容器会被销毁以释放集群资源。对于弹性伸缩或分时调度，相关的容器资源也会被销毁。因此，当EMR on ACK上的作业或者服务运行有异常时，如果容器运行时的日志没有被...

快速使用EMR on ACK

提交作业的详细信息请参见：提交Spark作业使用CLI提交Presto作业提交Flink作业通过kubectl连接Kubernetes集群，详情请参见获取集群KubeConfig并通过kubectl工具连接集群。新建 spark-pi.yaml 文件，文件内容如下。apiVersion:...

Flink（VVR）作业配置

在EMR Hadoop集群中，您可使用VVR引擎和EMR数据开发功能提交作业。VVR支持开源Flink 1.10版本，默认使用商业GeminiStateBackend，具备以下特性：采用创新的数据结构，提高随机查询、降低读磁盘I/O的性能。优化Cache策略，内存充足情况下热...

开启ORC查询加速

作业详情请参见 Spark Shell作业配置或 Spark SQL作业配置。检查开启情况。登录Spark History Server UI页面。在Spark的SQL页面，查看执行任务。当出现JindoDataSourceV2Scan时，表示开启成功。否则，请排查步骤1 中的操作。提升Presto...

开启ORC查询加速

作业详情请参见 Spark Shell作业配置或 Spark SQL作业配置。检查开启情况。登录Spark History Server UI页面。在Spark的SQL页面，查看执行任务。当出现JindoDataSourceV2Scan时，表示开启成功。否则，请排查步骤1 中的操作。提升Presto...

Hive使用扩展记录数据血缘和访问历史

EMR-HOOK可以收集作业的SQL信息，例如数据血缘、访问频次等。通过EMR-HOOK，您可以利用数据湖构建（DLF）的数据概况，以统计表和分区的访问次数。同时，您也可以使用DataWorks来管理数据血缘。本文将为您介绍如何配置Hive服务的EMR-HOOK。...

使用Python3 Kernel运行EMR PySpark

get_spark_opts get_spark_session 按照设置的Spark运行时参数，在EMR集群中启动Spark作业并获取Spark Session接。可以接收字符串类型参数，含义为Spark作业名称。示例如下。spark,sc=get_spark_session test_application 注意每个...

SparkSQL使用扩展记录数据血缘和访问历史

EMR-HOOK可以收集作业的SQL信息，例如数据血缘、访问频次等。通过EMR-HOOK，您可以使用数据湖构建（DLF）的数据概况，以统计表和分区的访问次数，您也可以使用DataWorks来管理数据血缘。本文为您介绍如何配置Spark服务的EMR-HOOK。前提条件...

开启native查询加速

作业详情请参见 Spark Shell作业配置或 Spark SQL作业配置。检查开启情况。登录Spark History Server UI页面。在Spark的SQL页面，查看执行任务。当出现JindoDataSourceV2Scan时，表示开启成功。否则，请排查步骤1 中的操作。提升Presto...

开启native查询加速

作业详情请参见 Spark Shell作业配置或 Spark SQL作业配置。检查开启情况。登录Spark History Server UI页面。在Spark的SQL页面，查看执行任务。当出现JindoDataSourceV2Scan时，表示开启成功。否则，请排查步骤1 中的操作。提升Presto...

开启native查询加速

作业详情请参见 Spark Shell作业配置或 Spark SQL作业配置。检查开启情况。登录Spark History Server UI页面。登录详情请参见访问链接与端口。在Spark的SQL页面，查看执行任务。当出现JindoDataSourceV2Scan时，表示开启成功。否则，请...

开启native查询加速

作业详情请参见 Spark Shell作业配置或 Spark SQL作业配置。检查开启情况。登录Spark History Server UI页面。登录详情请参见访问链接与端口。在Spark的SQL页面，查看执行任务。当出现JindoDataSourceV2Scan时，表示开启成功。否则，请...

EMR数据开发（旧版）停止全面支持公告

停止全面支持时间 2023年9月30日0点影响您在停止全面支持时间点前创建的数据开发（旧版）项目不会受到影响，可正常使用EMR数据开发（旧版）模块，包括运行作业和工作流调度，但阿里云不再提供EMR数据开发（旧版）的用户答疑、问题解决和...

Hive概述

Hive Client Hive客户端，直接利用该客户端提交SQL作业，根据其设置运行引擎配置，可以将SQL转换成MR作业、Tez作业和Spark作业，该模块在所有EMR节点上均有安装。Hive语法 EMR产品最大程度的保持了开源社区的语法以及体验，在Hive语法上...

快速入门

背景信息如果您想了解更多Zeppelin、Jupyter和Airflow的信息，请参见以下内容：Zeppelin概述管理JupyterHub 定期调度Zeppelin中的作业前提条件已申请体验EMR Studio的资格。已创建EMR Studio集群，详情请参见创建EMR Studio集群。说明...

使用Arm节点运行Spark作业

EMR on ACK默认部署在X86架构的节点上，您也可以通过配置，将Spark作业运行在Arm类型的弹性容器实例（ECI）上。本文为您介绍如何使用Arm节点运行Spark作业。前提条件已在E-MapReduce on ACK控制台创建Spark集群，详情请参见快速入门。已...

提交作业和查看作业信息

本文为您介绍如何提交作业和查看作业信息。前提条件已登录集群，详情请参见登录集群。提交作业方式一：交互式提交作业登录集群后，执行以下命令启动streaming-sql。streaming-sql 直接输入streaming-sql支持的DDL或DML语句。方式二：...

迁移方案

本文为您介绍从原有集群（线下IDC自建集群或ECS自建）迁移Flink作业到DataFlow集群的整体流程，包括准备工作，如何迁移作业，以及常见问题等。背景信息 EMR集群的基础信息，请参见集群规划。准备工作集群规划创建DataFlow集群时，集群...

常见问题

当您使用阿里云E-MapReduce（简称EMR）on ACK 时，可以根据本文...如果在绑定了Bucket A的EMR on ACK集群执行Spark作业尝试读写另一个Bucket B时，将会出现访问拒绝错误：“AccessDenied The bucket you access does not belong to you”。

ECS应用角色（EMR 3.32及之前版本和EMR 4.5及之前版本...

EMR自带服务 EMR自带服务中运行的作业均可以自动基于MetaSerivce服务免明文AccessKey访问阿里云资源（OSS、LogService和MNS）以下是使用MetaService（新）和不使用MetaService（旧）的对比示例：通过Hadoop命令行查看OSS数据旧方式 hadoop...

使用ECI弹性调度Flink作业

在EMR on ACK上提交Flink作业时，可以通过设置Label（标签）或Annotation（注解）来实现ECI调度Flink作业。提交Flink作业详情，请参见提交Flink作业。说明本文示例中版本以Flink 1.13（EMR-3.41.0-ack）为例，其他版本时请修改 ...

作业模板（EMR

新品推荐