编辑作业

本文介绍如何通过OpenAPI的方式创建作业、运行作业以及查看结果。前提条件 已创建集群,详情请参见 创建集群。已获取集群ID,详情请参见 查看集群列表与详情。已创建AccessKey,详情请参见 获取AccessKey。已获取相应的SDK,Java SDK请参见...

快速使用EMR Workflow

在 绑定EMR集群/集群模板 对话框中,单击 绑定,绑定EMR集群或集群模板。在弹出的对话框中,选择交换机和安全组,单击 确定。说明 绑定集群大约需要5~10分钟,请耐心等待。(可选)关联工作空间。说明 首次开通EMR Workflow服务时,将免费...

工作流快速入门

已在EMR on ECS页面创建集群或集群模板,详情请参见 创建集群 或 创建集群模板。支持绑定的集群类型为DataLake、Hadoop和Custom。步骤一:绑定集群 和关联工作空间 使用阿里云账号(主账号)或RAM用户登录 E-MapReduce控制台。在左侧导航栏...

Hive作业异常排查及处理

Hive Beeline或者JDBC提交的作业日志位于HiveServer服务日志中(一般位于/var/log/emr/hive 或者/mnt/disk1/log/hive 目录)。查看Hive作业提交的YARN Application日志,使用 yarn 命令可以获取日志。yarn logs-applicationId application_...

查看作业列表

本文为您介绍如何查看您集群下的作业信息。前提条件 已在E-MapReduce控制台创建on ACK的集群,详情请参见 快速入门。操作步骤 进入作业详情页面。登录 EMR on ACK控制台。在EMR on ACK页面,单击待查看集群的 名称。单击上方的 作业详情 页...

手动任务快速入门

已在EMR on ECS页面创建集群或集群模板,详情请参见 创建集群 或 创建集群模板。支持绑定的集群类型为DataLake、Hadoop和Custom。步骤一:绑定集群 和关联工作空间 使用阿里云账号(主账号)或RAM用户登录 E-MapReduce控制台。在左侧导航栏...

DSW连接EMR集群

本文为您介绍如何在DSW环境中连接至EMR集群,提交并执行Spark作业,以及通过PySpark实现交互式应用开发。您可以在同一DSW实例中,充分利用EMR的强大计算性能高效处理数据,并无缝衔接至模型开发、训练和部署阶段,感受一体化的大数据与AI...

常见问题

通过flink run命令运行作业时,作业的参数没有生效 在通过命令行命令运行Flink作业时,Flink作业的参数需要放在Flink作业JAR包的后面,例如 flink run-d-t yarn-per-job test.jar arg1 arg2。报错Multiple factories for identifier '.' ...

YARN概述

YARN是Hadoop系统的核心组件,主要功能包括负责在Hadoop集群中的资源管理,负责对作业进行调度运行以及监控。基本概念 名称 描述 ResourceManager 负责集群的资源管理与调度,为运行在YARN上的各种类型作业分配资源。非HA集群部署在EMR的...

SQOOP

提交到Yarn执行 警告 该模式下,作业会被提交到EMR集群的YARN中执行,会直接影响EMR集群的文件、环境等,请谨慎操作。该开关默认打开。您还可以选择配置以下参数:调度队列:指定作业提交的YARN队列。任务执行容器内存(MB):指定作业执行...

为Spark集群关联RSS

RSS(EMR Remote Shuffle Service)是E-MapReduce(简称EMR)为了提升Shuffle稳定性和性能推出的扩展组件,优化了Spark原生的Shuffle。本文为您介绍EMR on ACK上的Spark集群如何关联RSS。背景信息 目前在ACK的场景下,Spark Shuffle面临的...

管理手动任务

提交到Yarn执行 警告 该模式下,作业会被提交到EMR集群的YARN中执行,会直接影响EMR集群的文件、环境等,请谨慎操作。该开关默认关闭。打开该开关,您还可以选择配置以下参数:调度队列:指定作业提交的YARN队列。任务执行容器内存(MB):...

HIVECLI

提交到Yarn执行 警告 该模式下,作业会被提交到EMR集群的YARN中执行,会直接影响EMR集群的文件、环境等,请谨慎操作。该开关默认打开。您还可以选择配置以下参数:调度队列:指定作业提交的YARN队列。任务执行容器内存(MB):指定作业执行...

SHELL

提交到Yarn执行 警告 该模式下,作业会被提交到EMR集群的YARN中执行,会直接影响EMR集群的文件、环境等,请谨慎操作。该开关默认关闭。打开该开关,您还可以选择配置以下参数:调度队列:指定作业提交的YARN队列。任务执行容器内存(MB):...

通过集群模板创建集群

使用现有的集群模板直接一键创建集群,可以省去重复选择各配置项的时间。本文为您介绍如何通过集群模板创建集群。前提条件 已创建集群模板,具体操作请参见 创建集群模板。操作步骤 进入管理集群模板页面。登录 E-MapReduce控制台。在左侧...

使用Arm虚拟节点运行Spark作业

EMR on ACK默认部署在x86架构的节点上,您也可以通过配置将Spark作业运行在Arm虚拟节点(弹性容器实例ECI)上。本文为您介绍如何使用Arm虚拟节点运行Spark作业。索引 前提条件 EMREMR on ACK介绍 操作步骤 前提条件 已在EMR on ACK控制台...

Spark作业异常排查及处理

读取Snappy文件时报错OutOfMemoryError 针对Spark作业,您可以在EMR控制台中Spark服务配置页面的 spark-defaults.conf 页签下,新增 spark.hadoop.io.compression.codec.snappy.native=true 配置。其他Spark Driver OOM内存不足场景 您可以...

常见问题

您可以在EMR控制台目标集群的 访问链接与端口 页签,单击Spark UI链接,即查看到Spark历史作业运行信息。访问UI详情,请参见 访问链接与端口。是否支持Standalone模式提交Spark作业?不支持。E-MapReduce支持使用Spark on YARN以及Spark on...

什么是EMR Workflow

提供与Apache DolphinScheduler兼容的接口和使用体验,支持开源DolphinScheduler和EMR旧版数据开发作业的一键迁移。产品功能 EMR Workflow具有如下功能:支持多种任务类型。例如 SHELL、SPARK、HIVECLI 等多种类型的任务调度。可视化的任务...

使用日志服务收集Presto作业日志

背景信息 由于EMR on ACK使用虚拟容器运行作业作业运行完成后,相关的容器会被销毁以释放集群资源。对于弹性伸缩或分时调度,相关的容器资源也会被销毁。因此,当EMR on ACK上的作业或者服务运行有异常时,如果容器运行时的日志没有被...

快速使用EMR on ACK

提交作业的详细信息请参见:提交Spark作业 使用CLI提交Presto作业 提交Flink作业 通过kubectl连接Kubernetes集群,详情请参见 获取集群KubeConfig并通过kubectl工具连接集群。新建 spark-pi.yaml 文件,文件内容如下。apiVersion:...

Flink(VVR)作业配置

EMR Hadoop集群中,您可使用VVR引擎和EMR数据开发功能提交作业。VVR支持开源Flink 1.10版本,默认使用商业GeminiStateBackend,具备以下特性:采用创新的数据结构,提高随机查询、降低读磁盘I/O的性能。优化Cache策略,内存充足情况下热...

开启ORC查询加速

作业详情请参见 Spark Shell作业配置 或 Spark SQL作业配置。检查开启情况。登录Spark History Server UI页面。在Spark的SQL页面,查看执行任务。当出现JindoDataSourceV2Scan时,表示开启成功。否则,请排查 步骤1 中的操作。提升Presto...

开启ORC查询加速

作业详情请参见 Spark Shell作业配置 或 Spark SQL作业配置。检查开启情况。登录Spark History Server UI页面。在Spark的SQL页面,查看执行任务。当出现JindoDataSourceV2Scan时,表示开启成功。否则,请排查 步骤1 中的操作。提升Presto...

Hive使用扩展记录数据血缘和访问历史

EMR-HOOK可以收集作业的SQL信息,例如数据血缘、访问频次等。通过EMR-HOOK,您可以利用数据湖构建(DLF)的数据概况,以统计表和分区的访问次数。同时,您也可以使用DataWorks来管理数据血缘。本文将为您介绍如何配置Hive服务的EMR-HOOK。...

使用Python3 Kernel运行EMR PySpark

get_spark_opts get_spark_session 按照设置的Spark运行时参数,在EMR集群中启动Spark作业并获取Spark Session接。可以接收字符串类型参数,含义为Spark作业名称。示例如下。spark,sc=get_spark_session test_application 注意 每个...

SparkSQL使用扩展记录数据血缘和访问历史

EMR-HOOK可以收集作业的SQL信息,例如数据血缘、访问频次等。通过EMR-HOOK,您可以使用数据湖构建(DLF)的数据概况,以统计表和分区的访问次数,您也可以使用DataWorks来管理数据血缘。本文为您介绍如何配置Spark服务的EMR-HOOK。前提条件...

开启native查询加速

作业详情请参见 Spark Shell作业配置 或 Spark SQL作业配置。检查开启情况。登录Spark History Server UI页面。在Spark的SQL页面,查看执行任务。当出现JindoDataSourceV2Scan时,表示开启成功。否则,请排查 步骤1 中的操作。提升Presto...

开启native查询加速

作业详情请参见 Spark Shell作业配置 或 Spark SQL作业配置。检查开启情况。登录Spark History Server UI页面。在Spark的SQL页面,查看执行任务。当出现JindoDataSourceV2Scan时,表示开启成功。否则,请排查 步骤1 中的操作。提升Presto...

开启native查询加速

作业详情请参见 Spark Shell作业配置 或 Spark SQL作业配置。检查开启情况。登录Spark History Server UI页面。登录详情请参见 访问链接与端口。在Spark的SQL页面,查看执行任务。当出现JindoDataSourceV2Scan时,表示开启成功。否则,请...

开启native查询加速

作业详情请参见 Spark Shell作业配置 或 Spark SQL作业配置。检查开启情况。登录Spark History Server UI页面。登录详情请参见 访问链接与端口。在Spark的SQL页面,查看执行任务。当出现JindoDataSourceV2Scan时,表示开启成功。否则,请...

EMR数据开发(旧版)停止全面支持公告

停止全面支持时间 2023年9月30日0点 影响 您在停止全面支持时间点前创建的数据开发(旧版)项目不会受到影响,可正常使用EMR数据开发(旧版)模块,包括运行作业和工作流调度,但阿里云不再提供EMR数据开发(旧版)的用户答疑、问题解决和...

Hive概述

Hive Client Hive客户端,直接利用该客户端提交SQL作业,根据其设置运行引擎配置,可以将SQL转换成MR作业、Tez作业和Spark作业,该模块在所有EMR节点上均有安装。Hive语法 EMR产品最大程度的保持了开源社区的语法以及体验,在Hive语法上...

快速入门

背景信息 如果您想了解更多Zeppelin、Jupyter和Airflow的信息,请参见以下内容:Zeppelin概述 管理JupyterHub 定期调度Zeppelin中的作业 前提条件 已申请体验EMR Studio的资格。已创建EMR Studio集群,详情请参见 创建EMR Studio集群。说明...

使用Arm节点运行Spark作业

EMR on ACK默认部署在X86架构的节点上,您也可以通过配置,将Spark作业运行在Arm类型的弹性容器实例(ECI)上。本文为您介绍如何使用Arm节点运行Spark作业。前提条件 已在E-MapReduce on ACK控制台创建Spark集群,详情请参见 快速入门。已...

提交作业和查看作业信息

本文为您介绍如何提交作业和查看作业信息。前提条件 已登录集群,详情请参见 登录集群。提交作业 方式一:交互式提交作业 登录集群后,执行以下命令启动streaming-sql。streaming-sql 直接输入streaming-sql支持的DDL或DML语句。方式二:...

迁移方案

本文为您介绍从原有集群(线下IDC自建集群或ECS自建)迁移Flink作业到DataFlow集群的整体流程,包括准备工作,如何迁移作业,以及常见问题等。背景信息 EMR集群的基础信息,请参见 集群规划。准备工作 集群规划 创建DataFlow集群时,集群...

常见问题

当您使用阿里云E-MapReduce(简称EMR)on ACK 时,可以根据本文...如果在绑定了Bucket A的EMR on ACK集群执行Spark作业尝试读写另一个Bucket B时,将会出现访问拒绝错误:“AccessDenied The bucket you access does not belong to you”。

ECS应用角色(EMR 3.32及之前版本和EMR 4.5及之前版本...

EMR自带服务 EMR自带服务中运行的作业均可以自动基于MetaSerivce服务免明文AccessKey访问阿里云资源(OSS、LogService和MNS)以下是使用MetaService(新)和不使用MetaService(旧)的对比示例:通过Hadoop命令行查看OSS数据 旧方式 hadoop...

使用ECI弹性调度Flink作业

EMR on ACK上提交Flink作业时,可以通过设置Label(标签)或Annotation(注解)来实现ECI调度Flink作业。提交Flink作业详情,请参见 提交Flink作业。说明 本文示例中版本以Flink 1.13(EMR-3.41.0-ack)为例,其他版本时请修改 ...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
开源大数据平台 E-MapReduce 批量计算 实时计算 Flink版 资源编排 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用