数据开发常见问题

为什么Spark Streaming作业已经结束,但是E-MapReduce控制台显示作业还处于“运行中”状态?如何在MR作业中使用本地共享库?如何在MR或Spark作业中指定OSS数据源文件路径?为什么AppMaster调度启动Task的时间过长?使用数据开发提交的作业...

资源观测

访问资源观测页面 登录 E-MapReduce控制台。在左侧导航栏,选择 EMR Serverless>Spark。在 Spark 页面,单击目标工作空间名称。在 EMR Serverless Spark 页面,单击左侧导航栏中的 资源观测。您可以使用时间筛选器,筛选小时、天或自定义的...

重启服务

前提条件 已在E-MapReduce上创建on ACK的集群,创建详情请参见 快速入门。操作步骤 进入服务详情页面。登录 EMR on ACK控制台。在EMR on ACK页面,单击目标集群操作列的 配置。单击上方的 服务详情。在 服务详情 页面,单击待重启组件操作...

基于JindoFS存储YARN MR或SPARK作业日志

本文为您介绍如何将MapReduce和Spark作业日志配置到JindoFS或OSS上。背景信息 E-MapReduce集群支持按量计费以及包年包月的付费方式,满足不同用户的使用需求。对于按量计费的集群随时会被释放,而Hadoop默认会把日志存储在HDFS上,当集群...

设置标签

更新ECS节点的标签不会同步到集群E-MapReduce上,因此为了保持ECS节点与E-MapReduce上标签的一致性,建议不要单独在ECS控制台上修改ECS的标签。并且当集群中某个ECS节点的标签数量达到上限时,集群将不能再创建标签。不同地域中的标签信息...

YARN概述

MRHistoryServer(MapReduce History Server)解析MapReduce作业的指标,并展示作业执行情况。定期删除过期的聚合日志。TimelineServer 收集作业的指标,并展示作业执行情况。说明 该组件仅用于监控单个作业的资源使用情况,不会导致数据...

上传资源

登录 E-MapReduce控制台。在左侧导航栏,选择 EMR Serverless>Spark。在 Spark 页面,单击目标工作空间的名称。在 EMR Serverless Spark 页面,单击左侧导航栏中的 资源上传。在 资源上传 页面,单击 上传文件。在 上传文件 对话框中,单击...

查看账单

如果您对阿里云E-MapReduce的消费情况产生疑问,可以通过用户中心查看费用账单以及消费明细。操作步骤 登录 阿里云控制台。在顶部菜单栏单击 费用,进入用户中心。在左侧导航栏,选择 账单管理>账单详情。根据需要查看消费情况或导出账单。...

Superset(仅对存量用户开放)

因为E-MapReduce Druid也支持SQL,所以您可以通过Superset以两种方式访问E-MapReduce Druid,即Apache Druid原生查询语言和SQL方式。前提条件 已创建E-MapReduce(简称EMR)的Hadoop或Druid集群,并选择了Superset服务,详情请参见 创建...

查看账单

在 明细账单 页签中,设置查询 账期,并在列表中筛选产品为 开源大数据平台E-MapReduce,产品明细为 EMR StarRocks Serverless按量 或 EMR StarRocks Serverless包年包月。您还可以通过 统计项 和 统计周期 选择账单的展示内容。账单详细...

开发入门

支持MetaService 上面的例子中是显式地将AccessKey传入到接口中,但是从E-MapReduce SDK 1.3.2版本开始,Spark Streaming可以基于MetaService实现免AccessKey处理LogService数据,具体可以参见E-MapReduce SDK中的LoghubUtils类说明。...

产品概述

什么是E-MapReduce 开源大数据开发平台E-MapReduce(简称EMR),是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark,让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理...

管理用户

登录 E-MapReduce控制台。在左侧导航栏,选择 EMR Workbench>Notebook。在Notebook页面,单击目标工作空间操作列的 控制台。在左侧导航栏,单击(工作空间设置)图标。在 用户 页签,单击 添加用户。在弹出的对话框中,选择已有的RAM用户...

E-MapReduce快速入门

本文为您介绍如何通过阿里云账号登录E-MapReduce(简称EMR)控制台,快速创建一个DataLake集群并执行作业。...说明 根据阿里云ECS的规则,您在购买按量付费实例时,需要保证阿里云...常见问题 了解使用阿里云E-MapReduce的常见问题:常见问题。

JOIN语句

E-MapReduce的JOIN和传统批处理JOIN的语义一致,都用于将两张表关联起来。语法 tableReference[,tableReference]*|tableexpression[joinType]JOIN tableexpression[joinCondition];参数描述如下:tableReference:表名称。tableexpression...

产品架构

本文介绍E-MapReduce(简称EMR)的产品架构,以便您直观的了解EMR的产品组成。EMR的产品架构如下图所示。从上图可以看出EMR由四部分组成:社区开源产品 集成Apache社区开源大数据组件,例如Hadoop、Hive和HBase,随着EMR版本更新,开源软件...

管理安全组

例如,通过E-MapReduce创建的安全组为E-MapReduce安全组,而您已有的安全组为用户安全组,每个安全组按照不同的需要设置不同的访问控制策略。新建安全组详情,请参见 创建安全组。使用限制 经典网络类型下,实例必须加入同一地域下经典网络...

Hive作业调优

第二个MapReduce任务再根据预处理的数据结果按照Group By Key分布到Reduce中(这个过程可以保证相同的Group By Key分布到同一个Reduce中),最后完成最终的聚合操作。如果两个大表进行JOIN操作时,出现热点,则使用热点Key随机化。例如,...

弹性伸缩概述

弹性伸缩是E-MapReduce提供的能够根据业务需求和策略自动调整计算能力(即节点数量)的功能。您可以为节点组设置按时间或按负载的伸缩策略,在业务需求增长时,弹性伸缩自动为节点组增加节点,来保证计算能力;在业务需求下降时,弹性伸缩...

管理事件

E-MapReduce(简称EMR)会记录当前集群资源发生的系统事件,并自动将其同步到云监控服务。您可以在EMR控制台查看集群的事件,并在云监控控制台中设置事件告警。使用限制 当前仅展示EMR on ECS中DataLake、DataFlow、OLAP、DataServing和...

管理用户

前提条件 已创建E-MapReduce的Hadoop集群,详情请参见 创建集群。创建用户 使用SSH方式登录集群,详情请参见 登录集群。执行以下命令,创建新账号。opt/apps/hue/build/env/bin/hue createsuperuser 输入新用户名、电子邮件,然后输入密码...

项目管理

创建E-MapReduce集群后,您可以在数据开发中创建项目,并在项目中进行作业的编辑和工作流的调度。新建项目之后,您可以对项目进行管理,为项目关联集群资源、添加项目成员以及设置全局变量。前提条件 已创建集群,详情请参见 创建集群。...

Hue对接LDAP

本文以Hue对接E-MapReduce自带的OpenLDAP为例,介绍如何配置Hue后端对接LDAP,并通过LDAP进行身份验证。自建的LDAP请您根据实际情况修改参数。操作步骤 进入服务配置。登录 阿里云E-MapReduce控制台。在顶部菜单栏处,根据实际情况选择地域...

克隆集群

当您需要基于已有集群快速创建一个新的集群时,您可以使用E-MapReduce的克隆集群功能。前提条件 已创建数据湖(DataLake)、实时数据流(DataFlow)、数据分析(OLAP)、数据服务(DataServing)和自定义场景(Custom)的集群,详情请参见 ...

查看组件部署信息

在E-MapReduce集群中,不同版本的集群实例节点上会部署不同的服务角色。例如,HDFS中的NameNode会被部署在Master节点上。本文将为您介绍如何查看E-MapReduce集群中各节点上服务组件的部署信息。操作步骤 进入集群服务页面。登录 E-...

Hive作业配置

E-MapReduce默认提供了Hive环境,您可以直接使用Hive来创建和操作创建的表和数据。前提条件 已创建好项目,详情请参见 项目管理。已准备好Hive SQL的脚本,并上传到OSS的某个目录中(例如 oss:/path/to/uservisits_aggre_hdfs.hive)。...

Impala SQL作业配置

在数据开发过程中如果您需要使用Impala SQL,可以在E-MapReduce中配置Impala SQL作业。本文介绍如何配置Impala SQL作业。前提条件 已创建好项目,详情请参见 项目管理。操作步骤 进入数据开发的项目列表页面。通过阿里云账号登录 阿里云E-...

Impala概述

优点 为了避免延迟,Impala没有使用MapReduce,而是使用分布式查询引擎直接访问数据,该引擎与RDBMS中的查询引擎相似,其性能比Hive快了几个数量级,具体取决于查询和配置的类型。Impala相对于Hadoop上SQL查询,优点如下:由于在数据节点上...

JindoTable SDK模式归档和解冻命令介绍

1 by default.-mr/-mapReduce Archive table/partitions using cluster-level MapReduce job instead of local-level multi-thread.-e/-explain If present,the command would not really archive data,but only prints the table/...

产品优势

阿里云E-MapReduce(简称EMR)为您提供相对方便可控的企业级开源大数据服务。您可以快速搭建开源大数据服务,例如Hadoop、Spark、Flink、Kafka和HBase服务。稳定可靠的开源组件 100%采用社区开源组件,随开源版本升级迭代,详情请参见 版本...

创建项目

在项目中您可以进行任务的编辑和工作流的调度。文为您介绍如何在EMR Workflow上创建项目。前提条件 已创建工作空间,详情请使用 管理工作空间。操作步骤 进入项目管理页面。...在左侧导航栏,选择 EMR Workbench>Workflow。...

Hive作业异常排查及处理

mapreduce.map.memory.mb=4096 mapreduce.reduce.memory.mb=4096 同时修改 mapreduce.map.java.opts 和 mapreduce.reduce.java.opts 的JVM参数-Xmx 为 mapreduce.map.memory.mb 和 mapreduce.reduce.memory.mb 的80%。mapreduce.map.java....

欠费说明

本文介绍E-MapReduce集群的欠费说明以及如何查看欠费金额。欠费说明 多个集群之间并不会互相影响,例如,您有一个包年包月集群和一个按量付费集群,当按量付费集群欠费时,包年包月集群并不会受到影响,仍然会正常工作。计费方式 欠费策略 ...

添加配置

前提条件 已创建E-MapReduce的Hadoop集群,详情请参见 创建集群。操作步骤 进入详情页面。通过阿里云账号登录 阿里云E-MapReduce控制台。在顶部菜单栏处,根据实际情况选择地域 和资源组。单击上方的 集群管理 页签。在 集群管理 页面,...

调整YARN队列

前提条件 已创建E-MapReduce的Hadoop集群,详情请参见 创建集群。操作步骤 进入详情页面。通过阿里云账号登录 阿里云E-MapReduce控制台。在顶部菜单栏处,根据实际情况选择地域 和资源组。单击上方的 集群管理 页签。在 集群管理 页面,...

扩容集群

当E-MapReduce集群计算资源或存储资源不足时,您可以通过水平扩展Core节点和Task节点来满足需求。前提条件 已创建集群,详情请参见 创建集群。使用限制 不支持扩容Master节点组,只能扩展Core节点和Task节点,且新扩展节点的配置默认与已有...

EMR Doctor概述

E-MapReduce Doctor(简称EMR Doctor)是E-MapReduce产品自研的面向开源大数据集群的智能运维诊断系统。通过EMR Doctor(即集群管理页面的“健康检查”功能)可以全局了解集群的健康状况和动态走势,为运维决策和资源优化提供有力的信息...

集群容灾能力

本文介绍E-MapReduce集群数据容灾和服务容灾能力。数据容灾 在Hadoop分布式文件系统(HDFS)中,每一个文件的数据均是分块存储的,每一个数据块保存有多个副本(默认为3),并且尽量保证这些数据块副本分布在不同的机架之上。一般情况下,...

数据迁移

E-MapReduce(简称EMR)支持将您本地自建的Kudu集群迁移至EMR上。本文为您介绍如何迁移自建Kudu集群的数据到E-MapReduce上的Hadoop集群。前提条件 您已自建Kudu集群。已创建E-MapReduce的Hadoop集群,并选择了Kudu服务,详情请参见 创建...

EMR Workbench

阿里云EMR Workbench是一个综合性的大数据分析和开发环境,作为阿里云E-MapReduce的一部分,它提供了EMR Notebook和EMR Workflow两个核心功能。通过EMR Workbench,您可以轻松进行数据开发,以及交互式数据分析,并设计复杂的数据处理工作...
共有66条 < 1 2 3 4 ... 66 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
开源大数据平台 E-MapReduce 弹性公网IP 短信服务 人工智能平台 PAI 金融分布式架构 对象存储
新人特惠 爆款特惠 最新活动 免费试用