E-Mapreduce介绍-E-Mapreduce介绍文档介绍内容-阿里云

应用场景

本文介绍StarRocks的应用场景及其解决方案。适用场景 OLAP多维分析用户行为分析用户画像、标签分析、圈人高维业务指标报表自助式报表平台业务问题探查分析跨主题业务分析财务报表系统监控分析实时数仓电商大促数据分析教育行业...

Kafka Rebalancer工具介绍

本文为您介绍使用Kafka Rebalancer工具的注意事项、常用参数以及使用示例。本文以EMR Kafka 2.4.1版本为例。背景信息在使用Kafka集群过程中，常常会碰到以下问题：leader分区不均衡：导致各个Broker负载不均衡，读写吞吐下降。Borker分区...

Jindo sql命令介绍

本文为您介绍如何使用Jindo sql命令，分析JindoFS访问日志、元数据和OSS访问日志的数据。前提条件本地安装了Java JDK 8。已创建集群，详情请参见创建集群。背景信息您可以使用Jindo sql命令分析以下数据：使用Jindo sql分析JindoFS访问...

Hive连接方式

本文为您介绍在E-MapReduce集群提交Hive SQL的三种方式。前提条件已创建集群，且选择了Hive服务，详情请参见创建集群。注意事项本文示例中需替换的参数：<主节点的节点名称>：您可以在EMR控制台目标集群的节点管理页面获取，具体操作...

实时计算场景优化

本文为您介绍在E-MapReduce（简称EMR）上使用HDFS进行实时计算场景化配置的一些建议，以便优化HDFS的稳定性。调整DataNode Xceiver连接数背景：通常实时计算框架会打开较多的HDFS文件写入流（Stream），方便不断地向HDFS写入新的数据。...

EMR元数据迁移公告

本文为您介绍迁移E-MapReduce（简称EMR）元数据至数据湖元数据DLF（Data Lake Formation）中的原因及迁移流程。迁移原因 2020年阿里云EMR推出全新的数据湖构建和统一元数据服务，为EMR用户提供了更好的统一元数据服务方案。阿里云EMR团队...

卸载并释放E-MapReduce HDFS使用的云盘

本文介绍在配置E-MapReduce完成后，如何卸载并释放E-MapReduce HDFS服务使用的云盘。前提条件已完成数据迁移。具体操作，请参见 E-MapReduce数据迁移。已配置E-MapReduce使用文件存储 HDFS 版。具体操作，请参见配置E-MapReduce服务使用...

产品架构

本文为您介绍EMR Serverless StarRocks的架构。EMR Serverless StarRocks架构 EMR Serverless StarRocks的产品架构主要由以下三个层次构成：存储层：存算一体版：StarRocks内表使用云盘或本地盘作为数据存储的介质，使用StarRocks Table ...

回滚配置

本文为您介绍如何通过E-MapReduce控制台回滚各服务的参数配置。前提条件已对服务配置进行实际的操作变更。操作步骤进入集群服务页面。登录 E-MapReduce控制台。在顶部菜单栏处，根据实际情况选择地域和资源组。在EMR on ECS页面，单击...

安装SDK

本节介绍阿里云E-MapReduce Python 2.7+SDK安装流程。SDK安装通过pip进行安装。sudo pip install aliyun-python-sdk-emr 如果需要升级E-MapReduce Python SDK。sudo pip install aliyun-python-sdk-emr-upgrade 卸载SDK。sudo pip ...

资源隔离

本文为您介绍StarRocks资源隔离的功能、基本概念和使用方式。使用限制该功能适用于EMR-5.7.0及后续版本的集群。功能介绍资源隔离功能可以限制查询任务对计算资源的消耗，目标是让不同租户的查询任务在同一集群执行能兼顾资源隔离并且保证...

退款说明

本文介绍阿里云E-MapReduce的退款规则和退款方式。退款规则与方式计费方式退款规则退款方式包年包月包年包月的集群在购买时已经根据购买时长预先支付了费用。在释放ECS实例时，系统将同时退还您EMR未使用部分的款项。说明释放ECS实例...

Spark SQL、Dataset和DataFrame基础操作

本文为您介绍Spark SQL、Dataset和DataFrame相关的概念，以及Spark SQL的基础操作。Spark SQL、Dataset和DataFrame介绍 Spark SQL是一个用于结构化数据处理的Spark模块，与基本的Spark RDD的API不同，Spark SQL的接口还提供了更多关于数据...

Kafka Indexing Service

本文介绍如何在E-MapReduce中使用Apache Druid Kafka Indexing Service实时消费Kafka数据。前提条件已创建E-MapReduce的Druid集群和Kafka集群，详情请参见创建集群。背景信息 Kafka Indexing Service是Apache Druid推出的使用Apache ...

E-MapReduce数据迁移

本文介绍如何将E-MapReduce HDFS上的数据迁移到文件存储 HDFS 版文件系统。背景信息阿里云E-MapReduce是构建在阿里云云服务器ECS上的开源Hadoop、Spark、Hive、Flink生态大数据PaaS产品。提供用户在云上使用开源技术建设数据仓库、离线...

管理用户

本文为您介绍如何通过E-MapReduce（简称EMR）的用户管理功能，管理集群中的EMR用户。背景信息 EMR用户信息存储在集群自带的OpenLDAP中，主要用于E-MapReduce集群内的身份认证。EMR用户可以用于访问链接与端口，查看开源组件Web UI时的用户...

查看组件部署信息

在E-MapReduce集群中，不同版本的集群实例节点上会部署不同的服务角色。例如，HDFS中的NameNode会被部署在Master节点上。本文将为您介绍如何查看E-MapReduce集群中各节点上服务组件的部署信息。操作步骤进入集群服务页面。登录 E-...

Hive开发手册

本文介绍如何在E-MapReduce集群中开发Hive作业流程。在Hive中使用OSS 在Hive中读写OSS时，先创建一个external的表。CREATE EXTERNAL TABLE eusers(userid INT)LOCATION 'oss:/emr/users';使用示例 Hive作业流程示例如下：示例1 编写如下...

重启服务

本文为您介绍如何在E-MapReduce控制台重启服务。前提条件已创建集群，详情请参见创建集群。注意事项为确保服务重启过程中，尽量减少或不影响业务运行，可以通过滚动重启服务。对于有主备状态的实例，会先重启备实例，再重启主实例。滚动...

新功能发布记录

本文介绍阿里云E-MapReduce每次发布涉及的功能变更及对应的文档，帮助您了解E-MapReduce的发布动态。版本说明详情，请参见版本概述。E-MapReduce的重要功能发布详情请参见产品重大更新。2024年 2024年03月功能名称功能概述发布时间 ...

Workflow新功能发布记录

本文介绍阿里云E-MapReduce（简称EMR）Workflow每次发布涉及的功能变更及对应的文档，帮助您了解EMR Workflow的发布动态。2024年 2024年3月功能名称功能概述相关文档调度资源组扩缩容新增调度资源组扩缩容功能，您可以根据自己的业务...

Spark对接Kafka

本文介绍如何在E-MapReduce的Hadoop集群运行Spark Streaming作业，处理Kafka集群的数据。背景信息 E-MapReduce上的Hadoop集群和Kafka集群都是基于纯开源软件，相关编程使用方法可参见官方相应文档。Spark官方文档：streaming-kafka-...

Knox

本文介绍如何在E-MapReduce上配置Knox，以通过公网方式访问HDFS、YARN、Spark和Ganglia等Web UI页面。前提条件已创建E-MapReduce集群，详情请参见创建集群。准备工作设置安全组访问：获取您当前设备的公网访问IP地址。为了安全的访问...

使用说明

本文介绍如何在E-MapReduce上配置及访问Hue，通过使用Hue可以在浏览器端与Hadoop集群进行交互来分析处理数据。前提条件已设置安全组访问。重要设置安全组规则时要针对有限的IP范围。禁止在配置的时候对0.0.0.0/0开放规则。已打开8888端口...

使用E-MapReduce采集Kafka客户端Metrics数据

本文介绍如何通过E-MapReduce，从Kafka客户端采集Metrics数据，从而有效地进行性能监控。前提条件已创建Kafka集群，详情请参见创建集群。说明本文以EMR-3.21.3版本为例介绍。背景信息 Kafka提供了一套非常完善的Metrics数据，覆盖Broker...

创建Gateway集群

本文为您介绍如何在E-MapReduce中创建Gateway集群。前提条件已经在E-MapReduce中创建了Hadoop集群或Kafka集群，详情请参见创建集群。说明如果您在2022年12月19日17点（UTC+8）以后第一次创建EMR集群，则不能选择Hadoop、Kafka集群类型。...

新增服务

本文为您介绍如何在E-MapReduce控制台上新增服务。前提条件已创建集群，且集群状态为运行中。创建集群的具体操作，请参见创建集群。使用限制集群状态为运行中。集群内所有节点状态均为运行中，且无异常服务。仅以下集群场景支持新增服务...

Hive数据源

本文为您介绍如何在E-MapReduce的StarRocks集群上创建和查看Hive Catalog。前提条件已创建包含Hive服务的集群，例如DataLake或Custom集群，详情请见创建集群。已创建包含StarRocks服务的集群，例如OLAP或Custom集群，并成功连接到集群，...

使用OSS存储Checkpoint和Savepoint

本文通过示例为您介绍如何在E-MapReduce on ACK的Flink集群中配置OSS来存储Flink作业的Checkpoint和Savepoint。前提条件已在E-MapReduce on ACK控制台创建Flink集群，详情请参见快速入门。操作步骤 Flink on ACK使用的默认镜像已处理好...

Delta Lake数据源

本文为您介绍如何在E-MapReduce的StarRocks集群上创建和查看Delta Lake Catalog。前提条件已创建包含Delta Lake服务的集群，例如DataLake或Custom集群，详情请见创建集群。已创建包含StarRocks服务的集群，例如OLAP或Custom集群，并成功...

API概览

本文为您介绍阿里云E-MapReduce提供的集群、集群服务、弹性伸缩等的API接口及说明。集群 API 描述创建集群调用CreateClusterV2接口，创建一个E-MapReduce集群。说明如果您在2022年12月19日17点（UTC+8）以后第一次创建EMR集群，无法使用...

Hudi数据源

本文为您介绍如何在E-MapReduce的StarRocks集群上创建和查看Hudi Catalog。前提条件已创建包含Hudi服务的集群，例如DataLake或Custom集群，详情请见创建集群。已创建包含StarRocks服务的集群，例如OLAP或Custom集群，并成功连接到集群，...

MapReduce开发手册

本文以EMR-3.27.0集群为例，通过以下示例为您介绍如何在E-MapReduce集群中开发MR作业。在MapReduce中使用OSS 在MapReduce中读写OSS，需要配置如下参数。说明请确保在代码运行环境设置了环境变量ALIBABA_CLOUD_ACCESS_KEY_ID和ALIBABA_...

管理配置项

本文为您介绍如何在E-MapReduce控制台管理配置项。前提条件已创建集群，详情请参见创建集群。修改配置项进入服务的配置页面。登录 EMR on ECS。在顶部菜单栏处，根据实际情况选择地域和资源组。在EMR on ECS页面，单击目标集群操作列的...

Paimon数据源

本文为您介绍如何在E-MapReduce的StarRocks集群上创建和查看Paimon Catalog。前提条件已创建包含Paimon服务的集群，例如DataLake或Custom集群，详情请参见创建集群。已创建包含StarRocks服务的集群，例如OLAP或Custom集群，并成功连接到...

Hudi MetaStore使用说明

本文为您介绍如何使用E-MapReduce的Hudi MetaStore。背景信息 Hudi每次操作数据都会新增时间线（instant），查询时需要读取所有时间线元数据，以获得在该时间点上的有效分区或文件，其中Partition Listing和File Listing涉及大量IO操作，...

连接Impala

本文为您介绍如何在E-MapReduce（简称EMR）上使用命令行工具操作Impala。前提条件已创建集群，并且选择了Impala服务，详情请参见创建集群。impala-shell连接方式在连接Impala前，您可以执行 impala-shell-help 命令获取帮助。普通集群 ...

Iceberg数据源

本文为您介绍如何在E-MapReduce的StarRocks集群上创建和查看Iceberg Catalog。前提条件已创建包含Iceberg服务的集群，例如DataLake或Custom集群，详情请参见创建集群。已创建包含StarRocks服务的集群，例如OLAP或Custom集群，并成功连接到...

备份HBase集群

本文介绍如何备份E-MapReduce的HBase集群。前提条件已创建两个Hadoop集群，并添加HBase和Zookeeper服务，详情请参见创建集群。操作步骤通过SSH方式登录集群。详情请参见使用SSH连接主节点。创建Table并添加数据。打开HBase Shell。...

Hive访问云HBase数据

阿里云HBase需要借助外部Hive对多表进行关联分析，本文介绍如何使用E-MapReduce（简称EMR）上的Hive关联阿里云HBase的表。前提条件已创建DataLake集群。详细步骤，请参见创建集群。已创建与EMR在同一地域下且共用VPC的HBase实例。说明 ...

E-Mapreduce介绍

新品推荐