创建Data Science集群

操作步骤 登录 EMR on ACK。在 EMR on ACK 页面,单击 创建集群。配置集群信息。参数 描述 地域 创建的集群会在对应的地域内,一旦创建不能修改。集群类型 Data Science:主要面向大数据+AI场景,提供Hive和Spark离线大数据ETL和TensorFlow...

管理网络配置

参数 说明 专有网络 选择用于工作空间机器与待绑定的EMR集群、待添加数据库连通专有网络,需与后续添加使用的EMR集群、数据库专有网络保持一致。交换机 选择用于工作空间机器与待绑定的EMR集群、待添加数据库连通的交换机,仅支持选择特定...

创建StarRocks集群

登录EMR on ECS控制台。可选:在顶部菜单栏处,根据实际情况选择地域和资源组。地域:创建的集群将会在对应的地域内,一旦创建不能修改。资源组:默认显示账号全部资源。单击上方的 创建集群,进行创建。配置集群信息。创建集群时,您需要...

创建DataFlow Kafka集群

登录EMR on ECS控制台。可选:在顶部菜单栏处,根据实际情况选择地域和资源组。地域:创建的集群将会在对应的地域内,一旦创建不能修改。资源组:默认显示账号全部资源。单击上方的 创建集群,进行创建。配置集群信息。创建集群时,您需要...

查询标签列表

调用ListTagResources,查询一个或多个EMR集群已经绑定的标签列表。调用该接口时注意以下信息:请求中至少指定一个参数:ResourceId.N、Tag.N(Tag.N.Key与Tag.N.Value),以确定查询对象。同时指定Tag.N和ResourceId.N时,返回结果中仅...

OpenLDAP

OpenLDAP是LDAP协议(Lightweight Directory Access Protocol)的开源实现,在EMR集群中主要提供用户管理和身份认证的功能。服务集成OpenLDAP 在EMR集群中,Knox服务默认与OpenLDAP服务对接。当您通过EMR控制台的 访问链接与端口 功能访问...

管理缓存

Alluxio利用E-MapReduce(简称EMR集群的本地节点的内存和磁盘对数据进行分布式缓存。本文为您介绍缓存相关的内容。前提条件 已创建集群,并选择了Alluxio服务,详情请参见 创建集群。已登录集群,详情请参见 登录集群。背景信息 EMR默认...

ECS应用角色(EMR 3.32之后版本和EMR 4.5之后版本)

EMR 3.32之后版本和EMR 4.5之后版本,将Metaservice服务替换为ECS应用角色,在EMR集群创建和扩容时自动分配给EMR集群中的每个ECS实例。在EMR集群之上运行的应用程序通过该角色来获得与其他云服务交互的权限,实现以免AccessKey的方式访问...

DataWorks On EMR使用说明

EMR集群类型 EMR集群说明 DataWorks使用说明 DataLake集群(新版数据湖):EMR on ECS 集群版本必须大于等于3.41.0或5.7.0。您需要将集群注册至DataWorks,后续才可以在DataWorks上使用EMR集群。Custom集群(自定义集群):EMR on ECS 集群...

EMR Notebook公测说明

重要 公测期间您可以免费试用EMR Notebook服务,但EMR Notebook工作流运行时需要关联EMR集群、添加EMR集群下的数据源,创建或使用已有的EMR集群会产生EMR和ECS等费用,详情请参见 计费项。公测限制 公测期间,有以下限制:指定地域如果创建...

创建Doris集群

登录 EMR on ECS。可选:在顶部菜单栏处,根据实际情况选择地域和资源组。地域:创建的集群将会在对应的地域内,一旦创建不能修改。资源组:默认显示账号全部资源。单击上方的 创建集群。配置集群信息。创建集群时,您需要对集群进行软件...

切换为Hadoop原生的JobCommitter

E-MapReduce(简称EMR集群默认使用JindoCommitter加速大数据作业,解决OSS等对象存储在Spark、MapReduce等作业使用原生Hadoop JobCommitter时遇到的性能和一致性等问题。如果您不想使用默认的JindoCommitter,则可以参照本文切换为Hadoop...

创建ClickHouse集群

登录 EMR on ECS。可选:在顶部菜单栏处,根据实际情况选择地域和资源组。地域:创建的集群将会在对应的地域内,一旦创建不能修改。资源组:默认显示账号全部资源。单击上方的 创建集群,进行创建。配置集群信息。创建集群时,您需要对集群...

解绑标签

调用UntagResources接口,为指定的EMR集群列统一解绑标签。解绑后,如果该标签没有绑定其他任何资源,会被自动删除。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK...

使用限制

转化非HA集群为HA集群 EMR集群暂不支持非HA集群转为HA集群,建议您重新购买HA集群。在EMR上部署第三方软件或服务 建议您在集群创建时通过引导操作安装第三方软件或服务。如果集群创建后手工安装第三方软件或服务,在扩容时,新扩容节点需...

访问OSS/OSS-HDFS时AccessKey相关的常见问题

EMR集群内如何免密访问OSS/OSS-HDFS?如何检查EMR集群内免密服务是否可用?HiveServer2、Presto每5~6小时访问OSS/OSS-HDFS失败 访问OSS/OSS-HDFS路径中包含AccessKey信息报错 EMR集群内如何免密访问OSS/OSS-HDFS?JindoSDK会使用创建集群时...

为Spark集群设置元数据

背景信息 因为数据湖元数据DLF具有高可用和易维护的特点,所以以下场景适合使用数据湖元数据:当您的EMR集群均为生产环境时,您无需维护独立的元数据库。横向使用多种大数据计算引擎时,元数据可以集中管理。例如,MaxCompute、Hologres和 ...

安装第三方插件

说明 本文以EMR集群为例介绍,非EMR集群请您根据实际情况修改 flume-env.sh 中 FLUME_CLASSPATH 的参数值。方式二:上传第三方的JAR包至$FLUME_HOME/lib/目录下。说明 本文示例中的$FLUME_HOME 表示Flume的安装路径,配置第三方插件时,请...

DataWorks on EMR权限管控说明

在DataWorks上运行EMR任务时,对于EMR侧及DataWorks侧的权限说明请参见 EMR集群侧、DataWorks侧。使用限制 DataWorks目前仅支持使用LDAP账号或系统账号两种方式进行工作空间成员到EMR集群账号的映射。绑定在DataWorks作为引擎实例的集群在...

快捷模式与安全模式差异比对

使用该模式绑定EMR引擎时,阿里云主账号或RAM用户在DataWorks运行代码或自动调度任务,都只是下发代码至EMR集群,实际运行的身份为集群内的Hadoop用户。无法做到细粒度的权限控制。说明 Hadoop用户拥有Hadoop集群的所有权限,请谨慎授权。...

基础使用

连接Zookeeper 使用SSH登录集群,详情请参见 登录集群。执行以下命令,使用命令行工具 zkCli.sh 连接ZooKeeper。zkCli.sh-server master-1-1:2181 连接成功后,即可输入 help 显示所有命令。相关文档 关于ZooKeeper的更多介绍,请参见 ...

应用场景

EMR集群中,利用Hive和Spark对原始数据进行清洗和加工,提取业务所需的指标,例如日活跃用户、用户留存、某SKU的新增订单等。白天可以通过弹性伸缩机制,只保留部分节点。同时,可以启动一个包含Trino或Presto的环境,以满足白天数据分析...

EMR Workflow公测说明

重要 公测期间您可以免费试用EMR Workflow服务,但EMR Workflow工作流运行时需要关联EMR集群,创建或使用已有的EMR集群会产生EMR和ECS等费用,详情请参见 计费项。公测限制 公测期间,有以下限制:免费提供1CU调度资源,建议并发执行任务数...

实现开发生产等多套环境隔离

EMR集群的环境隔离 分别设置2个EMR集群中各个引擎的catalog信息,保证EMR开发环境的集群引擎使用上述创建的开发环境的数据目录(dev catalog),生产环境集群引擎使用的是生产环境的数据目录(prod catalog)。以Hive引擎为例,用于开发...

Hive元数据说明

EMR集群访问DLF元数据 非EMR集群(本地测试环境或者其它云服务)访问DLF元数据,需要集成DLF Client SDK,具体操作请参见 阿里云数据湖构建(DLF)。说明 访问DLF和访问MySQL一样,需要提供访问地址、用户名和密码。DLF中的访问地址称为...

什么是EMR Notebook

它支持EMR多种类型的集群,无需复杂配置,即可实现与EMR集群服务的连通,开箱即用。协同开发 支持团队内多用户同时访问EMR Notebook,每个用户的Notebook开发环境是独立的,互不影响,实现高效协作。兼容开源 EMR Notebook兼容开源Jupyter ...

开启权限认证

使用示例 使用SSH方式登录集群,详情请参见 登录集群。执行以下命令,切换为已创建的emrtest用户。su emrtest 执行以下命令,使用emrtest用户创建目录。hadoop fs-mkdir/tmp/emrtest 执行以下命令,查看创建的目录的权限。hadoop fs-ls/tmp...

创建并绑定标签

调用TagResources接口,为指定的EMR集群列表统一创建并绑定标签。调用该接口时使用限制如下:最多可以给集群绑定二十个标签。为EMR集群绑定的标签会同步到节点的ECS实例上。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名...

EMR集群不支持跨区域访问OSS问题

本文介绍EMR集群不支持跨区域访问OSS问题的原因及解决方案。访问OSS出现 Fail to wait EPOLLOUT 报错详情:[emr-user@core-1-1~]$hadoopfs-lsoss:/jindo-oss-runjob-cn-hangzhou.oss-cn-hangzhou.aliyuncs.com/ 2022-11-2817:12:19,926...

使用Hive在EMR集群中创建OSS表

本文介绍如何使用Hive在EMR集群中创建OSS表。背景信息 在EMR集群中各引擎通常使用集群角色访问其他产品的数据以及服务,例如OSS Bucket数据。在访问之前确定集群角色是否有权限访问对应的产品,即如果集群角色具备相应产品的RAM访问权限,...

HDFS的部署拓扑

ZooKeeper EMR集群内的ZooKeeper。ZKFC基于ZooKeeper提供的能力实现选举,同时其他组件的HA也会依赖ZooKeeper。master-1-2(部分版本为emr-header-2)ZKFailoverController(ZKFC)独立的进程运行,根据NameNode的状态进行主备选举和切换。...

什么是EMR on ECS

EMR on ECS将EMR的大数据处理功能与ECS的容器化部署优势相结合,使得您可以更加灵活地配置和管理EMR集群,从而更好地适应复杂的数据处理和分析场景。通过EMR on ECS,您可以快速创建、管理和运维EMR集群,同时也能够更加高效地使用计算和...

使用独立的Trino集群

登录EMR on ECS控制台。在顶部菜单栏处,根据实际情况选择地域 和资源组。在 EMR on ECS 页面,单击目标集群操作列的 集群服务。在 集群服务 页面,单击Trino服务区域的 配置。修改配置项。在 配置 页面,单击 hive.properties 页签。修改 ...

通过模版创建集群

ClusterName String 否 hadoop_cluster_name_1 使用模板创建的EMR集群名称。ResourceGroupId String 否 rg-bp67acfmxazb4p*EMR集群归属资源组ID。返回数据 名称 类型 示例值 描述 ClusterId String C-D7958B72E59B*集群ID。CoreOrderId ...

EMR Doctor概述

作为EMR集群的运维人员,通常需要关注以下内容:集群的整体稳定性,包含关键服务组件的状态监控和异常处理。例如YARN、HDFS、Hive和Spark等。集群的整体有效性,例如集群的负载、集群的内存和CPU有效利用率等。集群用户的SLA,能够保证关键...

按量计费

您在10:59:30在包年包月的EMR集群中,创建了按量付费Task节点组扩容了1台机器,然后在11:50:30缩容,则:第一个结算周期为10:00:00~11:00:00,在10:59:30~11:00:00间产生计费,该结算周期内的计费时长为30秒。第二个结算周期为11:00:00~...

Presto

背景信息 EMR数据开发的Zeppelin在以下两方面做了增强:在多个EMR集群中动态切换。无需配置,所有配置都是自动完成。Zeppelin的Presto解释器提供以下主要功能:支持任何Presto SQL语句(包括DDL和DML等)。支持多行SQL,每条SQL语句以分号;...

API概览

说明 如果您在2022年12月19日17点(UTC+8)以后第一次创建EMR集群,无法使用该接口创建集群,请使用 CreateCluster-创建集群。修改集群名称 调用ModifyClusterName接口,修改集群名称。查询集群基本信息 调用DescribeClusterV2接口,查询...

Hive

背景信息 EMR数据开发的Zeppelin在以下两方面做了增强:在多个EMR集群中动态切换。您无需配置,所有配置都是自动完成。Zeppelin的Hive解释器提供以下主要功能:支持任何Hive SQL语句(包括DDL和DML等)。Hive解释器与Beeline支持的语言及...

SQOOP

提交到Yarn执行 警告 该模式下,作业会被提交到EMR集群的YARN中执行,会直接影响EMR集群的文件、环境等,请谨慎操作。该开关默认打开。您还可以选择配置以下参数:调度队列:指定作业提交的YARN队列。任务执行容器内存(MB):指定作业执行...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云原生数据仓库AnalyticDB MySQL版 开源大数据平台 E-MapReduce 云数据库专属集群 云数据库 Redis 版 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用