在调度中使用EMR Doctor任务采集功能

创建EMR集群时,已默认安装EMR Doctor环境并开通EMR Doctor任务信息采集用于健康度评估,但部分客户端参数配置可能导致任务采集失效。本文为您介绍如何在客户端追加采集参数以保证EMR Doctor任务采集正常工作。EMR Doctor配置 通常情况下,...

管理LDAP认证

登录EMR on ECS控制台。在顶部菜单栏处,根据实际情况选择地域 和资源组。单击目标集群操作列的 集群服务。添加EMR用户。单击 用户管理 页签。在 用户管理 页面,单击 添加用户。在 添加用户 对话框中,在 用户名 下拉列表中,选择已有的...

EMR-3.32.x版本说明

默认使用EMR集群内的HDFS作为底层的UnderFS,开箱即用。增强Alluxio OSS UnderFS,适配OSS多版本等新功能。适配Hadoop、Hive、Spark和Presto等引擎。HUDI 支持HUDI 0.6.0版本。Spark JindoTable支持打开或关闭数据采集功能。Hive 修复了...

监控

登录EMR on ECS控制台。在顶部菜单栏处,根据实际情况选择地域 和资源组。在 EMR on ECS 页面,单击目标集群操作列的 集群服务。在 集群服务 页面,单击上方的 集群监控。单击 指标监控 页签。查看Zookeeper服务和ClickHouse服务的监控数据...

Hive基础操作

进入Hive命令行 使用SSH方式登录集群,详情请参见 登录集群。执行以下命令,切换为hadoop用户。su-hadoop 执行以下命令,进入Hive命令行。hive 库操作 本文示例中的数据库以testdb为例介绍。创建库 create database if not exists testdb;...

Hive访问Delta Lake和Hudi数据

登录集群,详情请参见 登录集群。使用限制 EMR-3.36.0及后续版本和EMR-5.2.0及后续版本,支持Hive对Hudi进行读操作。Hive访问Delta Lake数据 执行以下命令,进入Spark命令行。spark-sql 在Spark中创建并查询表数据。执行以下命令,在...

简介

注意事项 EMR集群是否支持Spark Streaming SQL功能与Spark版本有关:EMR-3.x系列使用的Spark版本是2.x,从EMR-3.21.0版本开始支持Spark Streaming SQL。EMR-4.x系列和EMR-5.x系列使用的Spark版本是3.x,从EMR-5.8.0版本开始才支持Spark ...

YARN概述

优势 EMR集群中的YARN优势如下:高可用集群可以自动开启YARN HA部署。便捷的运维。例如,支持通过控制台的方式进行节点扩容,NodeMananger下线和滚动重启等操作。支持监控报警。可以对各项指标进行监控和智能报警。弹性伸缩支持优雅下线...

Hive概述

背景信息 E-MapReduce(简称EMR)版本中,Hadoop、Hive版本和EMR集群的配套情况,请参见 版本概述。Hive结构 名称 说明 HiveServer2 HiveQL查询服务器,可以配置为Thrift或者HTTP协议,接收来自JDBC客户端提交的SQL请求,支持多客户端并发...

退款说明

说明 释放ECS实例时,相当于对EMR集群降配。每释放一个ECS实例,将生成一笔降配退款订单。当ECS实例为空,即对EMR降配到0。降配时,将退还对应的EMR服务费用,规则如下:降配退款金额=在线退款金额*新老配置差价比例(多个订单会分别计算后...

Gateway实例说明

本文为您介绍如何在已有的EMR集群基础上创建Gateway集群和Gateway节点组。Gateway集群或Gateway节点组通常是一个独立的集群或节点组,由多台相同配置的Gateway实例组成,集群上会部署HDFS、YARN、Hive、Spark2、Spark3、JindoSDK、Flink、...

手动进行NameNode checkpoint

操作步骤 通过SSH方式连接集群,请参见 登录集群。执行以下命令,切换到hdfs用户。su hdfs 执行以下命令,进入safemode状态。hdfs dfsadmin-safemode enter 重要 NameNode checkpoint(saveNamespace)需要在safemode状态进行。一般在...

产品架构

注意 已经创建好的EMR集群不支持组件升级。EMR开源优化 EMR基于开源社区版本的组件,增强了其性能和功能,例如:Spark中增加了Spark Streaming SQL,性能较开源版本有大幅提升,详情请参见 简介。Delta Lake相较开源版本增加了ZOrder和Data...

什么是EMR on ACK

您需要将其大数据任务提交至EMR集群EMR on ACK 您需要先完成ACK集群的安装部署。当ACK集群准备就绪后,EMR将基于ACK的资源安装部署大数据服务组件,并在容器内运行。EMR on ACK优势 优势 描述 节省成本 您无需为大数据服务单独购买ACK...

SparkSQL UDF基础操作

通过SSH方式登录集群,详情请参见 登录集群。执行以下命令,上传JAR包到HDFS。hadoop fs-put/test/hiveudf-1.0-SNAPSHOT.jar/user/hive/warehouse/您可以通过 hadoop fs-ls/user/hive/warehouse/命令,查看是否上传成功。待返回信息如下所...

DLF-Auth

使用SSH方式登录到集群,详情请参见 登录集群。执行以下命令访问HiveServer2。beeline-u jdbc:hive2:/master-1-1:10000-n<user>-p说明和为 步骤二:添加RAM用户 中您设置的用户名和密码。查看已有数据表信息。例如,执行以下命令,查看test...

SmartData 3.0.x版本简介

SmartData组件是EMR Jindo...JindoTools工具集 改进Jindo DistCp工具的分发机制,针对EMR集群内使用场景和非EMR集群环境使用场景,分别使用不同的发行包。Jindo DistCp提供轻量版本(lite),主要适用于非标准环境,例如用户的IDC集群环境。

EMR Hive数据整库离线同步至MaxCompute

安全组:选择EMR集群的安全组,所选择的安全组需满足以下条件:在 安全组产品控制台 查看安全组,访问规则的入方向允许放行EMR集群端口(一般包括10000、9093、8020等端口)。安全组的授权对象网段包含上一步所选择的交换机网段。添加...

EMR Hive数据整库离线同步至MaxCompute

安全组:选择EMR集群的安全组,所选择的安全组需满足以下条件:在 安全组产品控制台 查看安全组,访问规则的入方向允许放行EMR集群端口(一般包括10000、9093、8020等端口)。安全组的授权对象网段包含上一步所选择的交换机网段。添加...

Spark

代码示例如下:%spark.pyspark sum=sc.range(1,10).sum()print("Sum="+str(sum))SparkR(%spark.r)如果您需要使用SparkR,那么请确保您的EMR集群里安装了R语言以及knitr包(需要在每个NodeManager节点上安装,因为数据开发中默认配置的是...

OSS/OSS-HDFS概述

在阿里云EMR集群中,已默认安装 JindoSDK,您可以通过JindoSDK直接访问。节省成本。使用OSS或OSS-HDFS存储数据可以有效节省成本,结合低频、归档和冷归档等方式,可以进一步优化冷数据的存储成本。可扩展性。OSS和OSS-HDFS具有更好的可扩展...

元数据管理常见问题

解决方法:登录集群的Master节点,在$HIVE_CONF_DIR/hivemetastore-site.xml 中,找到对应数据库的访问地址和用户名密码信息。javax.jdo.option.ConnectionUserName/对应数据库用户名;javax.jdo.option.ConnectionPassword/对应数据库访问...

HIVECLI

提交到Yarn执行 警告 该模式下,作业会被提交到EMR集群的YARN中执行,会直接影响EMR集群的文件、环境等,请谨慎操作。该开关默认打开。您还可以选择配置以下参数:调度队列:指定作业提交的YARN队列。任务执行容器内存(MB):指定作业执行...

YARN高安全特性使用指南

一种方案(推荐)是使用EMR控制台上的用户管理功能来添加账号,这种方式会将用户添加到EMR集群的OpenLDAP中,并通过每个节点的Nslcd服务映射该用户为Linux用户(集群必须安装OpenLDAP服务)。另外一种方案是对Linux账号进行手动管理,在每...

HMaster服务异常提示Cannot seek after EOF

影响范围 受影响的HBase版本为2.3.4,对应的EMR集群版本:EMR-5.6.0之前版本 EMR-4.8.0至EMR-4.10.0版本(均包含)解决方法 说明 替换前请备份好JAR文件。下载 hbase-server-2.3.4.jar,并替换HBase集群header节点上对应的JAR文件。JAR文件...

SHELL

提交到Yarn执行 警告 该模式下,作业会被提交到EMR集群的YARN中执行,会直接影响EMR集群的文件、环境等,请谨慎操作。该开关默认关闭。打开该开关,您还可以选择配置以下参数:调度队列:指定作业提交的YARN队列。任务执行容器内存(MB):...

EMR元数据迁移公告

阿里云EMR团队发现部分用户在EMR集群上,仍然使用本地MySQL和统一meta数据库(旧版功能)作为生产环境的Hive元数据存储。我们强烈建议您尽快迁移到数据湖构建DLF中,原因如下:本地MySQL是单机部署,无法保证服务高可用,容易造成服务中断...

集群缩容

调用ReleaseClusterHostGroup接口,进行EMR集群节点缩容。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求参数 名称 类型 是否必选 示例值 描述 Action...

配置Presto开启Ranger权限控制

hive.ranger.policy.hive-servicename emr-hive 上一步开启的Hive Service的名称,EMR集群中默认为emr-hive。hive.ranger.service.basic-auth-username admin Ranger UI的用户名。hive.ranger.service.basic-auth-password Admin1234 ...

通过JDBC方式连接Trino

EMR集群为EMR-3.38.0及以上版本或EMR-5.5.0及以上版本 String url="jdbc:trino:/<主节点名称>:9090/hive/default;Properties properties=new Properties();properties.setProperty("user","hadoop");Connection connection=DriverManager....

配置钉钉机器人接收Kubeflow报警

设置钉钉机器人报警后...通过SSH方式连接DataScience集群,详情请参见 登录集群。解压 dsdemo*.zip。修改 ml_on_ds 目录下的 config 文件。在 config 文件中新增 ACCESS_TOKEN 参数,参数值为上步骤中获取到的Webhook地址中的 access_token。

EMR Workflow商业化公告

资源数量 调度资源组 建议并发执行任务数上限 emr.w1.small 1 vCPU 2 GiB 2 任务提交至Yarn执行:16 任务不提交至Yarn执行:10 说明 任务提交至Yarn执行:配置工作流任务时开启 提交到Yarn执行 开关,所有的工作流任务将提交至EMR集群的...

数据服务集群

EMR HBase的HFile和表的元数据都存储到OSS-HDFS中,EMR HBase通过JindoData来访问存储在OSS-HDFS上的数据。Core节点除了部署HBase进程和JindoData进程外,还会部署HDFS进程用于存储HBase的WAL数据,Core节点不支持自由伸缩。Task节点上除了...

使用自定义ECS应用角色访问同账号云资源

集群创建成功后,通过SSH登录集群,详情请参见 登录集群。执行以下命令,验证授权是否成功。hdfs dfs-ls oss:/<yourBucketName>/说明 示例中的为您OSS Bucket的名称。没有该Bucket访问权限时,无法访问OSS路径。有该Bucket访问权限时,可以...

配置Ranger UserSync集成LDAP

登录EMR on ECS控制台。在顶部菜单栏处,根据实际情况选择地域 和资源组。单击目标集群操作列的 集群服务。Ranger Usersync开启LDAP。在 集群服务 页面,单击Ranger服务区域的 状态。在 组件列表 区域,单击 RangerUserSync 操作列的>...

Trino扩缩容

注意事项 目前EMR集群在扩容时,不能单独选择仅扩充某个组件,而是会使已安装的所有组件一起在新节点触发扩容与初始化操作。如果您的集群是Trino与Hadoop等组件混合部署的,在扩容之前需要谨慎考虑。扩容前准备 Trino在扩容时能够同步组件...

CreateCluster-创建集群

如果您在 2022 年 12 月 19 日 17 点(UTC+8)以后第一次创建 EMR 集群,不能选择 HADOOP、DATA_SCIENCE、PRESTO、ZOOKEEPER 集群类型。DATALAKE ReleaseVersion string 是 EMR 发行版。可通过 EMR 集群售卖页面查看 EMR 发行版。EMR-5.8.0...

Trino集群选型与内存配置建议

EMR集群中,默认情况下Trino的Coordinator会部署在Master节点上,Worker会部署在Core或Task节点上。目前Trino原生还不支持高可用,即无论是否购买高可用集群,Trino Coordinator均只会部署在一台Master节点上。尽管如此,一台Coordinator...

开启数据盘加密

登录EMR on ECS控制台。在顶部菜单栏处,根据实际情况选择地域和资源组。地域:创建的集群将会在对应的地域内,一旦创建不能修改。资源组:默认显示账号全部资源。单击上方的 创建集群。在创建集群的 基础配置 阶段,单击 高级设置 区域的 ...

计费项

本文为您介绍E-MapReduce的计费项和计费方式,以便您对支付的费用组成有所了解。计费说明 E-MapReduce的费用由...创建EMR集群后,如果您想使用Workflow进行工作流构建和任务调度,将会产生Worflow费用。Workflow相关费用详情请参见 产品计费。
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
开源大数据平台 E-MapReduce 云原生数据仓库AnalyticDB MySQL版 云数据库 Redis 版 云数据库专属集群 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用