管理日志

E-Mapreduce(简称EMR)开源组件运行过程中会产生大量的日志。日志管理功能将EMR与日志服务SLS相结合,允许您在EMR控制台直接查询开源组件的日志。前提条件 已在EMR控制台上创建集群,具体操作请参见 创建集群。已开通SLS服务,具体操作请...

技术支持的范围和方式

阿里云E-MapReduce(简称EMR)是云原生开源大数据平台,能够为用户提供简单易集成的开源大数据解决方案。EMR on ECS集群主要构建于ECS之上,集群资源归属于用户,EMR提供基于该资源的半托管云服务能力,用户对集群拥有完全的管理操作权限,...

使用CLI提交Presto作业

在 访问链接与端口 页面,获取Trino UI的链接。在本地执行以下命令,启动Trino。trino-server https://trino-cli.c-b95f82c36ee646c5.c1e36180fdf3745c9b7bbc8d3e682*.cn-hangzhou.alicontainer.com --user admin --password --insecure ...

Paimon概述

目前阿里云开源大数据平台E-MapReduce常见的计算引擎(例如Flink、Spark、Hive或Trino)都与Paimon有着较为完善的集成度。您可以借助Apache Paimon快速地在HDFS或者云端OSS上构建自己的数据湖存储服务,并接入上述计算引擎实现数据湖的分析...

配置Presto开启Ranger权限控制

权限配置 Ranger权限配置需要在Ranger UI页面完成,如何进入Ranger UI页面,详情请参见 访问Ranger UI。Ranger Presto权限需要单击HADOOP SQL下的 emr-hive 进行配置。Ranger Presto与Ranger Hive使用相同的Ranger Service(emr-hive)进行...

EMR Serverless StarRocks服务等级协议更新

开源大数据平台E-MapReduce Serverless服务等级协议》已于2024年02月02日修订,并将于2024年03月01日生效。当前服务等级协议详情,请在 服务等级协议 中查看。变更生效时间 2024年03年01日 变更范围 EMR Serverless StarRocks(标准版)...

EMR-4.8.x版本说明

即通过SSH Tunnel方式访问YARN Web UI时,需要在URL里显式指定user.name=name的问题。Tez 优化了默认配置。Ranger 修复Spark中Filter函数的下推问题。修复Ranger Disable Presto后,Presto无法启动的问题。支持一键开启或关闭LDAP功能。Hue...

常见问题

您可以通过以下步骤定位问题:在EMR控制台的 访问链接与端口 页面,单击YARN UI所在行的链接。单击Application ID。单击 Tracking URL 的链接。可以看到有多个作业处于等待状态。在左侧导航中,单击 Scheduler。即可进入队列,您可以看一下...

PySpark任务快速入门

步骤五:查看Spark UI 任务正常运行后,您可以在Spark UI上查看任务的运行情况。在左侧导航栏,单击 任务列表。单击 开发任务。在 开发任务 页面,单击目标任务操作列的 详情。在 任务总览 页签,单击Spark UI。将自动打开Spark UI页面,可...

EMR Spark功能增强

阿里云E-MapReduce产品构建于阿里云云服务器ECS上,基于开源的Apache Hadoop和Apache Spark,做了大量优化。本文为您介绍E-MapReduce(简称EMR)Spark相对开源增强的功能。背景信息 阿里云EMR 100%采用社区开源组件,随开源版本升级迭代,...

Workflow商业化发布

EMR Workflow是一个全托管的工作流和任务调度服务,100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务,您可以通过可视化的操作界面轻松地管理工作流和任务,高效构建数据仓库,并为生产任务的稳定运行提供保障。产品文档 ...

概述

例如,您可以通过定义窗口来收集过去1分钟内某网站的用户点击量,并对这个窗口内的数据进行计算。Spark SQL流式处理支持两类窗口:滚动窗口(TUMBLING)滑动窗口(HOPPING)时间属性 Spark SQL支持Event Time时间属性,对数据进行窗口内...

Hive数据脱敏

在Ranger UI配置页面的 emr-hive 页签,您可以对Hive数据进行脱敏处理:支持多种脱敏处理方式。例如,显示开始的4个字符、显示最后的4个字符或Hash处理等。配置Mask Policy时不支持通配符。例如Policy中Table或Column不能配置星号(*)。每...

管理LDAP认证

注意 开启LDAP后第一次登录Hue Web UI的用户将成为管理员用户。关闭LDAP认证 进入Hue页面。登录 阿里云E-MapReduce控制台。在顶部菜单栏处,根据实际情况选择地域 和资源组。单击上方的 集群管理 页签。在 集群管理 页面,单击相应集群所在...

什么是EMR Serverless Spark

高性能 基于Fusion Engine(Spark Native Engine),性能体验最高可达开源Spark的2倍。高扩展性 基于阿里云Serverless底座,提供资源弹性能力,满足ETL作业突发高峰的同时,进一步降低实际计算资源成本。高扩展性 提供资源和任务实例级别的可...

Security Zone功能

访问Ranger WebUI,详情请参见 访问Ranger UI。在Ranger WebUI页面上方,选择 Settings>Users/Groups/Roles。在 Users 页签,单击 Add New User。在 User Detail 页面,填写用户信息,设置 Select Role 为 User,单击 Save。注意 Select ...

在Hue WebUI使用文件浏览器

当您需要使用图形化界面管理HDFS中的文件时,可以通过Hue实现。本文以EMR-4.9.0版本为例,为您介绍如何通过Hue查看和操作HDFS中的文件和文件夹。前提条件 已设置安全组访问。重要 设置安全组规则时要针对有限的IP范围。...

配置Trino开启Ranger权限控制

权限配置 基础介绍 Ranger权限配置需要在Ranger UI页面完成,进入Ranger UI页面,详情请参见 Ranger概述。Ranger Trino权限需要单击TRINO下的 emr-trino 进行配置,如下图所示。进入 emr-trino 后,您能看到所有配置的权限列表。Trino开启...

配置Impala开启Ranger权限控制

权限配置 Ranger权限配置需要在Ranger UI页面完成,如何进入Ranger UI页面,详情请参见 访问Ranger UI。Ranger Impala权限需要单击HADOOP SQL下的 emr-hive 进行配置。Ranger Impala与Ranger Hive使用相同的Ranger Service(emr-hive)进行...

使用kubectl管理作业

spark-pi-simple-ui-svc Execution Attempts:1 Executor State:spark-pi-1626935142670-exec-1:RUNNING Last Submission Attempt Time:2021-07-22T06:25:33Z Spark Application Id:spark-15b44f956ecc40b1ae59a27ca18d*Submission Attempts...

修复单台JournalNode异常

您可以通过HDFS WebUI查看JournalNode的状态,详细信息请参见 HDFS Web UI介绍。登录到健康的JournalNode所在节点(优先选择header或master节点),打包需要恢复的文件。登录节点的具体操作,请参见 登录集群。切换到hdfs用户。su hdfs ...

Delta Lake概述

开源Delta Lake对比 EMR-Delta Lake丰富了开源Delta Lake的特性,例如对SQL和Optimize的支持等。下表列出了Delta Lake的基本特性,并对比EMR-Delta Lake与开源Delta Lake(0.6.1)。特性 EMR-Delta 开源Delta SQL ALTER CONVERT CREATE ...

什么是EMR on ACK

您可以将开源大数据服务部署在阿里云容器服务Kubernetes版(ACK)之上,利用ACK在服务部署和容器应用管理的优势,减少对底层集群资源的运维投入,以便于您可以更加专注大数据任务本身。形态对比 阿里云EMR提供on ECS和on ACK两种方式,以...

概述

JindoSDK:为EMR各种开源计算引擎提供统一的SDK,支持Java、C、C++和Python语言,提供多种访问和API接口,包括HCFS文件系统接口、POSIX接口和Table表格接口。工具集:提供相关的工具集,例如Jindo tool和迁移工具Jindo DistCp。各种...

Hadoop DistCp介绍

Hadoop DistCp和Jindo DistCp的区别 DistCp类型 功能 使用场景 Hadoop DistCp 开源Hadoop内置的DistCp工具,用于大型集群间或集群内数据的复制。HDFS到HDFS间的数据复制。Jindo DistCp JindoFS的数据迁移工具,支持OSS、OSS-HDFS服务、兼容...

配置HDFS开启Ranger权限控制

进入Ranger UI页面,详情请参见 访问Ranger UI。在Ranger UI页面,单击配置好的 emr-hdfs。单击右上角的 Add New Policy。根据您的实际需求配置相关参数。参数 描述 Policy Name 策略名称,可以自定义。Resource Path 资源路径。例如,/...

EMR-3.33.x版本说明

修复Spark UI中查看Executors页面的问题。修复Oozie的Job状态页面的问题。Hue 支持Presto。Druid 升级至0.20.0版本。EMRHook 新增软件服务。hive-hook:支持Hive元数据和作业运行信息输出至DataWorks。spark-hook:支持Spark元数据和作业...

实例类型

当您需要查看集群上服务的运行情况时,您可以通过软件的Web UI来查看。当您需要快速测试或者运行作业时,您可以登录主实例节点,然后通过命令行直接提交作业。登录主节点的具体步骤请参见 登录集群。核心实例节点(Core)核心实例节点是被...

配置Spark开启Ranger权限控制

权限配置 Ranger权限配置需要在Ranger UI页面完成,如何进入Ranger UI页面,详情请参见 访问Ranger UI。Ranger Spark权限需要单击HADOOP SQL下的 emr-hive 进行配置。Ranger Spark与Ranger Hive使用相同的Ranger Service(emr-hive)进行...

EMR-3.27.x版本说明

Knox 适配Druid UI。支持多Master部署。Hive hcatalog表支持magic committer。移除一些过时的默认配置。Bigboot 升级至2.6.3版本。支持多Master部署。SmartData 升级至2.6.3版本。支持多Master部署。Ranger 支持Solr组件。支持PrestoSQL ...

EMR-3.34.x版本说明

YARN 修复了Hadoop未授权访问Web UI时的高危风险问题。即通过SSH Tunnel方式访问YARN WebUI时,需要在URL里显式指定user.name=name的问题。Zookeeper 升级至3.6.2版本。Flink 初始化时更新 config.sh 文件,修复HADOOP_CLASSPATH的问题。...

配置Kafka开启Ranger权限控制

进入Ranger UI页面,详情请参见 访问链接与端口。在Ranger UI页面,单击配置好的 emr-kafka。在Ranger启用Kafka时会自动添加一个名称为emr-kafka的Kafka Service。默认状态下,Kafka Service服务信息如下,您可以根据实际情况配置策略。...

开启ORC查询加速

登录Spark History Server UI页面。在Spark的SQL页面,查看执行任务。当出现JindoDataSourceV2Scan时,表示开启成功。否则,请排查 步骤1 中的操作。提升Presto性能 因为Presto已经内置JindoTable ORC加速的 catalog:hive-acc,所以您可以...

开启ORC查询加速

登录Spark History Server UI页面。在Spark的SQL页面,查看执行任务。当出现JindoDataSourceV2Scan时,表示开启成功。否则,请排查 步骤1 中的操作。提升Presto性能 因为Presto已经内置JindoTable ORC加速的 catalog:hive-acc,所以您可以...

JVM内存调优

您可以通过访问HDFS UI页面,查看文件数Files和文件块数Blocks,访问Web UI的详情信息,请参见 访问链接与端口。您可以根据以下计算方法调整NameNode JVM内存大小。建议值=(文件数(以百万为单位)+块数(以百万为单位))×512 MB 例如,您...

基本概念

本文介绍开源大数据平台E-MapReduce使用过程中遇到的常用名词的基本概念和简要描述。集群 E-MapReduce产品中的一个独立的机器组合,为上层业务提供一些基础的引擎服务。一个E-MapReduce集群是由一个或多个阿里云ECS实例组成的。ECS实例 在E...

EMR Hive功能增强

本文为您介绍E-MapReduce(简称EMR)各版本对应的Hive组件版本,以及各版本中Hive相对开源增强的功能。Hive针对开源功能增强的功能如下表。EMR版本 组件版本 功能增强 EMR-5.2.1 Hive 3.1.2 修复使用DLF元数据执行 show create table 命令...

创建工作空间

工作空间类型说明 对比项 基础版 专业版 主要特点 100%兼容开源Spark。支持阿里云Fusion Engine(Spark Native Engine)。100%兼容开源Spark。支持阿里云Fusion Engine(Spark Native Engine)。内置Celeborn来增强Spark在计算过程中的...

访问Web UI

Databricks数据洞察集群提供了多个Web UI的访问入口,包括Notebook、Spark UI、Yarn UI和Ganglia监控。增加安全组白名单 为了用户的数据安全,DDI提供了安全组白名单机制来访问集群Web UI。默认不添加白名单是不能进行访问的,具体添加入口...

EMR on ACK商业化公告

您可以将开源大数据服务部署在阿里云容器服务Kubernetes版(ACK)之上,利用ACK在服务部署和容器应用管理的优势,减少对底层集群资源的运维投入,以便于您可以更加专注大数据任务本身。收费标准 阿里云EMR on ACK正式商业化后,将根据集群...
共有133条 < 1 2 3 4 ... 133 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
开源大数据平台 E-MapReduce 云数据库 RDS 微服务引擎 检索分析服务 Elasticsearch版 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用