产品概述

什么是E-MapReduce 开源大数据开发平台E-MapReduce(简称EMR),是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark,让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理...

概述

如果您在2022年2月21日21点前未使用过数据开发功能,推荐您通过EMR Workflow进行数据开发,详情请参见 什么是EMR Workflow。如果您在2022年2月21日21点前使用过数据开发功能,需要继续在EMR上使用数据开发功能,建议您尽快迁移到EMR ...

产品简介

开源大数据开发平台E-MapReduce(简称EMR)是运行在阿里云平台上的一种大数据处理系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark,让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云...

常见问题

ACK管控控制台中,“有状态”界面下的shuffleservice-worker容器组数量"3/1000"是什么含义?3/1000"表示当前ShuffleService-Worker的实例数量为3个,而集群的最大可扩展容量上限为1000个。如果还有类似的告警信息,可以直接忽略。0/18 ...

常见问题

Optimize执行时间很长是什么原因?为什么Optimize失败了?应该如何处理?执行了Optimize,为什么还有很多小文件?执行了Vacuum,为什么还有很多小文件?如果想删除最近产生的小文件(这些小文件已经被合并),应该如何处理?执行了Vacuum,...

新功能发布记录

2023-05-19 什么是EMR Workflow 2023年4月 功能名称 功能概述 发布时间 相关文档 版本升级 EMR-5.x系列:升级至EMR-5.11.1 EMR-3.x系列:升级至EMR-3.45.1 2023-04-03 EMR-5.11.x版本说明 EMR-3.45.x版本说明 湖仓一体新能力 EMR支持Spark...

授权信息

操作(Action)下表 开源大数据平台 E-MapReduce(EMR)定义的操作,这些操作可以在RAM权限策略语句的 Action 元素中使用,用来授予执行该操作的权限。下面对表中的具体项提供说明:操作:是指具体的权限点。API:是指操作对应的API接口...

EMR Studio概述

EMR Studio是E-MapReduce提供的开源大数据开发套件,包含Apache Zeppelin、Jupyter Notebook和Apache Airflow等开源组件。能够无缝关联EMR集群(EMR on ECS和EMR on ACK)的计算引擎提交任务,并提供了交互式开发、任务调度和任务监控等...

滚动窗口

什么是滚动窗口 滚动窗口(TUMBLING)将每个元素分配到一个指定大小的窗口中。通常滚动窗口有一个固定的大小,并且不会出现重叠。例如,如果指定了一个5分钟大小的滚动窗口,无限流的数据会根据时间划分成[0:00-0:05)、[0:05,0:10)和[0:10,...

滑动窗口

什么是滑动窗口 滑动窗口(HOPPING),也被称作Sliding Window。不同于滚动窗口,滑动窗口的窗口可以重叠。滑动窗口有windowDuration和slideDuration两个参数。windowDuration为窗口的大小,slideDuration为每次滑动的步长,两者关系如下:...

StarRocks概述

说明 本文部分内容来源于开源StarRocks的 什么是StarRocks。StarRocks特性 StarRocks的架构设计融合了MPP数据库,以及分布式系统的设计思想,其特性如下所示。架构精简 StarRocks内部通过MPP计算框架完成SQL的具体执行工作。MPP框架能够...

EMR旧版数据开发迁移公告

2022年2月21日21点起,E-MapReduce(简称EMR)数据开发功能停止更新,进入维护状态。如果您还在使用旧版控制台的数据开发功能,请尽快迁移至EMR Worflow。本文为您介绍数据开发模块迁移至EMR Workflow的流程。EMR Workflow是一个全托管的...

EMR Workflow公测说明

介绍EMR Workflow公测说明。公测时间说明 EMR Workflow公测已于2023年6月29日开启,预计于2024年01月10日结束。公测面向所有用户开放,您可以在 E-MapReduce控制台,选择 EMR ...什么是EMR Workflow EMR Workflow角色授权 工作流快速入门

内表数据源

本文为您介绍什么是内表数据源(Default Catalog),以及如何使用Default Catalog查询StarRocks内部数据。Default Catalog StarRocks 2.3及以上版本提供了Internal Catalog(内部数据目录),用于管理StarRocks的内部数据。每个StarRocks...

管理DAG

如果是开发环境或测试环境,建议您使用 方式二:在Airflow Web UI页面管理DAG。前提条件 已创建EMR Studio集群。创建集群详情,请参见 创建集群。已绑定计算集群。注意 绑定集群页签下,仅显示同一个VPC下的EMR集群。仅支持绑定Hadoop集群...

SparkSQL UDF基础操作

前提条件 已在Hive中创建了UDF,详情请参见 开发UDF。使用Hive UDF 使用文件传输工具,上传生成的JAR包至集群任意目录(本文以test目录为例)。上传JAR包至HDFS或OSS(本文以HDFS为例)。通过SSH方式登录集群,详情请参见 登录集群。执行...

EMR数据开发停止更新公告

2022年2月21日21点起,E-MapReduce(简称EMR)数据开发功能停止更新,进入维护状态,会影响创建项目、新建和运行作业、工作流、数据开发运维等功能。如果您还在使用数据开发功能,请尽快迁移到DataWorks构建数据开发平台。本文为您介绍数据...

EMR Notebook公测说明

本文为您介绍EMR Notebook公测说明。公测时间说明 EMR Notebook将于2024年03月29日逐步按地域开启公测,公测面向所有用户开放。您可以在 E-MapReduce控制台,选择 EMR ...什么是EMR Notebook EMR Notebook角色授权 快速使用EMR Notebook

安装HBase Java SDK

如果客户端是开源HBase 1.x版本,您可以在Maven项目的 pom.xml 文件中添加以下依赖来安装HBase Java SDK。groupId>...

EMR Serverless Milvus免费公测说明

介绍EMR Serverless Milvus的免费公测说明。公测说明 EMR Serverless Milvus已开启免费...什么是EMR Serverless Milvus 快速创建Milvus实例 联系我们 如果在使用EMR Serverless Milvus的过程中遇到任何疑问,可加入钉钉群 59530004993 咨询。

选型配置说明

StarRocks是开源MPP(Massively Parallel Processing)架构的OLAP分析引擎,支持亚秒级的数据查询和多表JOIN功能。ClickHouse、StarRocks、Zookeeper DataServing 数据服务场景,提供更灵活、可靠、高效的数据服务集群。提供HBase服务,...

EMR数据开发(旧版)停止全面支持公告

E-MapReduce(简称EMR)数据开发(旧版)已于2022年2月21日21点停止更新,进入维护状态,详情请参见 EMR数据开发停止更新公告。2023年9月30日0点起,EMR数据开发(旧版)功能将停止全面支持,不再支持用户答疑、问题解决、SLA保障赔付等...

配置监控告警

更多信息,请参见 什么是云监控。开启一键告警 您可以开启云监控的一键告警功能,快速自动建立Serverless StarRocks指定监控项的报警体系,以便及时获取关键监控指标的异常信息。重要 开启此功能后,会创建磁盘IO使用率、CPU空闲率和磁盘...

Catalog概述

本文为您介绍什么是Catalog(数据目录),以及如何使用Catalog管理和查询内外部数据。基本概念 内部数据:保存在StarRocks中的数据。外部数据:保存在外部数据源(例如Apache Hive、Apache Iceberg和Apache Hudi)中的数据。Catalog ...

自定义函数(UDF)

本文为您介绍自定义函数的开发和使用流程。背景信息 UDF分类如下表。UDF分类 描述 UDF(User Defined Scalar Function)自定义标量函数,通常称为UDF。其输入与输出是一对一的关系,即读入一行数据,写出一条输出值。UDTF(User Defined ...

使用StarRocks Console

说明 仅EMR-3.43.0~EMR-3.44.1版本(均包含),EMR-5.9.0~EMR-5.10.1版本(均包含)的集群支持该功能,如果您要使用StarRocks Manager的功能,可以使用EMR Serverless StarRocks,详情请参见 什么是EMR Serverless StarRocks。访问查询页面...

存储说明

背景信息 关于存储的类型、性能和相关的限制信息,请参见 什么是块存储。存储价格估算如下:本地盘实例存储为0.04 元/GB/月 OSS标准型存储为0.12 元/GB/月 OSS归档型存储为0.033 元/GB/月 OSS深度归档型存储为0.015 元/GB/月 高效云盘存储...

什么是EMR Serverless StarRocks

EMR Serverless StarRocks是开源StarRocks在阿里云上的全托管服务,您可以通过EMR Serverless StarRocks灵活的创建和管理StarRocks实例以及数据。StarRocks作为一款兼容MySQL协议的OLAP分析引擎,提供了极致的性能和丰富的OLAP场景模型,...

什么是图计算服务

图计算服务Graph Compute是阿里云自主研发的高性能分布式图计算产品,为开发者提供万亿级数据规模的一站式图技术服务。Graph Compute支持复杂图关系数据的存储、查询和计算,高效对接图算法与模型,在搜索推荐广告、实时风控、知识图谱、...

DataWorks V3.0

详情请参见 什么是实时数仓Hologres。图计算服务:图计算服务(Graph Compute,简称GCS)是新一代一站式图数据管理和分析平台,具有数据加载快、规模可扩展、查询延时低(毫秒级)、离线在线混合引擎和共享存储等优势。DataWorks V3.0全新...

快速使用EMR Workflow

EMR Workflow是一个全托管的工作流和任务调度服务,100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务,您可以通过可视化的操作界面轻松地管理工作流和任务,高效构建数据仓库,并为生产任务的稳定运行提供保障。本文以...

DataWorks on EMR快速入门

DataWorks支持基于E-MapReduce创建Hive、Spark SQL、Presto和MR等节点,实现任务工作流的配置和定时调度、元数据管理及数据质量监控告警等功能,为用户提供一站式数据湖开发和治理的环境。本文为您介绍如何在DataWorks上快速使用EMR集群。...

什么是EMR Notebook

EMR Notebook是一个Serverless化的交互式数据分析和探索平台,满足大数据和AI融合下的数据处理需求,为数据工程师、数据分析师和数据科学家提供了可视化的应用程序开发环境。通过EMR Notebook可以完成对SQL、Python、Markdown等多种语言...

概述

小程序扩展组件库是 基础组件库 的重要补充,是基于 小程序自定义组件规范 开发的一套开源 UI 组件库,供小程序开发者快速复用。安装 执行以下命令安装小程序扩展组件。npm i antd-mini-S 使用 在页面 JSON 文件中进行注册,如 tag 组件的...

什么是EMR Serverless Milvus

您还可以利用开源的Attu工具进行可视化操作,进一步促进应用的快速开发和部署。背景信息 Milvus是一款云原生开源向量检索引擎,基于Faiss、Annoy、HNSW等知名库构建,并进行了优化,实现了高可用、高性能、易扩展的特性,适于处理海量向量...

概述

SOFABoot 是基于 Spring Boot 的开发框架,用于快速、敏捷地开发 Spring 应用程序,特别适合构建微服务系统。SOFABoot 在 Spring Boot 的基础上提供了诸如 Readiness Check、类隔离、日志空间隔离等能力,以解决大规模团队开发云原生微服务...

迁移概述

其中,软件迁移支持迁移自研软件和开源软件:自研软件:指开发开发的或者基于开源软件增强开发的软件。具体操作,请参见 源码迁移。开源软件:指开发者从开源社区下载未做源码修改的软件或者所使用操作系统生态中默认携带的软件。更多...

EMR Workbench

阿里云EMR Workbench是一个综合性的大数据分析和开发环境,作为阿里云E-MapReduce的一部分,它...快速入门 EMR Notebook 快速使用EMR Notebook EMR Workflow 手动任务快速入门 工作流快速入门 相关文档 什么是EMR Notebook 什么是EMR Workflow

迁移场景

软件迁移主要包含以下两种场景:自研软件:指开发开发的或者基于开源软件增强开发的软件。自研软件使用的编程语言主要包含以下两类:编译型语言:以C++/Go为代表的编译型语言,这些语言会将源代码编译成架构相关的二进制文件,因此迁移后...

什么是EMR on ECS

与自建Hadoop集群对比 开源大数据开发平台EMR与自建Hadoop集群的优势对比如下表所示。对比项 阿里云EMR 自建Hadoop集群 成本 支持按量和包年包月付费方式,集群资源支持灵活调整,数据分层存储,资源使用率高。无额外软件License费用。需...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
大数据开发治理平台 DataWorks 微服务引擎 云数据库 RDS 检索分析服务 Elasticsearch版 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用