Hive统一元数据

使用统一的元数据库,如果您的所有数据都存放在OSS之上,则不需要做任何元数据的迁移和重建,所有集群都是可以直接访问数据,这样每个EMR集群可以做不同的业务,但是可以很方便地实现数据的共享。创建使用统一元数据的集群 支持以下两种...

SmartData常见问题

可以使用JindoFS缓存模式,通过预加载将OSS数据提前写入内存或者SSD缓存,然后训练引擎可以通过JindoFuse支持直接读取。基于MaxCompute数仓上的数据,JindoFS如何帮助机器学习训练?有如下两种方式:MaxCompute数仓作业将数据通过...

产品概述

什么是E-MapReduce 开源大数据开发平台E-MapReduce(简称EMR),是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark,让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理...

产品简介

EMR基于开源的Apache Hadoop和Apache Spark,让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云其他的云数据存储系统和数据库系统(例如,阿里云OSS和RDS等)进行数据传输。产品介绍 阿里云EMR...

什么是EMR Serverless Milvus

阿里云向量检索Milvus版是一款Serverless全托管服务,确保了与开源Milvus的完全兼容性,并支持无缝迁移。它在开源版本的基础上增强了可扩展性,能提供大规模AI向量数据的相似性检索服务。凭借其开箱即用的特性、灵活的扩展能力和全链路监控...

什么是图计算服务

Graph Compute 与其他开源图计算相比的优势 问题一:查询性能为什么能比开源好很多 图计算服务内核引擎iGraph在分区并发查询的基础上,通过自研的协程异步框架并发召回,将同步串行磁盘访问改造为异步并行,极大的提高了查询性能;...

相关的云服务

本文为您介绍典型场景下,使用开源大数据平台E-MapReduce时通常会使用到的其他云服务。云服务名称 说明 云服务器ECS 使用云服务器ECS(Elastic Compute Service)作为集群的节点,每个ECS实例集群中的一个节点。专有网络VPC 专有网络VPC...

什么是EMR on ACK

可以开源大数据服务部署在阿里云容器服务Kubernetes版(ACK)之上,利用ACK在服务部署和容器应用管理的优势,减少对底层集群资源的运维投入,以便于您可以更加专注大数据任务本身。形态对比 阿里云EMR提供on ECS和on ACK两种方式,以...

EMR on ACK商业化公告

可以开源大数据服务部署在阿里云容器服务Kubernetes版(ACK)之上,利用ACK在服务部署和容器应用管理的优势,减少对底层集群资源的运维投入,以便于您可以更加专注大数据任务本身。收费标准 阿里云EMR on ACK正式商业化后,将根据集群...

迁移场景

开源软件:开源软件指开发者从开源社区下载未源码修改的软件或者所使用操作系统生态中默认携带的软件。当前大部分开源软件在倚天ARM平台上已经提供较好的应用生态,您可以直接使用操作系统提供的开源生态软件来安装部署。更多信息,请...

开源RabbitMQ迁移上云

在使用开源RabbitMQ集群时,当您希望能够解决各种稳定性痛点(例如消息堆积、脑裂等问题)、实现高并发、分布式、灵活扩缩容时,您可以开源RabbitMQ集群迁移至 云消息队列 RabbitMQ 版,本文介绍迁移上云的前提条件、操作步骤、注意事项...

快速使用EMR on ACK

关于Spark的更多介绍,可以参见开源文档 Quick Start,选择适合您的语言和版本。提交作业的详细信息请参见:提交Spark作业 使用CLI提交Presto作业 提交Flink作业 通过kubectl连接Kubernetes集群,详情请参见 获取集群KubeConfig并通过...

功能特性

EMR on ECS 功能集 功能 功能描述 参考文档 集群管理 创建集群 您可以轻松构建和运行Hadoop、Spark、Hive、Presto等开源大数据框架,以进行大规模数据处理和分析等操作。创建集群 释放集群 在完成EMR集群任务后及时释放集群,可以释放资源...

产品优势

可以快速搭建开源大数据服务,例如Hadoop、Spark、Flink、Kafka和HBase服务。稳定可靠的开源组件 100%采用社区开源组件,随开源版本升级迭代,详情请参见 版本概述。适配开源组件,避免开源组件之间的版本兼容性问题。基于开源组件,优化...

StarRocks概述

说明 本文部分内容来源于开源StarRocks的 什么是StarRocks。StarRocks特性 StarRocks的架构设计融合了MPP数据库,以及分布式系统的设计思想,其特性如下所示。架构精简 StarRocks内部通过MPP计算框架完成SQL的具体执行工作。MPP框架能够...

EMR Studio概述

EMR Studio是E-MapReduce提供的开源大数据开发套件,包含Apache Zeppelin、Jupyter Notebook和Apache Airflow等开源组件。能够无缝关联EMR集群(EMR on ECS和EMR on ACK)的计算引擎提交任务,并提供了交互式开发、任务调度和任务监控等...

迁移方案

重要 对于DataStream作业来说,开源Flink和VVR的state是完全兼容的,但是对于SQL作业来说,VVR相比社区Flink,了大量的优化工作,不能保证state完全兼容。对于state不能兼容的作业,无法从开源Flink生成的Checkpoint中恢复。对于这部分...

什么是EMR on ECS

可以快速搭建开源大数据服务,例如Hadoop、Spark、Flink、Kafka和HBase服务。100%采用社区开源组件,适配并优化开源组件,性能远高于开源版本。基于时间的弹性伸缩能力,抢占式实例可进一步降低成本。解耦了计算与存储之间的绑定关系,...

访问链接与端口

通过访问链接与端口功能,您可以方便地通过控制台方式访问集群中已安装开源组件Web UI的地址。本文将介绍如何设置安全组规则和访问链接,以便查看集群中开源组件的UI界面。前提条件 已创建E-MapReduce集群,详情请参见 创建集群。背景信息 ...

EMR Workflow商业化公告

EMR Workflow介绍 EMR Workflow是一个全托管的工作流和任务调度服务,100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务,您可以通过可视化的操作界面轻松地管理工作流和任务,高效构建数据仓库,并为生产任务的稳定运行...

Superset(仅对存量用户开放)

可以使用Superset连接多个数据源自助分析并可视化、定义图表和看板、导入或导出看板,并且可以对用户和角色进行权限管理。本文以EMR-3.34.0版本的集群为例为您介绍如何使用Superset。背景信息 Superset对E-MapReduce Druid了深度集成,...

EMR Doctor概述

E-MapReduce Doctor(简称EMR Doctor)是E-MapReduce产品自研的面向开源大数据集群的智能运维诊断系统。通过EMR Doctor(即集群管理页面的“健康检查”功能)可以全局了解集群的健康状况和动态走势,为运维决策和资源优化提供有力的信息...

EMR旧版数据开发迁移公告

EMR Workflow是一个全托管的工作流和任务调度服务,100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务,您可以通过可视化的操作界面轻松地管理工作流和任务,高效构建数据仓库,并为生产任务的稳定运行提供保障。EMR ...

EMR数据开发停止更新公告

EMR Workflow是一个全托管的工作流和任务调度服务,100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务,您可以通过可视化的操作界面轻松地管理工作流和任务,高效构建数据仓库,并为生产任务的稳定运行提供保障。EMR ...

产品优势

兼容开源:云消息队列 Kafka 版 100%兼容开源Apache Kafka,您可以直接使用开源Apache Kafka客户端与 云消息队列 Kafka 版 通讯。云消息队列 Kafka 版 目前支持0.10.x~2.6.x的开源版本。无缝迁移:云消息队列 Kafka 版 基于现有的开源...

新功能发布记录

2024年 2024年03月 功能名称 功能概述 发布时间 相关文档 支持通过EMR控制台代理创建并管理OSS-HDFS Bucket 在EMR控制台创建集群时,支持代理创建OSS-HDFS Bucket,并可以在集群服务中查看对应Bucket的存储概览和文件列表,不再需要跳转到...

Iceberg概述

可以借助Iceberg快速地在HDFS或者阿里云OSS上构建自己的数据湖存储服务,并借助开源大数据生态的Spark、Flink、Hive和Presto等计算引擎来实现数据湖的分析。核心能力 Apache Iceberg设计初衷是为了解决Hive数仓上云的问题,经过多年迭代...

EMR Serverless StarRocks商业化发布

EMR Serverless StarRocks介绍 EMR Serverless StarRocks是开源StarRocks在阿里云上的全托管服务,您可以通过EMR Serverless StarRocks灵活的创建和管理StarRocks实例以及数据。StarRocks作为一款兼容MySQL协议的OLAP分析引擎,提供了极致...

管理日志

E-Mapreduce(简称EMR)开源组件运行过程中会产生大量的日志。日志管理功能将EMR与日志服务SLS相结合,允许您在EMR控制台直接查询开源组件的日志。前提条件 已在EMR控制台上创建集群,具体操作请参见 创建集群。已开通SLS服务,具体操作请...

E-MapReduce支持倚天云服务器

阿里云E-MapReduce(简称EMR)支持使用倚天云服务器构建开源大数据集群。与现有X86架构实例体验完全相同的情况下,具有更高的性价比,帮助您降低成本并提高效率。本文为您介绍倚天云服务器的特性、优势,以及在E-Mapreduce上倚天云服务器的...

数据湖集群

挂载公网 可以在创建集群的 硬件配置 页面的 实例 区域,选择是否为节点组开启公网。没有节点组类型的限制。仅支持在集群创建时选择是否开启公网,创建后如果您需要使用公网IP地址访问,请在ECS上申请开通公网IP地址,详情请参见 弹性公网...

Delta Lake概述

如果您存在以下场景,可以使用Delta:实时查询:数据实时从上游流入Delta,查询侧即可查询该数据,例如,在CDC场景下,Spark Streaming实时消费binlog时,使用Delta merge功能,实时将上游的数据通过merge更新到Delta Lake,然后可以使用...

EMR Spark功能增强

阿里云E-MapReduce产品构建于阿里云云服务器ECS上,基于开源的Apache Hadoop和Apache Spark,了大量优化。本文为您介绍E-MapReduce(简称EMR)Spark相对开源增强的功能。背景信息 阿里云EMR 100%采用社区开源组件,随开源版本升级迭代,...

开源自建对比

可以通过不同场景,对比 SAE 与开源自建产品在系统搭建、成本、功能管理、弹性效率和监控诊断等方面的优势。基础场景 对比项 开源自建SC/Dubbo+IaaS集群 开源自建SC/Dubbo+自建K8s集群 SAE IaaS购买和系统搭建 需要。需要。不需要。SAE ...

常见问题

如果确实要这么,有两种做法:关闭安全期检查:spark.databricks.delta.retentionDurationCheck.enabled=false,这个设置可以在启动spark任务时作为参数传入。修改全局的安全期为一个较小的值:例如在 spark-defaults.conf 中设置 spark....

Hadoop集群迁移至DataLake集群

您也可以选择先平滑迁移集群,即确保新旧平台集群采用相同的硬件规格设置,后续再根据实际运行过程中的资源利用率对新集群的硬件资源配置进行调整。方法一:查看集群监控 查看集群负载指标,重点关注YARN和HDFS的使用情况,详情请参见 查看...

Catalog概述

本文为您介绍什么是Catalog(数据目录),以及如何使用Catalog查询内外部数据。基本概念 内部数据:保存在StarRocks中的数据。外部数据:保存在外部数据源(例如,Apache Hive、Apache Iceberg和Apache Hudi)中的数据。Catalog StarRocks ...

基本概念

本文介绍开源大数据平台E-MapReduce使用过程中遇到的常用名词的基本概念和简要描述。集群 E-MapReduce产品中的一个独立的机器组合,为上层业务提供一些基础的引擎服务。一个E-MapReduce集群是由一个或多个阿里云ECS实例组成的。ECS实例 在E...

开源PostgreSQL性能对比

简介 相较于开源PostgreSQL 14,PolarDB for PostgreSQL 14在以下几方面进行了优化,提升了整体性能:采用了领先硬件技术,包括使用3DXpoint存储介质的Optane存储卡、NVMeSSD和RoCE RDMA网络等。基于新的硬件,实现了一整套在用户态运行的...

Celeborn

支持计算与存储分离架构,可以部署Shuffle Service至特殊硬件环境中,与计算集群分离。解决Spark on Kubernetes时对本地磁盘的依赖。Celeborn设计架构图如下。前提条件 已创建E-MapReduce的DataLake集群或自定义集群,并选择Celeborn服务。...
共有148条 < 1 2 3 4 ... 148 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云数据库 RDS 微服务引擎 检索分析服务 Elasticsearch版 弹性公网IP 短信服务 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用