Hive元数据说明

数据湖构建具有高可用、免运维和高性能等优点,兼容Hive Metastore,无缝对接EMR上开源计算引擎,并支持元数据多版本管理和Data Profile功能。另外,DLF还支持数据探索、湖管理和数据权限控制等功能,并与阿里云其他计算产品(例如...

基础使用

写数据 环境配置 EMR-3.32.0以及后续版本中,已经将Hudi相关依赖集成到各个开源组件中,包括Spark、Hive和Presto,因此运行时不需要引入额外的Hudi依赖,只需要在pom文件中添加Hudi依赖即可。不同的EMR版本使用的Hudi版本不同,详细信息请...

什么是EMR on ACK

您可以将开源大数据服务部署在阿里云容器服务Kubernetes版(ACK)之上,利用ACK在服务部署和容器应用管理的优势,减少对底层集群资源的运维投入,以便于您可以更加专注大数据任务本身。形态对比 阿里云EMR提供on ECS和on ACK两种方式,以...

Delta Lake概述

开源Delta Lake对比 EMR-Delta Lake丰富了开源Delta Lake的特性,例如对SQL和Optimize的支持等。下表列出了Delta Lake的基本特性,并对比EMR-Delta Lake与开源Delta Lake(0.6.1)。特性 EMR-Delta 开源Delta SQL ALTER CONVERT CREATE ...

内核发布记录

有关社区功能更新的详细信息,请参见 StarRocks version 3.1。版本号 发布时间 说明 3.1.7-1.34 2024年03月08日 支持读取MaxCompute内表数据进行分析。支持数据湖分析版本(配合EMR Serverless StarRocks控制台优化)。优化Jindo内存使用...

JindoFS块存储模式

应用场景 E-MapReduce目前提供了三种大数据存储系统,E-MapReduce OssFileSystem、E-MapReduce HDFS和E-MapReduce JindoFS,其中OssFileSystem和JindoFS都是云上存储的解决方案,下表为这三种存储系统和开源OSS各自的特点。特点 开源OSS E-...

计费项

例如,测试阶段可以创建按量付费的实例,完可以立即删除,节省费用。重要 实例中即使没有任务运行,计算资源也会每小时进行一次计费。相关产品计费说明 在EMR Serverless StarRocks购买和使用过程中还涉负载均衡产品的费用,收费详情请...

迁移元数据上云

迁移元数据上云是指将开源RabbitMQ集群的元数据导出,并将其导入到阿里云 云消息队列 RabbitMQ 版 实例。云消息队列 RabbitMQ 版 会根据成功导入的元数据在目标 云消息队列 RabbitMQ 版 实例中创建对应的Vhost、Queue、Exchange、Binding,...

Iceberg概述

您可以借助Iceberg快速地在HDFS或者阿里云OSS上构建自己的数据湖存储服务,并借助开源大数据生态的Spark、Flink、Hive和Presto等计算引擎来实现数据湖的分析。核心能力 Apache Iceberg设计初衷是为了解决Hive数仓上云的问题,经过多年迭代...

性能测试

本文介绍Ganos时空服务与开源GeoMesa(HBase)、云数据库MongoDB分片集群在处理时空轨迹数据时的性能测试对比。测试环境 本次性能测试中需要准备以下测试数据库,具体配置如下表:数据库 配置说明 云原生多模数据库 Lindorm Ganos引擎(即...

概述

JindoSDK:为EMR各种开源计算引擎提供统一的SDK,支持Java、C、C++和Python语言,提供多种访问和API接口,包括HCFS文件系统接口、POSIX接口和Table表格接口。工具集:提供相关的工具集,例如Jindo tool和迁移工具Jindo DistCp。各种...

添加开源Elastic Search数据源

前提条件 已准备好待添加的开源Elastic Search数据源。添加开源Elastic Search数据源 登录 DataV控制台。在 我的数据 页签中选择 数据源管理,单击 添加数据。从 类型 列表中,选择 开源Elastic Search。填写开源Elastic Search数据服务...

添加开源Elastic Search数据源

前提条件 已准备好待添加的开源Elastic Search数据源。添加开源Elastic Search数据源 登录 DataV控制台。在 工作台 页面,单击 数据准备>数据源,进入 数据源 页面,单击 新建数据源。从 类型 列表中,选择 开源Elastic Search。填写开源...

Presto

在Zeppelin中使用${var=value} 形式的参数查询语句时,设置变量名为price,默认值是10000,此时页面上会显示一个文本框,您可以在文本框里填写任意值,按回车键,即使文本框里的值替换变量price并运行SQL语句。例如,填写的值为50000,...

Hive

在Zeppelin中使用${var=value} 形式的参数查询语句时,设置变量名为price,默认值是10000,此时页面上会显示一个文本框,您可以在文本框里填写任意值,按回车键,即使文本框里的值替换变量price并运行SQL语句。例如,填写的值为50000,...

管理用户

EMR用户可以用于访问链接与端口,查看开源组件Web UI时的用户身份认证,也可以在开启组件LDAP认证之后进行身份认证。如果将Ranger的用户源设置为LDAP,则可以对用户管理中的用户进行权限控制。如果是高安全集群,EMR用户可以用于Kinit操作...

开源代码参考

​ 如下为开源代码库。每个库中,都有完整的配置使用、开发说明,请参考:库名 说明 链接 java-spring-oidc-sample 应用参照 OIDC 协议(授权码模式)实现 SSO 的样例,最常用的接入方法,也即 IDaaS 中自研应用接入方法。...

JMX连接器

jmx.dump-tables 是逗号隔开的MBean(Managed Beans)列表。该配置项指定了每个采样周期哪些MBean指标会被采样并存储到内存中。如果指标项的名称中包含逗号,则需要使用 \\,进行转义,如下所示。connector.name=jmx jmx.dump-tables=io....

访问Web UI

访问开源组件的Web UI。单击上方的 访问链接与端口 页签。在 访问链接与端口 页面,单击服务所在行的链接,即可正常的访问Web UI页面。常见问题 问题描述:ACK集群未安装Ingress组件,该如何处理?解决方法:访问Web UI,需要ACK集群具备...

JindoFS实战演示

Flink高效sink写入OSS Flink高效sink写入OSS 2021-06-01 当您需要将流式数据写入OSS,或者需要在线分析数据时,可能会遇到的问题:开源Apache Flink还不支持直接写入OSS、Hadoop OSS SDK写入性能不满足需求。此时您可以使用JindoFS Flink ...

EMR Serverless StarRocks商业化发布

EMR Serverless StarRocks介绍 EMR Serverless StarRocks是开源StarRocks在阿里云上的全托管服务,您可以通过EMR Serverless StarRocks灵活的创建和管理StarRocks实例以及数据。StarRocks作为一款兼容MySQL协议的OLAP分析引擎,提供了极致...

Kerberos概述

在这种高安全级别的集群中,所有开源组件均采用Kerberos安全模式启动,确保只有经过Kerberos认证的客户端能够访问集群提供的服务(例如HDFS)。背景信息 集群开启Kerberos之后:客户端:可以对可信任的客户端提供认证,使得可信任客户端...

SmartData 3.1.x版本简介

功能变更 JindoFS存储优化 JindoFS缓存优化 JindoTable计算优化 JindoManager系统管理 JindoTools工具集 JindoFS生态支持 JindoFS存储优化 支持文件的checksum功能,对齐开源HDFS checksum相关接口,支持MD5MD5CRC和COMPOSITE_CRC两种算法...

使用JDBC提交Presto作业

JDBC包通常都是向下兼容的,依赖版本选择社区最新版即可-><dependency><groupId>io.trino</groupId><artifactId>trino-jdbc</artifactId><version>xxx</version></dependency>JDBC访问Trino on ACK。示例TrinoSqlConnection.java内容如下。...

常见问题

Spark Streaming写数据到Delta,本质上是执行一系列的mini batch,一个batch会产生一个或者多个文件。由于batch size通常较小,因此Spark Streaming连续运行会产生相当数量的小文件。解决方法有两种:如果实时性要求不高,建议增大mini ...

Paimon概述

目前阿里云开源大数据平台E-MapReduce常见的计算引擎(例如Flink、Spark、Hive或Trino)都与Paimon有着较为完善的集成度。您可以借助Apache Paimon快速地在HDFS或者云端OSS上构建自己的数据湖存储服务,并接入上述计算引擎实现数据湖的分析...

EMR on ACK商业化公告

您可以将开源大数据服务部署在阿里云容器服务Kubernetes版(ACK)之上,利用ACK在服务部署和容器应用管理的优势,减少对底层集群资源的运维投入,以便于您可以更加专注大数据任务本身。收费标准 阿里云EMR on ACK正式商业化后,将根据集群...

EMR-3.32.x版本说明

默认使用EMR集群内的HDFS作为底层的UnderFS,开箱即。增强Alluxio OSS UnderFS,适配OSS多版本等新功能。适配Hadoop、Hive、Spark和Presto等引擎。HUDI 支持HUDI 0.6.0版本。Spark JindoTable支持打开或关闭数据采集功能。Hive 修复了...

相关的云服务

本文为您介绍典型场景下,使用开源大数据平台E-MapReduce时通常会使用到的其他云服务。云服务名称 说明 云服务器ECS 使用云服务器ECS(Elastic Compute Service)作为集群的节点,每个ECS实例集群中的一个节点。专有网络VPC 专有网络VPC...

EMR-5.3.x版本说明

Zookeeper 升级至社区3.6.3版本。Flink 新增了SmartData组件。修复了SSH到DataFlow-Flink集群中提交作业时,无法免密访问OSS的问题。Impala 修复了直接删除OSS分区目录出现list目录循环的问题。Hue 修复了Hue与Oozie集成使用时界面显示的...

EMR-3.37.x版本说明

Zookeeper 升级至社区3.6.3版本。Flink 新增了SmartData组件。修复了SSH到DataFlow-Flink集群中提交作业时,无法免密访问OSS的问题。Impala 修复了直接删除OSS分区目录出现list目录循环的问题。Hue 修复了Hue与Oozie集成使用时界面显示的...

HDFS概述

高可用 对于高可集群,默认会启动两个NameNode,一个是Active NameNode,另一个是Standby NameNode,两个NameNode承担不同角色。Active NameNode负责处理DataNode和Client的请求,Standby NameNode跟Active NameNode一样拥有最新的元数据...

作业日期设置

时间变量可以是包含 yyyy 年份的任意时间组合,同时支持加号(+)和减号(-)来分别表示延后和提前。例如,变量${yyyy-MM-dd} 表示当前日期,则:后1年的表示方式:${yyyy+1y} 或者${yyyy-MM-dd hh:mm:ss+1y}。后3月的表示方式:${yyyyMM...

存储说明

本文介绍E-MapReduce集群中数据存储相关的信息,包括磁盘角色、云盘与本地盘,以及OSS。背景信息 关于存储的类型、性能和相关的限制信息,请参见 ...但OSS的IOPS不高,不适合在IOPS要求高的场景,例如,流式计算Spark Streaming和HBase。

快速使用EMR on ACK

关于Spark的更多介绍,可以参见开源文档 Quick Start,选择适合您的语言和版本。提交作业的详细信息请参见:提交Spark作业 使用CLI提交Presto作业 提交Flink作业 通过kubectl连接Kubernetes集群,详情请参见 获取集群KubeConfig并通过...

Workflow商业化发布

EMR Workflow是一个全托管的工作流和任务调度服务,100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务,您可以通过可视化的操作界面轻松地管理工作流和任务,高效构建数据仓库,并为生产任务的稳定运行提供保障。产品文档 ...

E-MapReduce支持倚天云服务器

阿里云E-MapReduce(简称EMR)支持使用倚天云服务器构建开源大数据集群。与现有X86架构实例体验完全相同的情况下,具有更高的性价比,帮助您降低成本并提高效率。本文为您介绍倚天云服务器的特性、优势,以及在E-Mapreduce上倚天云服务器的...

概述

Flink(VVR)是基于Apache Flink(以下简称Flink)开发的商业版,VVR引擎接口完全兼容Flink开源版本,且提供GeminiStateBackend等高增值功能,以提升作业性能及稳定性。背景信息 Flink核心是一个流式的数据流执行引擎,其针对数据流的分布...

扩容集群

EMR Serverless StarRocks不仅无缝兼容开源StarRocks,并且具备自动升级软件版本的功能,可省去手动管理版本的繁琐与风险。迁移方案详情,请参见 迁移StarRocks数据至EMR Serverless StarRocks。操作步骤 重要 集群扩容操作不会重启存量...

EMR Workflow商业化公告

EMR Workflow介绍 EMR Workflow是一个全托管的工作流和任务调度服务,100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务,您可以通过可视化的操作界面轻松地管理工作流和任务,高效构建数据仓库,并为生产任务的稳定运行...
共有145条 < 1 2 3 4 ... 145 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云数据库 ClickHouse 云数据库 RDS 微服务引擎 检索分析服务 Elasticsearch版 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用