开源社区干啥用的-开源社区干啥用的文档介绍内容-阿里云

Hive元数据说明

数据湖构建具有高可用、免运维和高性能等优点，兼容Hive Metastore，无缝对接EMR上开源计算引擎，并支持元数据多版本管理和Data Profile功能。另外，DLF还支持数据探索、湖管理和数据权限控制等功能，并与阿里云其他计算产品（例如...

基础使用

写数据环境配置 EMR-3.32.0以及后续版本中，已经将Hudi相关依赖集成到各个开源组件中，包括Spark、Hive和Presto，因此运行时不需要引入额外的Hudi依赖，只需要在pom文件中添加Hudi依赖即可。不同的EMR版本使用的Hudi版本不同，详细信息请...

什么是EMR on ACK

您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注大数据任务本身。形态对比阿里云EMR提供on ECS和on ACK两种方式，以...

Delta Lake概述

与开源Delta Lake对比 EMR-Delta Lake丰富了开源Delta Lake的特性，例如对SQL和Optimize的支持等。下表列出了Delta Lake的基本特性，并对比EMR-Delta Lake与开源Delta Lake（0.6.1）。特性 EMR-Delta 开源Delta SQL ALTER CONVERT CREATE ...

内核发布记录

有关社区功能更新的详细信息，请参见 StarRocks version 3.1。版本号发布时间说明 3.1.7-1.34 2024年03月08日支持读取MaxCompute内表数据进行分析。支持数据湖分析版本（配合EMR Serverless StarRocks控制台优化）。优化Jindo内存使用...

JindoFS块存储模式

应用场景 E-MapReduce目前提供了三种大数据存储系统，E-MapReduce OssFileSystem、E-MapReduce HDFS和E-MapReduce JindoFS，其中OssFileSystem和JindoFS都是云上存储的解决方案，下表为这三种存储系统和开源OSS各自的特点。特点开源OSS E-...

计费项

例如，测试阶段可以创建按量付费的实例，用完可以立即删除，节省费用。重要实例中即使没有任务运行，计算资源也会每小时进行一次计费。相关产品计费说明在EMR Serverless StarRocks购买和使用过程中还涉负载均衡产品的费用，收费详情请...

迁移元数据上云

迁移元数据上云是指将开源RabbitMQ集群的元数据导出，并将其导入到阿里云云消息队列 RabbitMQ 版实例。云消息队列 RabbitMQ 版会根据成功导入的元数据在目标云消息队列 RabbitMQ 版实例中创建对应的Vhost、Queue、Exchange、Binding，...

Iceberg概述

您可以借助Iceberg快速地在HDFS或者阿里云OSS上构建自己的数据湖存储服务，并借助开源大数据生态的Spark、Flink、Hive和Presto等计算引擎来实现数据湖的分析。核心能力 Apache Iceberg设计初衷是为了解决Hive数仓上云的问题，经过多年迭代...

性能测试

本文介绍Ganos时空服务与开源GeoMesa（HBase）、云数据库MongoDB分片集群在处理时空轨迹数据时的性能测试对比。测试环境本次性能测试中需要准备以下测试数据库，具体配置如下表：数据库配置说明云原生多模数据库 Lindorm Ganos引擎（即...

概述

JindoSDK：为EMR各种开源计算引擎提供统一的SDK，支持Java、C、C++和Python语言，提供多种访问和API接口，包括HCFS文件系统接口、POSIX接口和Table表格接口。工具集：提供相关的工具集，例如Jindo tool和迁移工具Jindo DistCp。各种...

添加开源Elastic Search数据源

前提条件已准备好待添加的开源Elastic Search数据源。添加开源Elastic Search数据源登录 DataV控制台。在我的数据页签中选择数据源管理，单击添加数据。从类型列表中，选择开源Elastic Search。填写开源Elastic Search数据服务...

添加开源Elastic Search数据源

前提条件已准备好待添加的开源Elastic Search数据源。添加开源Elastic Search数据源登录 DataV控制台。在工作台页面，单击数据准备>数据源，进入数据源页面，单击新建数据源。从类型列表中，选择开源Elastic Search。填写开源...

Presto

在Zeppelin中使用${var=value} 形式的参数查询语句时，设置变量名为price，默认值是10000，此时页面上会显示一个文本框，您可以在文本框里填写任意值，按回车键，即使用文本框里的值替换变量price并运行SQL语句。例如，填写的值为50000，...

Hive

在Zeppelin中使用${var=value} 形式的参数查询语句时，设置变量名为price，默认值是10000，此时页面上会显示一个文本框，您可以在文本框里填写任意值，按回车键，即使用文本框里的值替换变量price并运行SQL语句。例如，填写的值为50000，...

管理用户

EMR用户可以用于访问链接与端口，查看开源组件Web UI时的用户身份认证，也可以在开启组件LDAP认证之后进行身份认证。如果将Ranger的用户源设置为LDAP，则可以对用户管理中的用户进行权限控制。如果是高安全集群，EMR用户可以用于Kinit操作...

开源代码参考

如下为开源代码库。每个库中，都有完整的配置使用、开发说明，请参考：库名说明链接 java-spring-oidc-sample 应用参照 OIDC 协议（授权码模式）实现 SSO 的样例，最常用的接入方法，也即 IDaaS 中自研应用接入方法。...

JMX连接器

jmx.dump-tables 是用逗号隔开的MBean（Managed Beans）列表。该配置项指定了每个采样周期哪些MBean指标会被采样并存储到内存中。如果指标项的名称中包含逗号，则需要使用 \\,进行转义，如下所示。connector.name=jmx jmx.dump-tables=io....

访问Web UI

访问开源组件的Web UI。单击上方的访问链接与端口页签。在访问链接与端口页面，单击服务所在行的链接，即可正常的访问Web UI页面。常见问题问题描述：ACK集群未安装Ingress组件，该如何处理？解决方法：访问Web UI，需要ACK集群具备...

JindoFS实战演示

Flink高效sink写入OSS Flink高效sink写入OSS 2021-06-01 当您需要将流式数据写入OSS，或者需要在线分析数据时，可能会遇到的问题：开源Apache Flink还不支持直接写入OSS、Hadoop OSS SDK写入性能不满足需求。此时您可以使用JindoFS Flink ...

EMR Serverless StarRocks商业化发布

EMR Serverless StarRocks介绍 EMR Serverless StarRocks是开源StarRocks在阿里云上的全托管服务，您可以通过EMR Serverless StarRocks灵活的创建和管理StarRocks实例以及数据。StarRocks作为一款兼容MySQL协议的OLAP分析引擎，提供了极致...

Kerberos概述

在这种高安全级别的集群中，所有开源组件均采用Kerberos安全模式启动，确保只有经过Kerberos认证的客户端能够访问集群提供的服务（例如HDFS）。背景信息集群开启Kerberos之后：客户端：可以对可信任的客户端提供认证，使得可信任客户端...

SmartData 3.1.x版本简介

功能变更 JindoFS存储优化 JindoFS缓存优化 JindoTable计算优化 JindoManager系统管理 JindoTools工具集 JindoFS生态支持 JindoFS存储优化支持文件的checksum功能，对齐开源HDFS checksum相关接口，支持MD5MD5CRC和COMPOSITE_CRC两种算法...

使用JDBC提交Presto作业

JDBC包通常都是向下兼容的，依赖版本选择社区最新版即可-><dependency><groupId>io.trino</groupId><artifactId>trino-jdbc</artifactId><version>xxx</version></dependency>JDBC访问Trino on ACK。示例TrinoSqlConnection.java内容如下。...

常见问题

用Spark Streaming写数据到Delta，本质上是执行一系列的mini batch，一个batch会产生一个或者多个文件。由于batch size通常较小，因此Spark Streaming连续运行会产生相当数量的小文件。解决方法有两种：如果实时性要求不高，建议增大mini ...

Paimon概述

目前阿里云开源大数据平台E-MapReduce常见的计算引擎（例如Flink、Spark、Hive或Trino）都与Paimon有着较为完善的集成度。您可以借助Apache Paimon快速地在HDFS或者云端OSS上构建自己的数据湖存储服务，并接入上述计算引擎实现数据湖的分析...

EMR on ACK商业化公告

您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注大数据任务本身。收费标准阿里云EMR on ACK正式商业化后，将根据集群...

EMR-3.32.x版本说明

默认使用EMR集群内的HDFS作为底层的UnderFS，开箱即用。增强Alluxio OSS UnderFS，适配OSS多版本等新功能。适配Hadoop、Hive、Spark和Presto等引擎。HUDI 支持HUDI 0.6.0版本。Spark JindoTable支持打开或关闭数据采集功能。Hive 修复了...

EMR-5.3.x版本说明

Zookeeper 升级至社区3.6.3版本。Flink 新增了SmartData组件。修复了SSH到DataFlow-Flink集群中提交作业时，无法免密访问OSS的问题。Impala 修复了直接删除OSS分区目录出现list目录循环的问题。Hue 修复了Hue与Oozie集成使用时界面显示的...

EMR-3.37.x版本说明

Zookeeper 升级至社区3.6.3版本。Flink 新增了SmartData组件。修复了SSH到DataFlow-Flink集群中提交作业时，无法免密访问OSS的问题。Impala 修复了直接删除OSS分区目录出现list目录循环的问题。Hue 修复了Hue与Oozie集成使用时界面显示的...

HDFS概述

高可用对于高可用集群，默认会启动两个NameNode，一个是Active NameNode，另一个是Standby NameNode，两个NameNode承担不同角色。Active NameNode负责处理DataNode和Client的请求，Standby NameNode跟Active NameNode一样拥有最新的元数据...

作业日期设置

时间变量可以是包含 yyyy 年份的任意时间组合，同时支持用加号（+）和减号（-）来分别表示延后和提前。例如，变量${yyyy-MM-dd} 表示当前日期，则：后1年的表示方式：${yyyy+1y} 或者${yyyy-MM-dd hh:mm:ss+1y}。后3月的表示方式：${yyyyMM...

存储说明

本文介绍E-MapReduce集群中数据存储相关的信息，包括磁盘角色、云盘与本地盘，以及OSS。背景信息关于存储的类型、性能和相关的限制信息，请参见 ...但OSS的IOPS不高，不适合用在IOPS要求高的场景，例如，流式计算Spark Streaming和HBase。

快速使用EMR on ACK

关于Spark的更多介绍，可以参见开源文档 Quick Start，选择适合您的语言和版本。提交作业的详细信息请参见：提交Spark作业使用CLI提交Presto作业提交Flink作业通过kubectl连接Kubernetes集群，详情请参见获取集群KubeConfig并通过...

Workflow商业化发布

EMR Workflow是一个全托管的工作流和任务调度服务，100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务，您可以通过可视化的操作界面轻松地管理工作流和任务，高效构建数据仓库，并为生产任务的稳定运行提供保障。产品文档 ...

E-MapReduce支持倚天云服务器

阿里云E-MapReduce（简称EMR）支持使用倚天云服务器构建开源大数据集群。与现有X86架构实例体验完全相同的情况下，具有更高的性价比，帮助您降低成本并提高效率。本文为您介绍倚天云服务器的特性、优势，以及在E-Mapreduce上倚天云服务器的...

概述

Flink（VVR）是基于Apache Flink（以下简称Flink）开发的商业版，VVR引擎接口完全兼容Flink开源版本，且提供GeminiStateBackend等高增值功能，以提升作业性能及稳定性。背景信息 Flink核心是一个流式的数据流执行引擎，其针对数据流的分布...

扩容集群

EMR Serverless StarRocks不仅无缝兼容开源StarRocks，并且具备自动升级软件版本的功能，可省去手动管理版本的繁琐与风险。迁移方案详情，请参见迁移StarRocks数据至EMR Serverless StarRocks。操作步骤重要集群扩容操作不会重启存量...

EMR Workflow商业化公告

EMR Workflow介绍 EMR Workflow是一个全托管的工作流和任务调度服务，100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务，您可以通过可视化的操作界面轻松地管理工作流和任务，高效构建数据仓库，并为生产任务的稳定运行...

开源社区干啥用的

新品推荐