开源数据-开源数据文档介绍内容-阿里云

Hive数据脱敏

Ranger支持对Hive数据的脱敏处理（Data Masking），即可以对Select的返回结果脱敏，以屏蔽敏感信息。背景信息该功能只针对HiveServer2的场景（例如，Beeline、JDBC和Hue等途径执行的Select语句）。操作步骤说明本文Ranger截图以2.1.0...

数据源中心

EMR Workflow的数据源中心支持配置数据源，以满足不同的数据存储和访问需求。本文为您介绍如何创建、编辑和删除数据源。使用限制数据源所在的集群和运行工作流时选择的集群需要在同一VPC下。创建数据源进入数据源中心页面。使用阿里云...

内表数据源

本文为您介绍什么是内表数据源（Default Catalog），以及如何使用Default Catalog查询StarRocks内部数据。Default Catalog StarRocks 2.3及以上版本提供了Internal Catalog（内部数据目录），用于管理StarRocks的内部数据。每个StarRocks...

TableStore数据源

本文介绍如何使用TableStore数据源进行数据分析或者交互式开发。建表语法 CREATE TABLE tbName USING tablestore OPTIONS(propertyName=propertyValue[,propertyName=propertyValue]*);Table Schema 创建TableStore表时，无需显式定义表的...

配置开源Flink实时模式资源

开源Flink流批一体任务实时模式的资源配置支持配置任务的生产环境和开发的资源队列、引擎版本以及任务的并行读度、Task Manager数量、Job Manager Momory和Task Manager Momory。本文为您介绍如何配置流批一体任务实时模式的资源配置。操作...

EMR元数据迁移到数据湖构建（DLF）

本文为您介绍如何将Hive MetaStore存储在MySQL、RDS中的元数据迁移到DLF中，并介绍如何在EMR集群中配置使用DLF作为数据湖统一元数据。适用场景从其他大数据集群迁移到阿里云E-MapReduce产品。从阿里云EMR老集群（MySQL做元数据），整体...

配置开源Flink离线模式资源

开源Flink流批一体任务离线模式的资源配置支持配置任务的生产环境和开发的资源队列、引擎版本以及任务的并行度、Task Manager数量、Job Manager Momory和Task Manager Momory。本文为您如何配置流批一体任务离线模式的资源配置。操作步骤 ...

查询Delta表数据

2 3 4 0 1 Time taken:2.937 seconds,Fetched:5 row(s)说明查看数据与在Spark中插入的数据一致，说明Hive已经成功访问了Delta表的数据。通过Presto查询Delta表数据执行以下命令，进入Presto命令行。presto-server master-1-1:8889-...

开启数据盘加密

加密数据盘后，数据盘上的动态数据传输以及静态数据都会被加密。如果您的业务存在安全合规要求，则可以使用该功能。您无需自建和维护密钥管理基础设施，就能保护数据的隐私性和自主性，为业务数据提供安全边界。背景信息数据盘加密的详细...

Hive访问EMR Phoenix数据

在阿里云E-MapReduce（EMR）中，Hive支持通过配置外部表来访问和处理存储在Phoenix系统中的数据。本文通过示例为您介绍，如何使用EMR上的Hive处理EMR Phoenix数据。前提条件已创建选择了Hive、HBase、Zookeeper和Phoenix服务的自定义集群...

数据湖元数据配置

本文为您介绍Iceberg表使用数据湖元数据的必要配置。支持以下配置：Spark配置 Hive配置 Spark配置文件系统采用阿里云对象存储服务OSS。集群版本不同默认的Catalog名称不同，需要配置的参数也不同，各版本对应配置如下：EMR-3.40及后续版本...

Loghub数据源

本文介绍如何使用Loghub数据源进行数据分析或者交互式开发。建表语法 CREATE TABLE tbName(columnName dataType[,columnName dataType]*)USING loghub OPTIONS(propertyName=propertyValue[,propertyName=propertyValue]*);Table Schema ...

数据湖集群

E-MapReduce（简称EMR）新版控制台提供了数据湖集群，一个更灵活、可靠，以及高效的大数据计算集群。同时，您可以基于该集群轻松构建一个可扩展的数据管道。本文为您介绍数据湖集群支持的特性，以及与旧版Hadoop集群之间的差异。数据湖集群...

元数据管理常见问题

问题分析：由于删除OSS上的表数据之前，没有删除数据表对应的元数据，导致表的Schema还存在，但实际的数据已经不存在或已经移动到别的路径。解决方法：可以先修改表的Location为一个存在的路径，然后再删除表。alter table test set ...

数据源支持概述

本文介绍Spark SQL支持的数据源类型，以及支持数据源的方式。支持的数据源数据源批量读批量写流式读流式写 Kafka 有无有有 Loghub 有有有有 Tablestore 有有有有 DataHub 无无有有 HBase 有有无有 JDBC 有有无有 ...

通过DataX导入Prometheus数据

本文介绍如何使用阿里巴巴的开源工具Datax实现从Prometheus到TSDB的数据迁移。背景 DataX相关使用介绍请参阅DataX的 README。迁移操作涉及到的两个插件（Prometheus Reader 和 TSDB Writer）。DataX DataX 是阿里巴巴集团内被广泛使用的离...

ClusterSummary

取值范围：DATALAKE：新版数据湖。OLAP：数据分析。DATAFLOW：实时数据流。DATASERVING：数据服务。DATALAKE ClusterState string 集群状态。取值范围：STARTING：启动中。START_FAILED：启动失败。BOOTSTRAPPING：引导操作初始化。RUNNING...

将Kafka数据导入JindoFS

Kafka广泛用于日志收集、监控数据聚合等场景，支持离线或流式数据处理、实时数据分析等。本文主要介绍Kafka数据导入到JindoFS的几种方式。常见Kafka数据导入方式通过Flume导入推荐使用Flume方式导入到JindoFS，利用Flume对HDFS的支持，...

扩容磁盘

当E-MapReduce集群的数据存储空间不足时，您可以根据本文进行磁盘（数据盘）扩容。本文为您介绍如何对数据盘进行扩容。前提条件已在E-MapReduce控制台创建集群，详情请参见创建集群。使用限制 E-MapReduce控制台仅支持数据盘扩容操作，不...

Hive数据源

通过Hive Catalog，您可以直接查询Hive中的数据。本文为您介绍如何在E-MapReduce的StarRocks集群上创建和查看Hive Catalog。前提条件已创建包含Hive服务的集群，例如DataLake或Custom集群，详情请见创建集群。已创建包含StarRocks服务的...

Hudi数据源

通过Hudi Catalog，您可以直接查询Hudi中的数据。本文为您介绍如何在E-MapReduce的StarRocks集群上创建和查看Hudi Catalog。前提条件已创建包含Hudi服务的集群，例如DataLake或Custom集群，详情请见创建集群。已创建包含StarRocks服务的...

Cluster

取值范围：DATALAKE：新版数据湖。OLAP：数据分析。DATAFLOW：实时数据流。DATASERVING：数据服务。CUSTOM：自定义混部集群。HADOOP：旧版数据湖。DATALAKE ClusterState string 集群状态。取值范围：STARTING：启动中。START_FAILED：启动...

DataDisk

80 PerformanceLevel string 创建 ESSD 云盘作为数据盘使用时，设置云盘的性能等级。取值范围：PL0：单盘最高随机读写 IOPS 1 万。PL1：单盘最高随机读写 IOPS 5 万。PL2：单盘最高随机读写 IOPS 10 万。PL3：单盘最高随机读写 IOPS 100 万...

流式读写

本文介绍Delta Lake作为数据源和数据接收端如何流式读写数据。Delta Table作为数据源（Source）spark.readStream.format("delta").option("maxFilesPerTrigger",1000).load("/tmp/delta_table")maxFilesPerTrigger 指定了一个批次最多处理...

Kafka元数据管理

添加Topic 进入Kafka数据管理页。登录阿里云E-MapReduce控制台。在顶部菜单栏处，根据实际情况选择地域和资源组。单击上方的元数据管理页签。在左侧导航栏，单击 Kafka数据管理。在 Kafka数据管理页面，单击右上角的添加Topic。在 ...

Spark访问EMR HBase数据

本文介绍Spark如何访问EMR HBase集群数据。Spark访问HBase示例重要计算集群需要和HBase集群处于一个安全组内，否则网络无法打通。在E-Mapreduce控制台创建计算集群时，请选择HBase集群所在的安全组。Java代码 JavaSparkContext jsc=new ...

Hive数据按行过滤

Ranger支持对Hive数据按行进行过滤（Row Level Filter），即可以对Select返回的结果按行进行过滤，只显示满足指定条件的行。本文介绍如何将Hive数据按行进行过滤。前提条件已创建集群，并选择了Ranger服务，详情请参见创建集群。已创建按...

Hive统一元数据

EMR-2.4.0之前版本，所有集群采用的是集群本地的MySQL数据库作为Hive元数据库；EMR-2.4.0及后续版本，E-MapReduce（简称EMR）支持统一的高可靠的Hive元数据库。背景信息因为元数据库需要使用公网IP来连接，所以集群必须要有公网IP，同时请...

为Spark集群设置元数据

EMR on ACK支持使用数据湖元数据DLF（Data Lake Formation）和自建Hive Metastore元数据两种方式，为Spark集群设置元数据。本文为您介绍如何在EMR on ACK中设置Spark集群的元数据。背景信息因为数据湖元数据DLF具有高可用和易维护的特点，...

数据管理

阿里云EMR Delta Lake提供了强大的数据处理能力，可以帮助您管理和操作数据，确保数据的质量和一致性。本文为您介绍EMR Delta Lake如何进行删除、更新与合并数据等操作。DELETE 该命令用于删除数据。示例如下。SQL DELETE FROM delta_table...

Delta Lake数据源

通过Delta Lake Catalog，您可以直接查询Delta Lake中的数据。本文为您介绍如何在E-MapReduce的StarRocks集群上创建和查看Delta Lake Catalog。前提条件已创建包含Delta Lake服务的集群，例如DataLake或Custom集群，详情请见创建集群。已...

Paimon数据源

通过Paimon Catalog，您可以直接查询Paimon中的数据。本文为您介绍如何在E-MapReduce的StarRocks集群上创建和查看Paimon Catalog。前提条件已创建包含Paimon服务的集群，例如DataLake或Custom集群，详情请参见创建集群。已创建包含...

JDBC数据源

本文介绍如何使用JDBC数据源进行数据分析或者交互式开发。建表语法 CREATE TABLE tbName USING jdbc2 OPTIONS(propertyName=propertyValue[,propertyName=propertyValue]*);Table Schema 创建JDBC表时，无需显式地定义表的字段信息，示例...