探索Apache Hudi核心概念 (1) - File Layouts

探索Apache Hudi核心概念 (1) - File Layouts

在以往众多介绍Apcache Hudi的文章中,对核心概念的解读大多会引用官方文档中的概念图,像Timeline(时间线)、File Layouts(文件布局)这类结构清晰,逻辑严谨的概念,图解是很好的说明方式。但是,抽象概念与实际运行状况还是有不少差异的,相信很多学习和使用Hudi的开发者都曾尝试...

探索Apache Hudi核心概念 (2) - File Sizing

探索Apache Hudi核心概念 (2) - File Sizing

在本系列的上一篇[1]文章中,我们通过Notebook探索了COW表和MOR表的文件布局,在数据的持续写入与更新过程中,Hudi严格控制着文件的大小,以确保它们始终处于合理的区间范围内,从而避免大量小文件的出现,Hudi的这部分机制就称作“File Sizing”。本文,我们就针对COW表和MOR表...

Apache RocketMQ:如何从互联网时代演进到云

1 课时 |
154 人已学 |
免费

Apache Flink 入门到实战 - Flink开源社区出品

16 课时 |
1392 人已学 |
免费

Apache Flink 入门

9 课时 |
4826 人已学 |
免费
开发者课程背景图
探索Apache Hudi核心概念 (3) - Compaction

探索Apache Hudi核心概念 (3) - Compaction

Compaction是MOR表的一项核心机制,Hudi利用Compaction将MOR表产生的Log File合并到新的Base File中。本文我们会通过Notebook介绍并演示Compaction的运行机制,帮助您理解其工作原理和相关配置。 1. 运行 Notebook 本文使用的Notebo...

探索Apache Hudi核心概念 (4) - Clustering

探索Apache Hudi核心概念 (4) - Clustering

探索Apache Hudi核心概念 (4) - Clustering Clustering是Hudi在0.7.0版本引入的一项特性,用于优化文件布局,提升读写性能,现在它已经成为Hudi的一项重要性能优化手段。本文我们会通过Notebook介绍并演示Clustering的运行机制,帮助您理解其工作原...

Apache Spark 的基本概念和在大数据分析中的应用

Apache Spark 是一个开源的分布式计算系统,它旨在处理大规模数据集并提供高性能和易用性。Spark 提供了一个统一的编程模型,可以在多种编程语言中使用,包括 Scala、Java、Python和R。Spark 的主要特点包括: 快速:Spark 使用内存计算技术,可以比传统的批处理系统(如...

介绍 Apache Spark 的基本概念和在大数据分析中的应用。

Spark的基本概念包括:弹性分布式数据集(Resilient Distributed Dataset,简称RDD):它是Spark的核心数据结构,代表分布在集群中的可并行处理的数据集,可以在内存中存储。RDD具有容错能力,即使在节点失败时也可以自动恢复。转换操作(Transformations):...

Apache Spark 的基本概念

Apache Spark 是一种快速、可扩展、通用的数据处理引擎。它是一种基于内存的计算框架,支持分布式数据处理、机器学习、图形计算等多种计算任务。与传统的 Hadoop MapReduce 相比,Spark 具有更高的性能和更广泛的应用场景。Spark 中的基本概念包括:1. Resilient ...

Apache Spark 的基本概念和在大数据分析中的应用

Apache Spark 是一种流行的开源大数据分析框架,它是建立在强大的分布式计算引擎基础上的,可以处理大规模的数据,并提供高性能的数据处理能力。以下是 Apache Spark 的一些基本概念:1. Resilient Distributed Datasets(RDD):是 Spark 中的核心...

介绍 Apache Spark 的基本概念和在大数据分析中的应用

Apache Spark 是一个基于内存计算的开源集群计算框架,它能够处理大数据的分布式计算。与 Hadoop 相比,Spark 更适用于迭代算法和交互式数据挖掘,具有更高的性能和更好的扩展性。Spark 支持多种语言,如 Scala、Java、Python 和 R 等,也支持多种数据源,包括 HD...

Apache Flink 概念介绍:有状态流式处理引擎的基石(二)| 学习笔记

Apache Flink 概念介绍:有状态流式处理引擎的基石(二)| 学习笔记

开发者学堂课程【Apache Flink 入门到实战 - Flink 开源社区出品 :Apache Flink 概念介绍:有状态流式处理引擎的基石(二)】学习笔记,与课程紧密联系,让用户快速学习知识。课程地址:https://developer.aliyun.com/learni...

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

社区圈子

Apache Spark 中国技术社区
Apache Spark 中国技术社区
阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!
4459+人已加入
加入
相关电子书
更多
Apache Doris 精选用户案例集
Apache RocketMQ 云原生统一消息引擎
Apache Tomcat 的云原生演进
立即下载 立即下载 立即下载
相关镜像