一文了解Apache Hudi架构、工具和最佳实践

一文了解Apache Hudi架构、工具和最佳实践

1. 什么是Hudi? Apache Hudi代表Hadoop Upserts anD Incrementals,管理大型分析数据集在HDFS上的存储。Hudi的主要目的是高效减少摄取过程中的数据延迟。由Uber开发并开源,HDFS上的分析数据集通过两种类型的表提供服务:读优化表(Read Opti...

Apache Hudi实时入湖之DeltaStreamer最佳实践

Apache Hudi实时入湖之DeltaStreamer最佳实践

1. 背景 传统大数据平台的组织架构是针对离线数据处理需求设计的,常用的数据导入方式为采用sqoop定时作业批量导入。随着数据分析对实时性要求不断提高,按小时、甚至分钟级的数据同步越来越普遍。由此展开了基于spark/flink流处理机制的(准)实时同步系统的开发。 然而实时同步从一开始就面临如下几...

Apache RocketMQ:如何从互联网时代演进到云

1 课时 |
154 人已学 |
免费

Apache Flink 入门到实战 - Flink开源社区出品

16 课时 |
1392 人已学 |
免费

Apache Flink 入门

9 课时 |
4826 人已学 |
免费
开发者课程背景图

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

社区圈子

Apache Spark 中国技术社区
Apache Spark 中国技术社区
阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!
4459+人已加入
加入
相关电子书
更多
Apache Doris 精选用户案例集
Apache RocketMQ 云原生统一消息引擎
《基于Apache Hudi的CDC数据入湖》
立即下载 立即下载 立即下载
相关镜像