Uber基于Apache Hudi增量 ETL 构建大规模数据湖

Uber基于Apache Hudi增量 ETL 构建大规模数据湖

Uber 的全球数据仓库团队使用统一的、 PB 级、集中建模的数据湖使所有 Uber 的数据民主化。数据湖由使用维度数据建模技术[1]开发的基础事实、维度和聚合表组成,工程师和数据科学家可以自助方式访问这些表,为 Uber 的数据工程、数据科学、机器学习和报告提供支持。因此,计算这些表的 ETL(提...

基于 Apache Hudi 构建增量和无限回放事件流的 OLAP 平台

基于 Apache Hudi 构建增量和无限回放事件流的 OLAP 平台

1. 摘要在本博客中,我们将讨论在构建流数据平台时如何利用 Hudi 的两个最令人难以置信的能力。增量消费--每 30 分钟处理一次数据,并在我们的组织内构建每小时级别的OLAP平台事件流的无限回放--利用 Hudi 的提交时间线在超级便宜的云对象存储(如 AWS S3)中存储 10 天的事件流(想...

Apache RocketMQ:如何从互联网时代演进到云

1 课时 |
154 人已学 |
免费

Apache Flink 入门到实战 - Flink开源社区出品

16 课时 |
1392 人已学 |
免费

Apache Flink 入门

9 课时 |
4826 人已学 |
免费
开发者课程背景图

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

社区圈子

Apache Spark 中国技术社区
Apache Spark 中国技术社区
阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!
4459+人已加入
加入
相关电子书
更多
Apache Doris 精选用户案例集
Apache RocketMQ 云原生统一消息引擎
《基于Apache Hudi的CDC数据入湖》
立即下载 立即下载 立即下载
相关镜像