Uber基于Apache Hudi增量 ETL 构建大规模数据湖

Uber基于Apache Hudi增量 ETL 构建大规模数据湖

Uber 的全球数据仓库团队使用统一的、 PB 级、集中建模的数据湖使所有 Uber 的数据民主化。数据湖由使用维度数据建模技术[1]开发的基础事实、维度和聚合表组成,工程师和数据科学家可以自助方式访问这些表,为 Uber 的数据工程、数据科学、机器学习和报告提供支持。因此,计算这些表的 ETL(提...

Uber基于Apache Hudi构建PB级数据湖实践

Uber基于Apache Hudi构建PB级数据湖实践

1. 引言从确保准确预计到达时间到预测最佳交通路线,在Uber平台上提供安全、无缝的运输和交付体验需要可靠、高性能的大规模数据存储和分析。2016年,Uber开发了增量处理框架Apache Hudi,以低延迟和高效率为关键业务数据管道赋能。一年后,我们开源了该解决方案,以使得其他有需要的组织也可以利...

Apache RocketMQ:如何从互联网时代演进到云

1 课时 |
154 人已学 |
免费

Apache Flink 入门到实战 - Flink开源社区出品

16 课时 |
1392 人已学 |
免费

Apache Flink 入门

9 课时 |
4826 人已学 |
免费
开发者课程背景图

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

社区圈子

Apache Spark 中国技术社区
Apache Spark 中国技术社区
阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!
4459+人已加入
加入
相关电子书
更多
Apache Doris 精选用户案例集
Apache RocketMQ 云原生统一消息引擎
Apache Tomcat 的云原生演进
立即下载 立即下载 立即下载
相关镜像