基于Apache Hudi 和 Microsoft Azure构建Lakehouse指南

基于Apache Hudi 和 Microsoft Azure构建Lakehouse指南

Apache Hudi 是一种流行的开源 Lakehouse 技术,在大数据社区中迅速发展。如果您在 AWS 上构建了数据湖和数据工程平台,您可能已经听说过或使用过 Apache Hudi,因为 AWS 在其众多数据服务(包括 EMR、Redshift、Athena、Glue 等)中原生集成并支持了...

基于 Apache Hudi + Presto + AWS S3 构建开放Lakehouse

基于 Apache Hudi + Presto + AWS S3 构建开放Lakehouse

认识Lakehouse 数据仓库被认为是对结构化数据执行分析的标准,但它不能处理非结构化数据。包括诸如文本、图像、音频、视频和其他格式的信息。此外机器学习和人工智能在业务的各个方面变得越来越普遍,它们需要访问数据仓库之外的大量信息。 ...

Apache RocketMQ:如何从互联网时代演进到云

1 课时 |
154 人已学 |
免费

Apache Flink 入门到实战 - Flink开源社区出品

16 课时 |
1392 人已学 |
免费

Apache Flink 入门

9 课时 |
4826 人已学 |
免费
开发者课程背景图
基于Apache Hudi + MinIO 构建流式数据湖

基于Apache Hudi + MinIO 构建流式数据湖

Apache Hudi 是一个流式数据湖平台,将核心仓库和数据库功能直接引入数据湖。Hudi 不满足于将自己称为 Delta 或 Apache Iceberg 之类的开放文件格式,它提供表、事务、更新/删除、高级索引、流式摄取服务、数据聚簇/压缩优化和并发性。Hudi 于 2016 年推出,牢牢扎根...

Uber基于Apache Hudi增量 ETL 构建大规模数据湖

Uber基于Apache Hudi增量 ETL 构建大规模数据湖

Uber 的全球数据仓库团队使用统一的、 PB 级、集中建模的数据湖使所有 Uber 的数据民主化。数据湖由使用维度数据建模技术[1]开发的基础事实、维度和聚合表组成,工程师和数据科学家可以自助方式访问这些表,为 Uber 的数据工程、数据科学、机器学习和报告提供支持。因此,计算这些表的 ETL(提...

万字长文 | 泰康人寿基于 Apache Hudi 构建湖仓一体平台的应用实践

万字长文 | 泰康人寿基于 Apache Hudi 构建湖仓一体平台的应用实践

文章贡献者 Authors • 技术指导: 泰康人寿 数据架构资深专家工程师 王可 • 文章作者: 泰康人寿 数据研发工程师 田昕峣 摘要 Abstract 本文详细介绍了泰康人寿基于 Apache Hudi 构建湖仓一体分布式数据处理平台的技术选型方法、整体架构设计与实施、以及针对大健康领域的领域...

Apache Hudi在信息服务行业构建流批一体的实践

Apache Hudi在信息服务行业构建流批一体的实践

个人介绍 李昂 高级数据研发工程师 Apache Doris & Hudi Contributor 业务背景 部门成立早期, 为了应对业务的快速增长, 数仓架构采用了最直接的Lambda架构 1. 对数据新鲜度要求不高的数据, 采用离线数仓做维度建模, 采用每小时调度binlog+每日主键归...

降本百万!Notion 基于Apache Hudi构建LakeHouse

降本百万!Notion 基于Apache Hudi构建LakeHouse

这篇博文是由 Notion 数据平台团队的软件工程师 Thomas Chow 和 Nathan Louie 于 2023 年 12 月 13 日发表的题为 Notion's Journey Through Different Stages of Data Scale 的 Hudi 现场活动的简短摘要...

AnalyticDB基于Apache Hudi构建低成本Lakehouse实践

AnalyticDB基于Apache Hudi构建低成本Lakehouse实践

1. AnalyticDB MySQL产品架构首先介绍下 AnalyticDB MySQL(下简称ADB)产品架构, ADB湖仓版产品架构包含自研和开源两部分。ADB湖仓版在数据全链路的「采存算管用」5 大方面都进行了全面升级和建设。在「采...

Apache RocketMQ +  Hudi 快速构建 Lakehouse

Apache RocketMQ + Hudi 快速构建 Lakehouse

本文目录背景知识大数据时代的构架演进RocketMQ Connector&StreamApache Hudi构建Lakehouse实操本文标题包含三个关键词:Lakehouse、RocketMQ、Hudi。我们先从整体Lakehouse架构入手,随后逐步分析架构产生的原因、架构组件特点以及构...

基于 Apache Hudi 构建增量和无限回放事件流的 OLAP 平台

基于 Apache Hudi 构建增量和无限回放事件流的 OLAP 平台

1. 摘要在本博客中,我们将讨论在构建流数据平台时如何利用 Hudi 的两个最令人难以置信的能力。增量消费--每 30 分钟处理一次数据,并在我们的组织内构建每小时级别的OLAP平台事件流的无限回放--利用 Hudi 的提交时间线在超级便宜的云对象存储(如 AWS S3)中存储 10 天的事件流(想...

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

社区圈子

Apache Spark 中国技术社区
Apache Spark 中国技术社区
阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!
4459+人已加入
加入
相关电子书
更多
基于 Dledger 构建高可用 Apache RocketMQ 集群实践
# Apache Spark系列技术直播# 第八讲 【 微软Azure平台利用Intel Analytics Zoo构建AI客服支持实践 】
基于Apache Flink的平台化构建及运维优化经验
立即下载 立即下载 立即下载
相关镜像