备案控制台

Apache构建数据湖的相关内容

使用Apache Hudi构建大规模、事务性数据湖

使用Apache Hudi构建大规模、事务性数据湖

一个近期由Hudi PMC & Uber Senior Engineering Manager Nishith Agarwal分享的Talk 关于Nishith Agarwal更详细的介绍，主要从事数据方面的工作，包...

Apache Hudi在Linkflow构建实时数据湖的生产实践

Apache Hudi在Linkflow构建实时数据湖的生产实践

1. 背景 Linkflow 作为客户数据平台（CDP），为企业提供从客户数据采集、分析到执行的运营闭环。每天都会通过一方数据采集端点（SDK）和三方数据源，如微信，微博等，收集大量的数据。这些数据都会经过清洗，计算，整合后写入存储。使用者可以通过灵活的报表或标签对持久化的数据进行分析和计算，结果又...

Apache RocketMQ：如何从互联网时代演进到云

1 课时 |

154 人已学 |

加入学习

Apache Flink 入门到实战 - Flink开源社区出品

16 课时 |

1392 人已学 |

加入学习

Apache Flink 入门

9 课时 |

4826 人已学 |

加入学习

开发者课程背景图

字节跳动基于Apache Hudi构建EB级数据湖实践

字节跳动基于Apache Hudi构建EB级数据湖实践

接下来将分为场景需求、设计选型、功能支持、性能调优、未来展望五部分介绍Hudi在字节跳动推荐系统中的实践。 ...

字节跳动基于Apache Hudi构建实时数据湖平台实践

字节跳动基于Apache Hudi构建实时数据湖平台实践

一篇关于字节跳动基于 Apache Hudi 的实时数据湖平台的分享。 ...

基于 Apache Hudi 构建分析型数据湖

基于 Apache Hudi 构建分析型数据湖

为了更好地发展业务，每个组织都在迅速采用分析。在分析过程的帮助下，产品团队正在接收来自用户的反馈，并能够以更快的速度交付新功能。通过分析提供的对用户的更深入了解，营销团队能够调整他们的活动以针对特定受众。只有当我们能够大规模提供分析时，这一切才有可能。对数据湖的需求在 NoBrokercom[1...

基于Apache Hudi + MinIO 构建流式数据湖

基于Apache Hudi + MinIO 构建流式数据湖

Apache Hudi 是一个流式数据湖平台，将核心仓库和数据库功能直接引入数据湖。Hudi 不满足于将自己称为 Delta 或 Apache Iceberg 之类的开放文件格式，它提供表、事务、更新/删除、高级索引、流式摄取服务、数据聚簇/压缩优化和并发性。Hudi 于 2016 年推出，牢牢扎根...

Uber基于Apache Hudi增量 ETL 构建大规模数据湖

Uber基于Apache Hudi增量 ETL 构建大规模数据湖

Uber 的全球数据仓库团队使用统一的、 PB 级、集中建模的数据湖使所有 Uber 的数据民主化。数据湖由使用维度数据建模技术[1]开发的基础事实、维度和聚合表组成，工程师和数据科学家可以自助方式访问这些表，为 Uber 的数据工程、数据科学、机器学习和报告提供支持。因此，计算这些表的 ETL（提...

基于Apache Hudi构建数据湖的典型应用场景介绍

基于Apache Hudi构建数据湖的典型应用场景介绍

1. 传统数据湖存在的问题与挑战传统数据湖解决方案中，常用Hive来构建T+1级别的数据仓库，通过HDFS存储实现海量数据的存储与水平扩容，通过Hive实现元数据的管理以及数据操作的SQL化。虽然能够在海量批处理场景中取得不错的效果，但依然存在如下现状问题：问题一：不支持事务由于传统大数据方案不支持...

使用Apache Hudi + Amazon S3 + Amazon EMR + AWS DMS构建数据湖

使用Apache Hudi + Amazon S3 + Amazon EMR + AWS DMS构建数据湖

1. 引入数据湖使组织能够在更短的时间内利用多个源的数据，而不同角色用户可以以不同的方式协作和分析数据，从而实现更好、更快的决策。Amazon Simple Storage Service（amazon S3）是针对结构化和非结构化数据的高性能对象存储服务，可以用来作为数据湖底层的存储服务。然而许多...

使用Apache Spark和Apache Hudi构建分析数据湖

使用Apache Spark和Apache Hudi构建分析数据湖

1. 引入大多数现代数据湖都是基于某种分布式文件系统（DFS），如HDFS或基于云的存储，如AWS S3构建的。遵循的基本原则之一是文件的“一次写入多次读取”访问模型。这对于处理海量数据非常有用，如数百GB到TB的数据。但是在构建分析数据湖时，更新数据并不罕见。根据不同场景，这些更新频率可能是每小时...

共有13条

< 1 2 >

跳转至： GO

更新时间 2024-03-13 14:12:41

本页面内关键词为智能算法引擎基于机器学习所生成，如有任何问题，可在页面下方点击"联系我们"与我们沟通。

社区圈子

Apache Spark 中国技术社区

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区，定期推送精彩案例，问答区数个 Spark 技术同学每日在线答疑，只为营造 Spark 技术交流氛围，欢迎加入！

4459+人已加入

加入

相关电子书

更多

基于 Dledger 构建高可用 Apache RocketMQ 集群实践

# Apache Spark系列技术直播# 第八讲【微软Azure平台利用Intel Analytics Zoo构建AI客服支持实践】

基于Apache Flink的平台化构建及运维优化经验

基于 Dledger 构建高可用 Apache RocketMQ 集群实践

# Apache Spark系列技术直播# 第八讲【微软Azure平台利用Intel Analytics Zoo构建AI客服支持实践】

基于Apache Flink的平台化构建及运维优化经验

立即下载立即下载立即下载

相关视频

Flink Forward 实时湖仓“Apache Flink x Apache Doris 构建极速易用的实时湖仓架构” Dev-Talk 50085播放

基于 Dledger 构建高可用 Apache RocketMQ 集群实践开发者说 1688播放

趣头条基于 Apache Flink+ClickHouse 构建实时数据分析平台 | 开源大数据生态专场开发者说 2660播放

Apache构建相关内容

Apache您可能感兴趣