最佳实践 | 通过Apache Hudi和Alluxio建设高性能数据湖
T3出行的杨华和张永旭描述了他们数据湖架构的发展。该架构使用了众多开源技术,包括Apache Hudi和Alluxio。在本文中,您将看到我们如何使用Hudi和Alluxio将数据摄取时间缩短一半。此外,数据分析人员如何使用Presto、Hudi和Alluxio让查询速度提高了10倍。我们基于数据编...
通过Apache Hudi和Alluxio建设高性能数据湖
1.T3出行数据湖总览T3出行当前还处于业务扩张期,在构建数据湖之前不同的业务线,会选择不同的存储系统、传输工具以及处理框架,从而出现了严重的数据孤岛使得挖掘数据价值的复杂度变得非常高。由于业务的迅速发展,这种低效率成为了我们的工程瓶颈。我们转向了基于阿里巴巴OSS(类似于AWS S3的对象存储)的...
JindoFS: 云上大数据的高性能数据湖存储方案
本场视频链接:云上大数据的一种高性能数据湖存储方案 ppt观看:https://www.slidestalk.com/AliSpark/0761944 EMR JindoFS背景 计算存储分离已经成为云计算的一种发展趋势。在计算存储分离之前,普遍采用的是传统的计算存储相互融合的架构(下图左侧),但是...
JindoFS解析 - 云上大数据高性能数据湖存储方案
作者:殳鑫鑫,花名辰石,阿里巴巴计算平台事业部EMR团队技术专家,目前从事大数据存储以及Spark相关方面的工作。 2019 年云栖大会上,EMR Jindo 的技术存储分离方案得到很大的关注,视频直达链接【云上大数据的一种高性能数据湖存储方案】 【EMR打造高效云原生数据分析引擎】 JindoFS...
本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。