《 Delta Lake 数据湖专题系列5讲》文章回顾

《 Delta Lake 数据湖专题系列5讲》文章回顾

简介众所周知,Databricks 主导着开源大数据社区 Apache Spark、Delta Lake 以及 ML Flow 等众多热门技术,而 Delta Lake 作为数据湖核心存储引擎方案给企业带来诸多的优势。《Delta Lake数据湖专题系列5讲》由阿里云 DDI 团队翻译整理自大数据技...

数据湖构建服务搭配Delta Lake玩转CDC实时入湖

数据湖构建服务搭配Delta Lake玩转CDC实时入湖

什么是CDC Change Data Capture(CDC)用来跟踪捕获数据源的数据变化,并将这些变化同步到目标存储(如数据湖或数据仓库),用于数据备份或后续分析,同步过程可以是分钟/小时/天等粒度,也可以是实时同步。CDC方案分为侵入式(intrusive manner)和非倾入性(non-in...

大数据知识图谱系列—如何选择合适的OLAP引擎进行数据湖分析

4 课时 |
110 人已学 |
免费
开发者课程背景图
Delta Lake - 数据湖的数据可靠性

Delta Lake - 数据湖的数据可靠性

今天笔者将分享一位大神关于 Delta Lake 的演讲内容。这位是 Apache Spark 的 committer 和 PMC 成员,也是 Spark SQL 的最初创建者,目前领导 Databricks 团队,设计和构建 Structured Streaming 和 Databricks De...

Delta Lake 和 Apache Hudi 两种数据湖产品全方面对比

Delta Lake 和 Apache Hudi 两种数据湖产品全方面对比

Delta Lake 是数砖公司在2017年10月推出来的一个项目,并于2019年4月24日在美国旧金山召开的 Spark+AI Summit 2019 会上开源的一个存储层。它是 Databricks Runtime 重要组成部分。为 Apache Spark 和大数据 workloads 提供 ...

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

相关电子书
更多
数据湖技术解析
数据湖统一元数据与权限
中国云原生数据湖应用洞察 白皮书
立即下载 立即下载 立即下载