[帮助文档] 基于Hadoop集群支持Delta Lake或Hudi存储机制

Delta Lake和Hudi是数据湖方案中常用的存储机制,为数据湖提供流处理、批处理能力。MaxCompute基于开源的Hadoop集群提供了支持Delta或Hudi存储机制的湖仓一体架构。您可以通过MaxCompute查询到实时数据,即时洞察业务数据变化。

✨[hadoop3.x]新一代的存储格式Apache Arrow(四)

✨[hadoop3.x]新一代的存储格式Apache Arrow(四)

历史文章[hadoop3.x系列]HDFS REST HTTP API的使用(一)WebHDFS[hadoop3.x系列]HDFS REST HTTP API的使用(二)HttpFS[hadoop3.x系列]Hadoop常用文件存储格式及BigData File Viewer工具的使用(三)✨[ha...

大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop框架搭建)第一阶段

33 课时 |
283 人已学 |
免费

大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop框架搭建)第二阶段

28 课时 |
248 人已学 |
免费

大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop框架搭建)第三阶段

25 课时 |
92 人已学 |
免费
开发者课程背景图
hadoop中压缩及存储常见格式图解

hadoop中压缩及存储常见格式图解

常见的压缩格式:Snappy,LZO,Gzip,bzip2,deflate常见的存储格式:储存格式指的是Hdfs 中存储文件的格式,常用的有SequnceFile、RCFile、Parquet和TextFileSequnceFileRCFile:ORCFile:Parquet :

[帮助文档] 如何使用一个Hadoop集群为所有项目创建计算源从而提供计算与存储资源

概述本文为您介绍Dataphin如何使用一个Hadoop集群为所有项目创建计算源从而提供计算与存储资源。详细信息1.Dataphin一个计算源只可以被一个项目所绑定。2.通过创建不同的Hive DB从而创建不同的计算源来达到一个Hadoop集群创建多个计算源从而为不同的项目提供存储和计算的需求。适用...

Hadoop-No.3之序列化存储格式

序列化存储指的是将数据结构转化为字节流的过程,一般用于数据存储或者网络传输.与之相反, 反序列化是将字节流转化为数据结果的过程.序列化是分布处理系统(比如Hadoop)的核心,原因在于他能对数据进行转化,形成一种格式.使用了这样的格式之后,数据可以有效的存储,也能通过网络连接进行传输.序列化通常与分...

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

社区圈子

大数据
大数据
大数据计算实践乐园,近距离学习前沿技术
188891+人已加入
加入
相关电子书
更多
Why is my Hadoop* job slow
Hadoop存储与计算分离实践
Hadoop存储与计算分离实践
立即下载 立即下载 立即下载
相关实验场景
更多