Apache Hudi从零到一:存储格式初探(一)

Apache Hudi从零到一:存储格式初探(一)

在花了大约 4 年时间致力于 Apache Hudi(其中包括 3 年Committer身份)之后,我决定开始这个博客系列(blog.datumagic.com),旨在以有组织且适合初学者的方式展示 Hudi 的设计和用法。我的目标是确保对分布式数据系统有一定了解的人能够轻松地理解该系列。该系列将包...

✨[hadoop3.x]新一代的存储格式Apache Arrow(四)

✨[hadoop3.x]新一代的存储格式Apache Arrow(四)

历史文章[hadoop3.x系列]HDFS REST HTTP API的使用(一)WebHDFS[hadoop3.x系列]HDFS REST HTTP API的使用(二)HttpFS[hadoop3.x系列]Hadoop常用文件存储格式及BigData File Viewer工具的使用(三)✨[ha...

Apache RocketMQ:如何从互联网时代演进到云

1 课时 |
154 人已学 |
免费

Apache Flink 入门到实战 - Flink开源社区出品

16 课时 |
1392 人已学 |
免费

Apache Flink 入门

9 课时 |
4826 人已学 |
免费
开发者课程背景图

请问使用apache-poi中HWPFDocument解析doc格式文档,如何获取自动生成的标题编号

请问使用apache-poi中HWPFDocument解析doc格式文档,如何获取自动生成的标题编号呢?如下图左侧的标题编号

Apache Flink使用Stream的方式写Apache ORC格式的文件到OSS可以实现吗?

当前场景想把部分数据通过Apache Flink Streaming de方式写入到OBS.格式为ORC。 有什么实现的方案吗? 例如,五分钟创建一次?或者X条写一次?

Apache Cassandra SSTable 存储格式详解

在 Cassandra 中,当达到一定条件触发 flush 的时候,表对应的 Memtable 中的数据会被写入到这张表对应的数据目录(通过 data_file_directories 参数配置)中,并生成一个新的 SSTable(Sorted Strings Table,这个概念是从 Google...

Apache Spark:Kafka以自定义格式编写

我正在构建一个使用Kafka主题的Spark SQL应用程序,转换一些数据,然后使用特定的JSON对象写回单独的Kafka主题。 现在我能够查询/转换我想要的内容并编写它: Dataset reader = myData.getRecordCount();reader.select(to_json(...

以json / text格式的Apache Spark DAG可视化

我正在考虑优化一些相当大的Apache Spark作业,并观察到DAG可视化对于特定阶段来说非常复杂。我无法理解外向箭头的位置,各种交叉点和猜测/假设是为了理解它。这是我可以下载DAG的text / json格式的方式,使用vim / text编辑器更容易分析吗?

比较Apache Hadoop 生态系统中不同的文件格式和存储引擎的性能

主题 这篇文章提出了在Apache Hadoop 生态系统中对比一些当前流行的数据格式和可用的存储引擎的性能:Apache Avro, Apache Parquet, Apache HBase 和 Apache Kudu 空间效率, 提取性能, 分析扫描以及随机数据查找等领域。这有助于理解它们中的每...

比较Apache Hadoop生态系统中不同的文件格式和存储引擎的性能

这篇文章提出了在Apache Hadoop生态系统中对比一些当前流行的数据格式和可用的存储引擎的性能:Apache Avro,Apache Parquet,Apache HBase和Apache Kudu空间效率,提取性能,分析扫描以及随机数据查找等领域。这有助于理解它们中的每一个如何(何时)改善你...

Apache Arrow 0.4.0 发布,内存数据交换格式

Apache Arrow 是 Apache 基金会下一个全新的开源项目,同时也是顶级项目。它的目的是作为一个跨平台的数据层来加快大数据分析项目的运行速度。 Apache Arrow 0.4.0 是刚刚发布的最新版本。包括自 0.3.0 发布以来,77 个已解决的问题。 下载地址: http://ar...

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

社区圈子

Apache Spark 中国技术社区
Apache Spark 中国技术社区
阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!
4459+人已加入
加入
相关电子书
更多
Apache Doris 精选用户案例集
Apache RocketMQ 云原生统一消息引擎
Apache Tomcat 的云原生演进
立即下载 立即下载 立即下载
相关镜像