【大数据技术Hadoop+Spark】Spark RDD设计、运行原理、运行流程、容错机制讲解(图文解释)

【大数据技术Hadoop+Spark】Spark RDD设计、运行原理、运行流程、容错机制讲解(图文解释)

一、RDD的概念RDD(Resilient Distributed Dataset),即弹性分布式数据集,是一个容错的、并行的数据结构,可以让用户显式地将数据存储到磁盘和内存中,并且还能控制数据的分区。不同RDD之间可以通过转换操作形成依赖关系实现管道化,从而避免了中间结果的I/O操作,提高数据处理...

大数据Flink容错机制

大数据Flink容错机制

1 Checkpoint1.1 State Vs Checkpoint⚫ State:维护/存储的是某一个Operator的运行的状态/历史值,是维护在内存中!一般指一个具体的Operator的状态(operator的状态表示一些算子在运行的过程中会产生的一些历史结果,如前面的maxBy底层会维护当...

阿里云大数据工程师ACA认证(2023版)

21 课时 |
807 人已学 |
免费

基于MaxCompute的热门话题分析

8 课时 |
329 人已学 |
免费

独家揭秘当下大数据体系

4 课时 |
331 人已学 |
免费
开发者课程背景图

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

社区圈子

阿里巴巴大数据计算
阿里巴巴大数据计算
阿里大数据官方技术圈
347750+人已加入
加入
相关电子书
更多
Lindorm一站式车联网数据平台
Lindorm一站式AI数据平台实战
Lindorm:打造AI时代的 一体化数据平台
立即下载 立即下载 立即下载

云原生大数据计算服务 MaxCompute您可能感兴趣