备案控制台

apache spark rdd算子的相关内容

Spark学习---day02、Spark核心编程（RDD概述、RDD编程（创建、分区规则、转换算子、Action算子））（一）

Spark学习---day02、Spark核心编程（RDD概述、RDD编程（创建、分区规则、转换算子、Action算子））（一）

前言 Spark计算框架为了能够进行高并发和高吞吐的数据处理，封装了三大数据结构，用于处理不同的应用场景。三大数据结构分别是： RDD : 弹性分布式数据集累加器：分布式共享只写变量广播变量：分布式共享只读变量接下...

[Spark精进]必须掌握的4个RDD算子之filter算子

返回第三章第四个filter：过滤 RDD在今天的最后，我们再来学习一下，与 map 一样常用的算子：filter。filter，顾名思义，这个算子的作用，是对 RDD 进行过滤。就像是 map 算子依赖其映射函数一样，filter 算子也需要借助一个判定函数 f，才能实现对 RDD 的过滤转换。所...

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第一阶段

33 课时 |

283 人已学 |

加入学习

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第二阶段

28 课时 |

248 人已学 |

加入学习

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第三阶段

25 课时 |

92 人已学 |

加入学习

开发者课程背景图

[Spark精进]必须掌握的4个RDD算子之flatMap算子

[Spark精进]必须掌握的4个RDD算子之flatMap算子

返回第二章第三个flatMap：从元素到集合、再从集合到元素flatMap 其实和 map 与 mapPartitions 算子类似，在功能上，与 map 和 mapPartitions 一样，flatMap 也是用来做数据映射的，在实现上，对于给定映射函数 f，flatMap(f) 以元素为粒度，...

[Spark精进]必须掌握的4个RDD算子之mapPartitions算子

[Spark精进]必须掌握的4个RDD算子之mapPartitions算子

返回第一章第二个mapPartitions：以数据分区为粒度的数据转换按照介绍算子的惯例，我们还是先来说说 mapPartitions 的用法。mapPartitions，顾名思义，就是以数据分区为粒度，使用映射函数 f 对 RDD 进行数据转换。对于上述单词哈希值计数的例子，我们结合后面的代码，来...

[Spark精进]必须掌握的4个RDD算子之map算子

序章第一个map. 以元素为粒度的数据转换我们先来说说 map 算子的用法：给定映射函数 f，map(f) 以元素为粒度对 RDD 做数据转换。其中 f 可以是带有明确签名的带名函数，也可以是匿名函数，它的形参类型必须与 RDD 的元素类型保持一致，而输出类型则任由开发者自行决定。我们使用如下代码，...

Spark学习---2、SparkCore（RDD概述、RDD编程（创建、分区规则、转换算子、Action算子））（二）

Spark学习---2、SparkCore（RDD概述、RDD编程（创建、分区规则、转换算子、Action算子））（二）

2.3.1.4 groupBy()分组1、用法：groupBy(f) ,以元素为粒度对每个元素执行函数f。2、函数f：（1）函数f为用户自定义实现内容，返回值任意（2）函数返回值为算子groupBy返回值的key，元素为value。（3）算子groupBy...

Spark学习---2、SparkCore（RDD概述、RDD编程（创建、分区规则、转换算子、Action算子））（一）

Spark学习---2、SparkCore（RDD概述、RDD编程（创建、分区规则、转换算子、Action算子））（一）

1、RDD概述1.1 什么是RDDRDD(Resilient Distributed Dataset)叫弹性分布式数据集，是Spark中对于分布式数据集的抽象。代码中是一个抽象类，它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。1.2 RDD五大特性1、一组分区，即是数据集的基本组成单...

Spark shuffle、RDD 算子【重要】

Spark shuffle、RDD 算子【重要】

一、介绍一下 Spark shuffle：Spark shuffle 就是将分布在不同结点的数据按照一定的规则进行打乱重组。那么，说起 shuffle 就想到 MapReduce 中的 shuffle，MapReduce 中的 shuffle 是来连接 Map 和 Reduce 的桥梁，Map 的输...

[帮助文档] 如何在使用SparkShell和RDD（新）_EMR on ECS_开源大数据平台 E-MapReduce(EMR)

本文为您介绍如何使用Spark Shell，以及RDD的基础操作。

Spark RDD算子进阶（转换算子、行动算子、缓存、持久化）（下）

Spark RDD算子进阶（转换算子、行动算子、缓存、持久化）（下）

3. 持久化持久化，也就是将 RDD 的数据缓存到内存中/磁盘中，以后无论对这个RDD做多少次计算，都是直接取这个RDD的持久化的数据，比如从内存中或者磁盘中，直接提取一份数据。可以使用 persist()函数来进行持久化，一般默认的存储空间是在内存中，如果内存不够就会写入磁盘中。persist 持...

共有20条

< 1 2 >

跳转至： GO

更新时间 2024-02-26 11:54:31

本页面内关键词为智能算法引擎基于机器学习所生成，如有任何问题，可在页面下方点击"联系我们"与我们沟通。

社区圈子

Apache Spark 中国技术社区

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区，定期推送精彩案例，问答区数个 Spark 技术同学每日在线答疑，只为营造 Spark 技术交流氛围，欢迎加入！

4459+人已加入

加入

相关电子书

更多

云HBaseSQL及分析 ——Phoenix&Spark

R AND SPARK

# Apache Spark系列技术直播# 第五讲【 Spark RDD编程入门】

云HBaseSQL及分析 ——Phoenix&Spark

R AND SPARK

# Apache Spark系列技术直播# 第五讲【 Spark RDD编程入门】

立即下载立即下载立即下载

相关视频

Apache Kyuubi & Celeborn，助力 Spark 拥抱云原生 Dev-Talk 999播放

洞悉 Spark 任务调度新能力｜Apache Spark + DolphinScheduler Meetup Dev-Talk 2666播放

从RDD到DataFrame到Spark SQL再到MLSQL，看数据/机器学习交互接口的发展 Dev-Talk 196播放

apache sparkrdd相关内容

apache spark更多rdd相关

apache spark您可能感兴趣