Spark 概念学习系列之Apache Spark是什么?(一)

简单地说,        Spark是发源于美国加州大学伯克利分校AMPLab的大数据分析平台,它立足于内存计算,从多迭代批量处理出发,兼顾数据仓库、 流处理和图计算等多种计算范式,是大数据系 统领域的全栈计算平台。      &...

Spark SQL概念学习系列之Spark Shark是什么?

 Shark是构建在Spark和Hive基础之上的数据仓库。 目前,Shark已经完成学术使命,终止开发,但其架构和原理仍具有借鉴意义。 它提供了能够查询Hive中所存储数据的一套SQL接口,兼容现有的Hive QL语法。 这样,熟悉Hive QL或者SQL的用户可以基于Shark进行快速的Ad-H...

大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop框架搭建)第一阶段

33 课时 |
283 人已学 |
免费

大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop框架搭建)第二阶段

28 课时 |
248 人已学 |
免费

大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop框架搭建)第三阶段

25 课时 |
92 人已学 |
免费
开发者课程背景图

Spark 概念学习系列之Spark计算工作流(十二)

下图 中描述了 Spark 的输入、运行转换、输出。   在运行转换中通过算子对 RDD进行转换。   算子是 RDD 中定义的函数,可以对 RDD 中的数据进行转换和操作。       输入:在 Spark 程序运行中,数据从外部数据空间(例如, HDFS、 Scala 集合或数据)输入...

Spark RDD概念学习系列之RDD的5大特点(五)

RDD的5大特点        1)有一个分片列表,就是能被切分,和Hadoop一样,能够切分的数据才能并行计算。   一组分片(partition),即数据集的基本组成单位,对于RDD来说,每个分片都会被一个计算任务处理,并决定并行计算的粒度。用户...

Spark RDD概念学习系列之细谈RDD的弹性(十六)

 细谈RDD的弹性       所谓,弹性,是指在内存不够时可以与磁盘进行交换。          弹性之一:自动的进行内存和磁盘数据存储的切换      弹性之二:基于Lineage(血缘)的高效容错      弹性之...

Hadoop概念学习系列之谈hadoop/spark里为什么都有,键值对呢?(四十)

  很少有人会这样来自问自己?只知道,以键值对的形式处理数据并输出结果,而没有解释为什么要以键值对的形式进行。 包括hadoop的mapreduce里的键值对,spark里的rdd里的map等。   这是为什么呢?    1、键值对的具体含义   首先,我们会通过强调Java标准库中的类似概念,来阐...

Hadoop概念学习系列之为什么hadoop/spark执行作业时,输出路径必须要不存在?(三十九)

 很多人只会,但没深入体会和想为什么要这样?   拿Hadoop来说,当然,spark也一样的道理。   输出路径由Hadoop自己创建,实际的结果文件遵守part-nnnn的约定。   如何指定一个已有目录作为Hadoop作业的输出路径,作业将无法进行,并会抛出异常抗议一个已经存在的目录。如果想让...

Spark RDD概念学习系列之rdd持久化、广播、累加器(十八)

1、rdd持久化 2、广播 3、累加器     1、rdd持久化   通过spark-shell,可以快速的验证我们的想法和操作!   启动hdfs集群 spark@SparkSingleNode:/usr/local/hadoop/hadoop-2.6.0$ ...

Hadoop概念学习系列之Java调用Shell命令和脚本,致力于hadoop/spark集群(三十六)

第一种:普通做法    首先,编号写WordCount.scala程序。    然后,打成jar包,命名为WC.jar。比如,我这里,是导出到windows桌面。    其次,上传到linux的桌面,再移动到hdfs的/目录。    最后,在spark安装目录...

Spark RDD概念学习系列之RDD的重要内部属性(十五)

RDD的重要内部属性       通过 RDD 的内部属性,用户可以获取相应的元数据信息。通过这些信息可以支持更复杂的算法或优化。 1)分区列表:通过分区列表可以找到一个 RDD 中包含的所有分区及其所在地址。 2)计算每个分片的函数:通过函数可以对每个数据块进行 RDD 需要进...

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

社区圈子

Apache Spark 中国技术社区
Apache Spark 中国技术社区
阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!
4459+人已加入
加入
相关电子书
更多
云HBaseSQL及分析 ——Phoenix&Spark
R AND SPARK
Spark Autotuning
立即下载 立即下载 立即下载