Spark 概念学习系列之Apache Spark是什么?(一)
简单地说, Spark是发源于美国加州大学伯克利分校AMPLab的大数据分析平台,它立足于内存计算,从多迭代批量处理出发,兼顾数据仓库、 流处理和图计算等多种计算范式,是大数据系 统领域的全栈计算平台。 &...
Spark SQL概念学习系列之Spark Shark是什么?
Shark是构建在Spark和Hive基础之上的数据仓库。 目前,Shark已经完成学术使命,终止开发,但其架构和原理仍具有借鉴意义。 它提供了能够查询Hive中所存储数据的一套SQL接口,兼容现有的Hive QL语法。 这样,熟悉Hive QL或者SQL的用户可以基于Shark进行快速的Ad-H...
Spark 概念学习系列之Spark计算工作流(十二)
下图 中描述了 Spark 的输入、运行转换、输出。 在运行转换中通过算子对 RDD进行转换。 算子是 RDD 中定义的函数,可以对 RDD 中的数据进行转换和操作。 输入:在 Spark 程序运行中,数据从外部数据空间(例如, HDFS、 Scala 集合或数据)输入...
Spark RDD概念学习系列之RDD的5大特点(五)
RDD的5大特点 1)有一个分片列表,就是能被切分,和Hadoop一样,能够切分的数据才能并行计算。 一组分片(partition),即数据集的基本组成单位,对于RDD来说,每个分片都会被一个计算任务处理,并决定并行计算的粒度。用户...
Spark RDD概念学习系列之细谈RDD的弹性(十六)
细谈RDD的弹性 所谓,弹性,是指在内存不够时可以与磁盘进行交换。 弹性之一:自动的进行内存和磁盘数据存储的切换 弹性之二:基于Lineage(血缘)的高效容错 弹性之...
Hadoop概念学习系列之谈hadoop/spark里为什么都有,键值对呢?(四十)
很少有人会这样来自问自己?只知道,以键值对的形式处理数据并输出结果,而没有解释为什么要以键值对的形式进行。 包括hadoop的mapreduce里的键值对,spark里的rdd里的map等。 这是为什么呢? 1、键值对的具体含义 首先,我们会通过强调Java标准库中的类似概念,来阐...
Hadoop概念学习系列之为什么hadoop/spark执行作业时,输出路径必须要不存在?(三十九)
很多人只会,但没深入体会和想为什么要这样? 拿Hadoop来说,当然,spark也一样的道理。 输出路径由Hadoop自己创建,实际的结果文件遵守part-nnnn的约定。 如何指定一个已有目录作为Hadoop作业的输出路径,作业将无法进行,并会抛出异常抗议一个已经存在的目录。如果想让...
Spark RDD概念学习系列之rdd持久化、广播、累加器(十八)
1、rdd持久化 2、广播 3、累加器 1、rdd持久化 通过spark-shell,可以快速的验证我们的想法和操作! 启动hdfs集群 spark@SparkSingleNode:/usr/local/hadoop/hadoop-2.6.0$ ...
Hadoop概念学习系列之Java调用Shell命令和脚本,致力于hadoop/spark集群(三十六)
第一种:普通做法 首先,编号写WordCount.scala程序。 然后,打成jar包,命名为WC.jar。比如,我这里,是导出到windows桌面。 其次,上传到linux的桌面,再移动到hdfs的/目录。 最后,在spark安装目录...
Spark RDD概念学习系列之RDD的重要内部属性(十五)
RDD的重要内部属性 通过 RDD 的内部属性,用户可以获取相应的元数据信息。通过这些信息可以支持更复杂的算法或优化。 1)分区列表:通过分区列表可以找到一个 RDD 中包含的所有分区及其所在地址。 2)计算每个分片的函数:通过函数可以对每个数据块进行 RDD 需要进...
本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。
社区圈子
apache spark您可能感兴趣
- apache spark Hadoop
- apache spark数据
- apache spark分析
- apache spark Python
- apache spark数据处理
- apache spark入门
- apache spark大数据
- apache spark配置
- apache spark安装
- apache spark单机
- apache spark SQL
- apache spark streaming
- apache spark Apache
- apache spark rdd
- apache spark MaxCompute
- apache spark运行
- apache spark集群
- apache spark summit
- apache spark模式
- apache spark学习
- apache spark机器学习
- apache spark实战
- apache spark Scala
- apache spark flink
- apache spark程序
- apache spark操作