spark官方文档apache spark-阿里云

《Spark 官方文档》Spark编程指南

转自：http://ifeve.com/%E3%80%8Aspark-%E5%AE%98%E6%96%B9%E6%96%87%E6%A1%A3%E3%80%8Bspark%E7%BC%96%E7%A8%8B%E6%8C%87%E5%8D%97/

《Spark官方文档》提交Spark应用

提交Spark应用 spark-submit脚本在Spark的bin目录下，可以利用此脚本向集群提交Spark应用。该脚本为所有Spark所支持的集群管理器（ cluster managers）提供了统一的接口，因此，你基本上可以用同样的配置和脚本，向不同类型的集群管理器提交你的应用。打...

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第一阶段

33 课时 |

283 人已学 |

加入学习

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第二阶段

28 课时 |

248 人已学 |

加入学习

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第三阶段

25 课时 |

92 人已学 |

加入学习

《Spark 官方文档》在YARN上运行Spark

在YARN上运行Spark 对 YARN (Hadoop NextGen) 的支持是从Spark-0.6.0开始的，后续的版本也一直持续在改进。在YARN上启动首先确保 HADOOP_CONF_DIR 或者 YARN_CONF_DIR 变量指向一个包含Hadoop集群客户端配...

《Spark 官方文档》Spark配置（二）

内存管理属性名默认值含义 spark.memory.fraction 0.75 堆内存中用于执行、混洗和存储（缓存）的比例。这个值越低，则执行中溢出到磁盘越频繁，同时缓存被逐出内存也更频繁。这个配置的目的，是为了留出用户自定义数据结构、内部元数据使用的内存。推荐使用默认值。请参考this de...

《Spark 官方文档》Spark快速入门

快速入门本教程是对Spark的一个快速简介。首先，我们通过Spark的交互式shell介绍一下API（主要是Python或Scala），然后展示一下如何用Java、Scala、Python写一个Spark应用。更完整参考看这里：programming guide 首先，请到Spark websit...

《Spark 官方文档》Spark SQL, DataFrames 以及 Datasets 编程指南（四）

使用Spark SQL命令行工具 Spark SQL CLI是一个很方便的工具，它可以用local mode运行hive metastore service，并且在命令行中执行输入的查询。注意Spark SQL CLI目前还不支持和Thrift JDBC server通信。用如下命令，在spark...

《Spark 官方文档》Spark SQL, DataFrames 以及 Datasets 编程指南（二）

编程方式定义Schema Scala Java Python 如果不能事先通过case class定义schema（例如，记录的字段结构是保存在一个字符串，或者其他文本数据集中，需要先解析，又或者字段对不同用户有所不同），那么你可能需要按以下三个步骤，以编程方式的创建一个DataFrame：从已有...

《Spark 官方文档》Spark SQL, DataFrames 以及 Datasets 编程指南（一）

Spark SQL, DataFrames 以及 Datasets 编程指南概要 Spark SQL是Spark中处理结构化数据的模块。与基础的Spark RDD API不同，Spark SQL的接口提供了更多关于数据的结构信息和计算任务的运行时信息。在Spark内部，Spark SQL会能够用于...

《Spark官方文档》在YARN上运行Spark

Spark在 0.6.0版本后支持在YARN（hadoop NextGen）上运行，并且在后续版本中不断改进。在YARN上启动Spark 首先，确认 HADOOP_CONF_DIR或YARN_CONF_DIR指向的包含了Hadoop集群的配置文件。这些配置用于操作HDFS和连接YARN资源管理器。...