《Spark与Hadoop大数据分析》——第2章 Apache Hadoop和Apache Spark入门

第2章 Apache Hadoop和Apache Spark入门 在本章,我们将学习 Hadoop 和 Spark 的基本知识,了解 Spark 与 MapReduce 有哪些不同,并开始安装集群和设置分析所需的工具。 本章分为以下几个子主题:

Apache Spark 2.0 最快4月亮相 预计效能翻九倍

1月才刚释出1.6版的大数据技术Spark,下一个2.0版本预计4、5月释出,将提供可运行在SQL/Dataframe上的结构化串流即时引擎,并统一化Dataset及DataFrame 大数据技术Spark今年1月才刚释出1.6版,下一个2.0版本就已经蓄势待发,预计今年4、5月释出,近日Spark...

大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop框架搭建)第一阶段

33 课时 |
283 人已学 |
免费

大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop框架搭建)第二阶段

28 课时 |
248 人已学 |
免费

大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop框架搭建)第三阶段

25 课时 |
92 人已学 |
免费
开发者课程背景图

《Spark与Hadoop大数据分析》一一第2章 Apache Hadoop和Apache Spark入门

第2章 Apache Hadoop和Apache Spark入门 在本章,我们将学习 Hadoop 和 Spark 的基本知识,了解 Spark 与 MapReduce 有哪些不同,并开始安装集群和设置分析所需的工具。本章分为以下几个子主题:介绍 Apache Hadoop介绍 Apache Spa...

Apache Spark机器学习3.1 Spark整体视图

摘要 基于Spark的整体视图 通过第1章,我们建立起了Spark系统,根据第2章的内容,我们完成了数据准备。现在将进入Spark系统应用的新阶段:从数据中获得洞见。 根据Gartner等机构的研究结果,许多公司仅仅是因为缺乏其商业的整体视图而损失了大量的价值。本章我们将回顾机器学习的方法和获得商业...

Apache Spark机器学习.1.8 Spark notebook简介

1.8 Spark notebook简介 在本节中,我们首先讨论有关面向机器学习的notebook方法。然后,我们介绍R Markdown,以其作为一个成熟的notebook案例,最后介绍Spark中的R notebook。 学习完本节,读者将掌握notebook相关的方法和概念,并为将其用于管理和...

Apache Spark机器学习.1.6 机器学习工作流和Spark pipeline

1.6 机器学习工作流和Spark pipeline 在本节中,我们介绍机器学习工作流和Spark pipeline,然后讨论Spark pipeline作为机器学习计算工作流的优秀工具是如何发挥作用的。 学习完本节,读者将掌握这两个重要概念,并且为编程和实现机器学习工作流的Spark pipeli...

Apache Spark机器学习.1.5 Spark RDD和DataFrame

1.5 Spark RDD和DataFrame 本节关注数据以及Spark如何表示和组织数据。我们将介绍Spark RDD和DataFrame技术。 通过本节的学习,读者将掌握Spark的两个关键概念:RDD和DataFrame,并将它们应用于机器学习项目。 1.5.1 Spark RDD Spar...

Apache Spark机器学习.1.2 在机器学习中应用Spark计算

1.2 在机器学习中应用Spark计算 基于RDD和内存处理的创新功能,Apache Spark真正使得分布式计算对于数据科学家和机器学习专业人员来说简便易用。Apache Spark团队表示:Apache Spark基于Mesos 集群管理器运行,使其可以与Hadoop以及其他应用共享资源。因此,...

Apache Spark机器学习.1.1 Spark概述和技术优势

摘要 Spark机器学习简介 本章从机器学习和数据分析视角介绍Apache Spark,并讨论Spark中的机器学习计算处理技术。本章首先概括介绍Apache Spark,通过与MapReduce等计算平台进行比较,展示Spark在数据分析中的技术优势和特点。接着,讨论如下五个方面的内容: 机器学习...

【Hadoop Summit Tokyo 2016】使Apache Zeppelin与Spark赋能企业数据科学

本讲义出自Bikas Saha在Hadoop Summit Tokyo 2016上的演讲,主要分享了如何使得数据科学在企业中变得容易实现以及目前企业中实现数据科学所面临的的挑战,并分享了在企业中如何使用Apache Zeppelin以及企业中数据科学的未来的发展规划。

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

社区圈子

Apache Spark 中国技术社区
Apache Spark 中国技术社区
阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!
4459+人已加入
加入
相关电子书
更多
Apache Spark: Cloud and On-Prem
Hybrid Cloud and Apache Spark
\"基于 Apache* Spark* 的大规模 分布式机器学习实践\"
立即下载 立即下载 立即下载