[帮助文档] 如何在EMR的Hadoop集群中运行Spark作业对接DataHub数据

本文介绍如何在E-MapReduce的Hadoop集群,运行Spark作业消费DataHub数据、统计数据个数并打印出来。

[帮助文档] 如何通过ES-Hadoop实现Spark读写阿里云Elasticsearch数据

Spark是一种通用的大数据计算框架,拥有Hadoop MapReduce所具有的计算优点,能够通过内存缓存数据为大型数据集提供快速的迭代功能。与MapReduce相比,减少了中间数据读取磁盘的过程,进而提高了处理能力。本文介绍如何通过ES-Hadoop实现Hadoop的Spark服务读写阿里云El...

大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop框架搭建)第一阶段

33 课时 |
283 人已学 |
免费

大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop框架搭建)第二阶段

28 课时 |
248 人已学 |
免费

大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop框架搭建)第三阶段

25 课时 |
92 人已学 |
免费
开发者课程背景图

[帮助文档] 如何使用DLASpark访问用户VPC中的HADOOP集群

本文主要介绍如何使用DLA Spark访问用户VPC中的HADOOP集群(开启kerberos认证的集群暂不支持)。

《Spark与Hadoop大数据分析》——3.7 小结

3.7 小结 RDD 是 Spark 中基本的数据单元,Spark 编程就是围绕创建和执行 RDD 上的操作(如变换和动作)进行的。Apache Spark 程序可以在 shell 中交互式执行或通过提交应用程序来执行。它的并行度是由 RDD 中的分区数量决定的。而分区的数量则由 HDFS 文件中的...

《Spark与Hadoop大数据分析》一一

本节书摘来自华章计算机《Spark与Hadoop大数据分析》一书中的第3章,第3.1节,作者:文卡特·安卡姆(Venkat Ankam) 更多章节内容可以访问云栖社区“华章计算机”公众号查看。 3.1 启动 Spark 守护进程 如果你计划使用 Standalone 的集群管理器,则需要启动 Spa...

《Spark与Hadoop大数据分析》一一

本节书摘来自华章计算机《Spark与Hadoop大数据分析》一书中的第2章,第2.2节,作者:文卡特·安卡姆(Venkat Ankam) 更多章节内容可以访问云栖社区“华章计算机”公众号查看。 2.2 Apache Spark概述 Hadoop和MR已有10年历史,已经被证明是高性能处理海量数据的最...

《Spark与Hadoop大数据分析》一一

本节书摘来自华章计算机《Spark与Hadoop大数据分析》一书中的第1章,第1.3节,作者:文卡特·安卡姆(Venkat Ankam) 更多章节内容可以访问云栖社区“华章计算机”公众号查看。 1.3 工具和技术 让我们来看看在 Hadoop 和 Spark 中用于大数据分析的不同工具和技术。虽然 ...

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

社区圈子

Apache Spark 中国技术社区
Apache Spark 中国技术社区
阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!
4459+人已加入
加入
相关电子书
更多
云HBaseSQL及分析 ——Phoenix&Spark
R AND SPARK
Spark Autotuning
立即下载 立即下载 立即下载