[帮助文档] 如何在Spark中管理并使用用户自定义函数UDF

本文档主要介绍了如何在Spark中管理并使用用户自定义函数UDF(User Define Function)。

大数据Spark偏移量管理

大数据Spark偏移量管理

1 重构代码针对前面实现【百度热搜排行榜Top10】实时状态统计应用来说,当应用关闭以后,再次启动(Restart)执行,并没有继续从上次消费偏移量读取数据和获取以前状态信息,而是从最新偏移量(Latest Offset)开始的消费,肯定不符合实际需求,有两...

大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop框架搭建)第一阶段

33 课时 |
283 人已学 |
免费

大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop框架搭建)第二阶段

28 课时 |
248 人已学 |
免费

大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop框架搭建)第三阶段

25 课时 |
92 人已学 |
免费
开发者课程背景图

[帮助文档] 如何开启Spark的LDAP_EMR on ECS_开源大数据平台 E-MapReduce(EMR)

服务开启LDAP认证功能后,访问服务需要提供LDAP身份认证(LDAP用户名和密码),可以提升服务的安全性。开启LDAP认证的功能可以方便您使用LDAP认证,避免了复杂的配置过程。

Spark中数据的位置是如何管理的?

Spark中数据的位置是如何管理的?

Spark中数据的位置是被谁管理的啊?

Spark中数据的位置是被谁管理的啊?

Spark中数据的位置是被谁管理的?

Spark中数据的位置是被谁管理的?

spark集群IP管理

部署spark集群的时候,所有节点都需要通过 hostname能找到对应机器的IP,有什么好的方案可以实现?还有master上的slaves文件可以动态加载新的node或者worker么?

【Spark Summit East 2017】ModelDB:用于管理机器学习模型的系统

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps。 本讲义出自Manasi Vartak在Spark S...

【Spark Summit East 2017】教会Spark集群弹性管理Worker

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps。 本讲义出自Erik Erlandson与Trevor...

Spark Streaming 1.6 流式状态管理分析

关于状态管理 在流式计算中,数据是持续不断来的,有时候我们要对一些数据做跨周期(Duration)的统计,这个时候就不得不维护状态了。而状态管理对Spark 的 RDD模型是个挑战,因为在spark里,任何数据集都需要通过RDD来呈现,而RDD 的定义是一个不变的分布式集合。在状态管理中,比如Spa...

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

社区圈子

Apache Spark 中国技术社区
Apache Spark 中国技术社区
阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!
4459+人已加入
加入
相关电子书
更多
云HBaseSQL及分析 ——Phoenix&Spark
R AND SPARK
Spark Autotuning
立即下载 立即下载 立即下载