Spark数据集<Row>向量列到数组类型转换

我有一个列“功能”,它是一个矢量。有没有办法将此Vector列转换为Array列?我正在使用Spark 2.3和Java。实际上,最终目标是将Vector拆分为单独的列。

如何根据条件为日期列的列中值的出现来过滤spark数据帧?

我正在使用数据框看起来像: df client | date C1 |08-NOV-18 11.29.43 C2 |09-NOV-18 13.29.43 C2 |09-NOV-18 18.29.43 C3 |11-NOV-18 19.29.43 C1 |12-NOV-18 10.29.43 C2 |...

大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop框架搭建)第一阶段

33 课时 |
283 人已学 |
免费

大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop框架搭建)第二阶段

28 课时 |
248 人已学 |
免费

大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop框架搭建)第三阶段

25 课时 |
92 人已学 |
免费
开发者课程背景图

拆分spark DataFrame列

我正在使用spark 2.3我有这样的DataFrame(在其他情况下_c0可能包含20个内部字段):c0 | _c11.1 1.2 4.55 | a4.44 3.1 9.99 | b1.2 99.88 10.1 | x我想拆分c0,并像这样创建新的DataFrame:col1 |col2 |c.....

如何将Spark列的名称作为String?

我想编写一个方法来舍入数字列而不执行以下操作:df.select(round($"x",2).as("x"))因此,我需要一个可重用的列表达式,如:def roundKeepName(c:Column,scale:Int) = round(c,scale).as(c.name)但c.name是不存在...

将一行中的每个列传递到Spark SQL中的哈希函数

我有一个包含N列的表,我想将它们连接到一个字符串列,然后在该列上执行哈希。我在Scala中发现了类似的问题。我想在Spark SQL中完全做到这一点,理想情况下,我已经尝试过,HASH(*) as myhashcolumn但由于有些列有时为null,我无法按照我的预期使其工作。如果我必须创建一个UD...

根据spark scala中数据框中的列拆分获取长度

有一个包含文本的“备注”列的数据框。我想通过检查备注列长度来添加新列。例如,如果备注列的长度== 2,我需要拆分($“备注”,“”)(1)。否则我会把备注栏视为原样。例如:remarks =“xxxx yyyy”,我希望count应该是2,如果是这种情况,我需要将yyyy作为我们正在添加的新列中的值...

在Scala Spark中以编程方式将所有特定数据类型列转换为其他数据类型

我正在以编程方式尝试转换列的数据类型并遇到一些编码问题。 我修改了这里使用的代码。 数据>>任何数字都被读作字符串。 代码>> import org.apache.spark.sqlraw_data.schema.fields .collect({case x if x.da...

Spark数据帧Timestamp列从Mapr DB表中推断为InvalidType

我用Spark从MapR DB读表。但是timestamp列被推断为InvalidType。从Mapr db读取数据时,也没有设置模式的选项。root |-- Name: string (nullable = true) |-- dt: struct (nullable = true) | |-- ...

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

社区圈子

Apache Spark 中国技术社区
Apache Spark 中国技术社区
阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!
4459+人已加入
加入
相关电子书
更多
云HBaseSQL及分析 ——Phoenix&Spark
R AND SPARK
Spark Autotuning
立即下载 立即下载 立即下载