Spark数据集<Row>向量列到数组类型转换
我有一个列“功能”,它是一个矢量。有没有办法将此Vector列转换为Array列?我正在使用Spark 2.3和Java。实际上,最终目标是将Vector拆分为单独的列。
如何根据条件为日期列的列中值的出现来过滤spark数据帧?
我正在使用数据框看起来像: df client | date C1 |08-NOV-18 11.29.43 C2 |09-NOV-18 13.29.43 C2 |09-NOV-18 18.29.43 C3 |11-NOV-18 19.29.43 C1 |12-NOV-18 10.29.43 C2 |...
拆分spark DataFrame列
我正在使用spark 2.3我有这样的DataFrame(在其他情况下_c0可能包含20个内部字段):c0 | _c11.1 1.2 4.55 | a4.44 3.1 9.99 | b1.2 99.88 10.1 | x我想拆分c0,并像这样创建新的DataFrame:col1 |col2 |c.....
如何将Spark列的名称作为String?
我想编写一个方法来舍入数字列而不执行以下操作:df.select(round($"x",2).as("x"))因此,我需要一个可重用的列表达式,如:def roundKeepName(c:Column,scale:Int) = round(c,scale).as(c.name)但c.name是不存在...
将一行中的每个列传递到Spark SQL中的哈希函数
我有一个包含N列的表,我想将它们连接到一个字符串列,然后在该列上执行哈希。我在Scala中发现了类似的问题。我想在Spark SQL中完全做到这一点,理想情况下,我已经尝试过,HASH(*) as myhashcolumn但由于有些列有时为null,我无法按照我的预期使其工作。如果我必须创建一个UD...
根据spark scala中数据框中的列拆分获取长度
有一个包含文本的“备注”列的数据框。我想通过检查备注列长度来添加新列。例如,如果备注列的长度== 2,我需要拆分($“备注”,“”)(1)。否则我会把备注栏视为原样。例如:remarks =“xxxx yyyy”,我希望count应该是2,如果是这种情况,我需要将yyyy作为我们正在添加的新列中的值...
在Scala Spark中以编程方式将所有特定数据类型列转换为其他数据类型
我正在以编程方式尝试转换列的数据类型并遇到一些编码问题。 我修改了这里使用的代码。 数据>>任何数字都被读作字符串。 代码>> import org.apache.spark.sqlraw_data.schema.fields .collect({case x if x.da...
Spark数据帧Timestamp列从Mapr DB表中推断为InvalidType
我用Spark从MapR DB读表。但是timestamp列被推断为InvalidType。从Mapr db读取数据时,也没有设置模式的选项。root |-- Name: string (nullable = true) |-- dt: struct (nullable = true) | |-- ...
本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。
社区圈子
apache spark您可能感兴趣
- apache spark大数据计算
- apache spark client
- apache spark报错
- apache spark模式
- apache spark任务
- apache spark Hive
- apache spark SQL
- apache spark yarn
- apache spark MaxCompute
- apache spark like
- apache spark streaming
- apache spark Apache
- apache spark数据
- apache spark Hadoop
- apache spark大数据
- apache spark rdd
- apache spark运行
- apache spark集群
- apache spark summit
- apache spark分析
- apache spark学习
- apache spark机器学习
- apache spark实战
- apache spark flink
- apache spark Scala
- apache spark程序