Scala Spark_第5页-阿里云

解析Apache Spark Scala中的数据org.apache.spark.SparkException：尝试使用textinputformat.record.delimiter时出现任务无序列化错误

输入文件： DATE 2018-11-16T06:3937Linux hortonworks 3.10.0-514.26.2.el7.x86_64 #1 SMP Fri Jun 30 05:26:04 UTC 2017 x86_64 x86_64 x86_64 GNU/Linux 06:39:37 ...

通过Spark / Scala使用webHDFS

如何使用spark访问webHDFS。问题陈述：“需要将文件从本地系统获取到HDFS，然后在Spark中处理它。想跳过SFTP。”

Scala核心编程 - 进阶

142 课时 |

349 人已学 |

加入学习

如何在Spark Scala中使用root元素读取多行json？

这是一个Sample JSON文件。我有root标签然后如何将JSON数据读入Dataframe并在控制台中打印。 { "Crimes": [ { "ID": 11034701, "Case Number": "JA366925", "Date": "01/01/2001 11:00:00 AM",...

如何将一个spark行（StructType）强制转换为scala案例类

如何在Spark Scala中读取嵌套JSON？

这是我的嵌套JSON文件。 {"dc_id": "dc-101","source": { "sensor-igauge": { "id": 10, "ip": "68.28.91.22", "description": "Sensor attached to the container ceilin...

Scala Spark中相同Spark Dataframe列上的顺序动态过滤器

我有一个名为root的列，需要根据根列的不同值过滤数据帧。假设我在root中有一个值是父，子或子子，我想通过变量动态应用这些过滤器。 val x = ("parent,child,sub-child").split(",")x.map(eachvalue var df1 = df.filter(c...

Spark scala让类找不到scala.Any

val schema = df.schemaval x = df.flatMap(r => (0 until schema.length).map { idx => ((idx, r.get(idx)), 1l) })这会产生错误 java.lang.ClassNotFoundExcep...

dataframe spark scala取每组的（MAX-MIN）

我有一个来自处理部分的数据框，如下所示：+---------+------+-----------+Timegroupvalue2837194906283729486428373946822837494574283839563028384957162838595913我想取每个组的（最大时间值 - ...

如何使用scala将特定函数转换为apache spark中的udf函数？[重复]

我在apache spark中有一个数据框，使用Scala创建。此数据框有两列Array [String]类型。我写了一个简单的函数，它接受这两列并返回单词的交集（返回常用单词的数量：Int）。我的数据框的一个例子如下所示。数据框示例及其列功能如下：def findNumberCommonWords...

Spark，Scala：如何从Rdd或dataframe中删除空行？

我在scala上使用spark。我在Rdd中有一些空行。我需要将它们从Rdd中删除。我试过它： val valfilteredRow = rddRow.filter(row => row!=null && row.length>0)但它没有用。 Rdd中的行看起来像[w...

共有112条

< 1 ... 3 4 5 6 ... 12 >

跳转至： GO

更新时间 2024-05-16 00:04:04

本页面内关键词为智能算法引擎基于机器学习所生成，如有任何问题，可在页面下方点击"联系我们"与我们沟通。

社区圈子

开发与运维

集结各类场景实战经验，助你开发运维畅行无忧

6418+人已加入

加入