[帮助文档] 创建工作空间

工作空间是Serverless Spark的基本单元,用于管理任务、成员、角色和权限。所有的任务开发都需要在具体的工作空间内进行。因此,在开始任务开发之前,您需要先创建工作空间。本文将为您介绍如何在EMR Serverless Spark页面快速创建工作空间。

[帮助文档] Spark SQL任务快速入门

EMR Serverless Spark支持通过SQL代码编辑和运行任务。本文带您快速体验Spark SQL任务的创建、启动和运维等操作。

阿里云大数据工程师ACA认证(2023版)

21 课时 |
807 人已学 |
免费

基于MaxCompute的热门话题分析

8 课时 |
329 人已学 |
免费

独家揭秘当下大数据体系

4 课时 |
331 人已学 |
免费
开发者课程背景图

[帮助文档] RAM用户授权

当RAM用户(子账号)进行EMR Serverless Spark操作,例如创建、查看或删除工作空间等操作时,必须具有相应的权限。本文为您介绍如何进行RAM授权。

[帮助文档] PySpark任务开发入门

您可以自行编写并构建包含业务逻辑的Python脚本,上传该脚本后,即可便捷地创建和执行PySpark任务。本文通过一个示例,为您演示如何进行PySpark任务的开发与部署。

[帮助文档] 阿里云账号角色授权

使用EMR Serverless Spark前,需要授予您的阿里云账号AliyunServiceRoleForEMRServerlessSpark和AliyunEMRSparkJobRunDefaultRole系统默认角色。本文为您介绍角色授权的基本操作。

大数据Spark DataFrame/DataSet常用操作2

大数据Spark DataFrame/DataSet常用操作2

3 多表操作Join3.1 数据准备先构建两个DataFramescala> val df1 = spark.createDataset(Seq(("a", 1,2), ("b",2,3) )).toDF("k1","k2","k3") df1: org.apache.spark.sql.Da...

大数据Spark DataFrame/DataSet常用操作1

大数据Spark DataFrame/DataSet常用操作1

1 一般操作:查找和过滤1.1 读取数据源1.1.1读取json使用spark.read。注意:路径默认是从HDFS,如果要读取本机文件,需要加前缀file://,如下scala> val people = spark.read.format("json").load("file:///o.....

大数据Spark DataFrame/DataSet常用操作4

大数据Spark DataFrame/DataSet常用操作4

3.2.2 其他join类型,只需把inner改成你需要的类型即可scala> df1.join(df2,Seq("k1"),"left").show +---+---+---+---+---+ | k1| k2| k3| k2| k4| +---+---+---+...

大数据Spark DataFrame/DataSet常用操作3

大数据Spark DataFrame/DataSet常用操作3

3 多表操作Join3.1 数据准备先构建两个DataFramescala> val df1 = spark.createDataset(Seq(("a", 1,2), ("b",2,3) )).toDF("k1","k2","k3") df1: org.apache.spark.sql.Da...

大数据Spark DataFrame/DataSet常用操作2

大数据Spark DataFrame/DataSet常用操作2

2 聚合操作:groupBy和agg2.1 排序算子sort(sort等价于orderBy)DF.sort(DF.col(“id”).desc).show 以DF中字段id降序,指定升降序的方法。另外可指定多个字段排序=DF.sort($“id”.desc).showDF.sort 等价于DF.or...

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

社区圈子

阿里巴巴大数据计算
阿里巴巴大数据计算
阿里大数据官方技术圈
347750+人已加入
加入
相关电子书
更多
基于Spark的流式处理引擎在Pandora大数据产品中的应用
从Spark到Kubernetes MaxCompute 的云原生开源生态实践之路
工业大数据 Spark查询优化案例分享
立即下载 立即下载 立即下载

云原生大数据计算服务 MaxComputespark相关内容