spark云主机-spark云主机文档介绍内容-阿里云

Java库管理

使用NoteBook引入Java依赖的三种方式 spark.jars spark.jars.packages spark.files 说明用户做好配置之后，在启动spark任务之前（即第一次运行spark、pyspark、sparkR或者sparkSQL相关代码之前）运行spark.conf段落即可对将要启动的spark...

动态文件剪枝

DFP主要由如下几个Spark配置项控制：spark.databricks.optimizer.dynamicFilePruning（默认值为true）：表示是否使用DFP，如果为true，则启动DFP，下沉DFP的过滤器，减少扫描的数据量。如果设置为false，则不启用DFP。spark.databricks....

MaxCompute

本文介绍如何使用Databricks 读写MaxCompute数据。前提条件已创建 MaxCompute实例，具体参见快速体验MaxCompute 通过主账号登录阿里云 Databricks控制台。已创建DDI集群，具体请参见 DDI集群创建。创建集群并通过knox账号访问NoteBook。...

spark.sql("DROP DATABASE IF EXISTS {} CASCADE".format(database))spark.sql("CREATE DATABASE {} location 'oss:/dome-test/case6/'".format(database))spark.sql("USE {}".format(database))说明您可以在 Databricks数据洞察控制台中...

Notebook-航空公司数据分析示例

读取OSS数据、打印schema，创建TempView Load OSS data%spark val sparkDF=spark.read.format("csv").option("header","true").option("inferSchema","true").load("oss:/databricks-demo-hangzhou/airline_statistic_usa.csv")Print ...

通过JDBC连接Spark Thrift Server提交Spark作业

确保您已安装Java环境和Java编程工具，并且已配置环境变量 Java代码连接Spark Thrift Server需要下载Databricks提供的依赖包，下载路径：Databricks JDBC Driver 将项目依赖SparkJDBC42.jar添加到编程工具的Lib下，如图：编写代码，连接...

常见问题（FAQ）

客户提供的加密密钥的服务器端加密您可以通过将设置spark.databricks.delta.multiClusterWrites.enabled为来禁用多集群写入false。如果禁用它们，对单个表的写入必须来自单个集群。我可以在Databricks Runtime之外访问Delta表吗？有两种...

迁移指南

说明详情可参考Databricks官网文章：迁移指南将工作负载迁移到Delta Lake 当您将工作负载迁移到Delta-Lake时，您应该注意到以下简化和与apachespark和apachehive提供的数据源相比的区别。Delta Lake自动处理以下操作，您永远不要手动执行...

Delta Lake 快速开始一

步骤二：创建Notebook、导入数据、进行数据分析定义Notebook中使用的路径path%pyspark#注意需要将数据文件events.json上传至您的OSS对应bucket下，events.json数据来源Databricks站点的open/close数据 inputPath="oss:/databricks-...

表批读写

有关Delta Lake SQL命令的信息，请参见 Databricks Runtime 7.0及更高版本：Databricks Runtime 7.x SQL参考 Databricks Runtime 6.x及以下版本：Databricks Runtime 5.5 LTS和6.x SQL参考建立表格 Delta Lake支持使用DataFrameWriter...

表流读写

说明详细内容请参考Databricks官网文章：表流读写有关演示这些功能的Databricks笔记本，请参阅入门笔记本二。Delta Lake通过readStream和writeStream与Spark结构化流式处理深度集成。Delta Lake克服了许多流式处理系统和文件相关的常见...

自动优化

手动执行Optimize命令时默认合并的文件大小为1GB，而自动压缩默认产生的文件大小为128MB（最大），可以使用spark conf：spark.databricks.delta.autoCompact.maxFileSize 进行控制；自动压缩会使用贪心算法，选择收益最大的一些partition来...

Delta Lake 快速入门

读一个表在这个部分：显示表格历史记录查询表的早期版本（时间行程）您可以通过在DBFS（"/mnt/delta/events"）或表名（"event"）上指定路径来访问Delta表中的数据：Scala%spark SELECT*FROM delta.`/mnt/delta/events` 或%spark val ...

Parquet（推荐）

读取Parquet数据%spark val inputPath="oss:/databricks-data-source/datas/parquet_data"val dtDF=spark.read.format("parquet").option("mode","FAILFAST").load(inputPath)dtDF.show(3)dtDF.printSchema()SQL 方式%sql CREATE TABLE ...

ORC文件

读取orc数据%spark val inputPath="oss:/databricks-data-source/datas/orc_data"val dataDF=spark.read.format("orc").option("header","true").option("inferSchema","true").option("mode","FAILFAST").load(inputPath)dataDF.show(3)...

表删除，更新和合并

要在使用updateAll和insertAll（至少其中一个）执行merge操作期间自动更新表架构，可以在运行merge操作之前设置Spark会话配置spark.databricks.delta.schema.autoMerge.enabled为true。说明架构演变仅在同时存在一个updateAll或一个...

通过文件管理优化性能

可以通过将 Spark 会话配置 spark.databricks.delta.stalenessLimit 设置为时间字符串值（例如 1h、15m、1d 分别为 1 小时、15 分钟和 1 天）来配置表数据的过时程度。此配置是特定session，因此不会影响其他用户从其他笔记本、作业或BI...

CSV文件

spark spark.read.format("csv")1.hearder 选项默认header=false%spark val path="oss:/databricks-data-source/datas/input.csv"val dtDF=spark.read.format("csv").option("mode","FAILFAST").load(path)dtDF.show(5)数据展示 header=...

JSON文件

{"key":"value3","extra_key":"extra_value3"}} 数据读取%spark val path="oss:/databricks-data-source/datas/example.json"val data_json=spark.read.format("json").load(path)data_json.show()data_json.printSchema()2.添加mode，...

文本文件

1,a,10000,11-03-2019,pune 2,b,10020,14-03-2019,pune 3,a,34567,15-03-2019,pune tyui,a,fgh-03-2019,pune 4,b,10020,14-03-2019,pune%spark val path="oss:/databricks-data-source/datas/dataTest.csv"val dtDF=spark.read.textFile...

返回结果

在调用方找不到错误原因时，可以联系阿里云客服，并提供该 HostId 和 RequestId，以便我们尽快帮您解决问题。JSON示例：{"code":"FLOW_API_FAILED","message":"project not exist","requestId":"11BAFBD8-8509-4177-A26D-407505E73713",...

查询资源标签

调用ListTagResources，查询一个或多个Databricks集群已绑定的标签列表，或者根据一组标签查询被改组标签绑定的资源。调用该接口时注意以下信息：请求中至少指定一个参数：ResourceId.N、Tag.N（Tag.N.Key与Tag.N.Value），以确定查询对象...

并发控制

说明详情请参考Databricks官网文章：并发控制。Delta Lake在读取和写入之间提供ACID事务保证。这意味着：跨多个集群的多个编写器可以同时修改表分区，并查看表的一致性快照视图，并且这些写入操作将具有序列顺序。即使在作业过程中修改了...

使用OPTIMIZE和Z-ORDER优化商品库存查询性能

步骤二：创建Notebook、导入数据、进行数据分析%pyspark#将csv文件转化为parquet格式#注意文件读取和保存的路径请按照您的oss路径进行配置 spark.read.option("header","true")\.csv("oss:/databricks-demo/online_retail.csv")\.select(...

Bloom过滤器索引

布隆过滤器是一项非常有用的Data-skipping技术。...禁用布隆过滤器索引 Databricks默认启用布隆过滤器索引，如果需要禁用布隆过滤器索引，可以通过设置配置项spark.databricks.io.skipping.bloomFilter.enabled 为false实现。

公共参数

公共请求参数是指每个接口都需要使用到的请求参数。...返回结果数据->接口名称+Response>JSON示例：{"RequestId":"4C467B38-3910-447D-87BC-AC049166F216",/*返回结果数据*/}$icmsDocProps={'productMethod':'created','language':'zh-CN',};

API概览

本文为您介绍阿里云DDI提供的API接口及说明。API 描述克隆工作流调用CloneFlow接口，克隆工作流。克隆作业调用CloneFlowJob接口，克隆作业。创建数据开发作业调用 CreateFlowJob接口，创建数据开发作业。创建项目空间调用...

删除工作流目录

返回数据名称类型示例值描述 Data Boolean true 返回执行结果，包含如下：true：删除成功。false：删除失败。RequestId String 243D5A48-96A5-4C0C-8966-93CBF65635ED 请求ID。示例请求示例 http(s):/[Endpoint]/?Action=...

暂停工作流

您可以调用DescribeRegions查看最新的阿里云地域列表。ProjectId String 是 FP-3535FE0BE522*项目ID。您可以调用ListFlowProject查看项目的ID。FlowInstanceId String 是 FI-9DDAAA3ADA5F*工作流实例ID。您可以调用ListFlowInstance查看...

恢复工作流

您可以调用DescribeRegions查看最新的阿里云地域列表。ProjectId String 是 FP-3535FE0BE522*项目ID。您可以调用ListFlowProject查看项目的ID。FlowInstanceId String 是 FI-9DDAAA3ADA5F*工作流实例ID。您可以调用ListFlowInstance查看...

结束工作流

您可以调用DescribeRegions查看最新的阿里云地域列表。ProjectId String 是 FP-257A173659F5*项目ID。您可以调用ListFlowProject查看项目的ID。FlowInstanceId String 是 FI-9DDAAA3ADA5F*工作流实例ID。您可以调用ListFlowInstance查看...

重命名目录

您可以调用DescribeRegions查看最新的阿里云地域列表。Id String 是 FC-ABCDEFGHI*目录ID。您可以调用DescribeFlowCategory查看。Name String 否 Test 目录名称。您可以调用DescribeFlowCategory查看。ParentId String 否 FC-ABCDEFGHI*...

停止作业实例

返回数据名称类型示例值描述 Data Boolean true 返回执行结果，包含如下：true（执行成功），false（执行失败）RequestId String B46F8A2A-B46B-415C-8A9C-B01B99B775A2 请求ID。示例请求示例 http(s):/[Endpoint]/?Action=...

添加项目用户

返回数据名称类型示例值描述 Data Boolean true 返回执行结果，包含如下：true：添加成功。false：添加失败。RequestId String 243D5A48-96A5-4C0C-8966-93CBF65635ED 请求ID。示例请求示例 http(s):/[Endpoint]/?Action=...

创建数据开发作业

Type String 是 SPARK 作业类型，取值如下：SPARK：spark作业，使用spark-submit提交 ZEPPELIN：提交zeppelin notebook，使用该作业类型，作业的params参数为notebook id SPARK_STREAMING：提交spark流处理作业 FailAct String 否 STOP ...

提交运行作业

您可以调用DescribeRegions查看最新的阿里云地域列表。ProjectId String 是 FP-3535FE0BE5228*项目ID。您可以调用ListFlowProject查看项目的ID。JobId String 是 FJ-1A2FB31D8295*作业ID。您可以调用ListFlowJob查看作业ID。ClusterId ...

查询项目用户信息

返回数据名称类型示例值描述 RequestId String 80F270E8-27BD-4F24-BB2A-CD3FBCC450DA 请求ID。PageNumber Integer 1 页码。PageSize Integer 10 每页数量。Total Integer 20 总数。Users Array of User User ProjectId String FP-3535...

表实用程序命令

如果您确定在此表上执行的操作没有超过计划指定的保留时间间隔，你可以通过设置ApacheSpark属性spark.databricks.delta.retentionDurationCheck.enabled设置为false来关闭此安全检查。选择的时间间隔，必须比最长的并发事务长，也必须比...

ListClusters

MachineType String ECS 集群的主机类型，目前默认为ECS。OrderList String 0 订单列表。CreateTime Long 1542784048000 创建时间。ChargeType String PostPaid 付费类型。DepositType String HALF_MANAGED 托管类型，标识集群是全托管还是...

签名机制

Access Key ID 和 Access Key Secret 由阿里云官方颁发给访问者（可以通过阿里云官方网站申请和管理），其中 Access Key ID 用于标识访问者的身份；Access Key Secret 是用于加密签名字符串和服务器端验证签名字符串的密钥，必须严格保密，...

spark云主机

新品推荐