大数据spark 项目-大数据spark 项目文档介绍内容-阿里云

API参考

对于Delta表上最常见的读写操作，可以使用Apache Spark读取器和编写器API（请参阅表批读写和表流读写）。但是，有一些特定于Delta Lake的操作，您必须使用Delta Lake编程API。本文介绍了这些编程API。Databricks确保Delta Lake项目和...

读取OSS数据、打印schema，创建TempView Load OSS data%spark val sparkDF=spark.read.format("csv").option("header","true").option("inferSchema","true").load("oss:/databricks-demo-hangzhou/airline_statistic_usa.csv")Print ...

作业日期设置

在Databricks数据洞察控制台页面，选择所在的地域（Region）。创建的集群将会在对应的地域内，一旦创建后不能修改。在左侧导航栏，单击项目空间。在项目空间页面，单击待操作项目所在行的作业编辑。进行作业设置。在作业编辑页面，选择...

CSV文件

spark spark.read.format("csv")1.hearder 选项默认header=false%spark val path="oss:/databricks-data-source/datas/input.csv"val dtDF=spark.read.format("csv").option("mode","FAILFAST").load(path)dtDF.show(5)数据展示 header=...

迁移指南

说明详情可参考Databricks官网文章：迁移指南将工作负载迁移到Delta Lake 当您将工作负载迁移到Delta-Lake时，您应该注意到以下简化和与apachespark和apachehive提供的数据源相比的区别。Delta Lake自动处理以下操作，您永远不要手动执行...

通过文件管理优化性能

可以通过将 Spark 会话配置 spark.databricks.delta.stalenessLimit 设置为时间字符串值（例如 1h、15m、1d 分别为 1 小时、15 分钟和 1 天）来配置表数据的过时程度。此配置是特定session，因此不会影响其他用户从其他笔记本、作业或BI...

工作流调度Zeppelin Notebook

在Databricks数据开发中，您可以在项目空间的作业编辑中创建一组有依赖的 Zeppelin 作业，然后创建工作流，按照依赖次序定义执行顺序，Databricks工作流支持基于有向无环（DAG）并行执行大数据作业。前提条件通过主账号登录阿里云 ...

自动优化

手动执行Optimize命令时默认合并的文件大小为1GB，而自动压缩默认产生的文件大小为128MB（最大），可以使用spark conf：spark.databricks.delta.autoCompact.maxFileSize 进行控制；自动压缩会使用贪心算法，选择收益最大的一些partition来...

表批读写

有关Delta Lake SQL命令的信息，请参见 Databricks Runtime 7.0及更高版本：Databricks Runtime 7.x SQL参考 Databricks Runtime 6.x及以下版本：Databricks Runtime 5.5 LTS和6.x SQL参考建立表格 Delta Lake支持使用DataFrameWriter...

表删除，更新和合并

要在使用updateAll和insertAll（至少其中一个）执行merge操作期间自动更新表架构，可以在运行merge操作之前设置Spark会话配置spark.databricks.delta.schema.autoMerge.enabled为true。说明架构演变仅在同时存在一个updateAll或一个...

开启并配置弹性伸缩

当您的业务量需求不断波动时，建议您开启弹性伸缩功能并配置相应的伸缩规则，以使Databricks数据洞察可按业务量波动来增加和减少Task节点。操作步骤登录阿里云Databricks控制台。在顶部菜单栏处，根据实际情况选择地域（Region）和资源组...

CreateClusterV2

调用CreateClusterV2，创建一个Databricks 数据洞察集群。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。请求参数名称类型是否必选示例值描述 Action...

通过JDBC连接Spark Thrift Server提交Spark作业

确保您已安装Java环境和Java编程工具，并且已配置环境变量 Java代码连接Spark Thrift Server需要下载Databricks提供的依赖包，下载路径：Databricks JDBC Driver 将项目依赖SparkJDBC42.jar添加到编程工具的Lib下，如图：编写代码，连接...

文本文件

1,a,10000,11-03-2019,pune 2,b,10020,14-03-2019,pune 3,a,34567,15-03-2019,pune tyui,a,fgh-03-2019,pune 4,b,10020,14-03-2019,pune%spark val path="oss:/databricks-data-source/datas/dataTest.csv"val dtDF=spark.read.textFile...

按时间伸缩规则配置

配置伸缩规则在Databricks数据洞察中开启弹性伸缩时，如果选择按时间配置伸缩规则，则根据以下说明配置相关参数即可伸缩规则分为扩容规则和缩容规则。集群关闭弹性伸缩功能后，所有规则会被清空，再次开启弹性伸缩功能时，需要重新配置...

Delta Lake 快速入门

读一个表在这个部分：显示表格历史记录查询表的早期版本（时间行程）您可以通过在DBFS（"/mnt/delta/events"）或表名（"event"）上指定路径来访问Delta表中的数据：Scala%spark SELECT*FROM delta.`/mnt/delta/events` 或%spark val ...

表流读写

说明详细内容请参考Databricks官网文章：表流读写有关演示这些功能的Databricks笔记本，请参阅入门笔记本二。Delta Lake通过readStream和writeStream与Spark结构化流式处理深度集成。Delta Lake克服了许多流式处理系统和文件相关的常见...

表实用程序命令

如果您确定在此表上执行的操作没有超过计划指定的保留时间间隔，你可以通过设置ApacheSpark属性spark.databricks.delta.retentionDurationCheck.enabled设置为false来关闭此安全检查。选择的时间间隔，必须比最长的并发事务长，也必须比...

JindoFS

本文介绍如何使用Databricks 读写JindoFS数据源数据。前提条件通过主账号登录阿里云 Databricks控制台。已创建 EMR集群，具体参见 EMR集群创建已创建DDI集群，具体请参见 DDI集群创建。创建集群并通过knox账号访问NoteBook。重要版本...

优化数据转换

Databricks使用嵌套类型优化高阶函数和 DataFrame 操作的...请参阅以下文章以了解如何开始使用这些优化的高阶函数和复杂数据类型：Higher-order functions Transform complex data types 说明详细内容可参考Databricks官网文章：优化数据转换

工作流使用案例

在Databricks数据开发中，您可以在项目空间的作业编辑中创建一组有依赖的作业，然后创建工作流，按照依赖次序定义执行顺序，Databricks工作流支持基于有向无环（DAG）并行执行大数据作业。前提条件通过主账号登录阿里云 Databricks控制台...

最佳实践

说明详情请参考Databricks官网文章：最佳实践本文介绍了使用Delta Lake时的最佳做法。提供数据位置提示如果您通常希望在查询谓词中使用一个列，并且该列具有较高的基数（即，大量不同的值），则使用Z-ORDER-BY。Delta-Lake根据列值自动...

创建数据开发作业

Type String 是 SPARK 作业类型，取值如下：SPARK：spark作业，使用spark-submit提交 ZEPPELIN：提交zeppelin notebook，使用该作业类型，作业的params参数为notebook id SPARK_STREAMING：提交spark流处理作业 FailAct String 否 STOP ...

入门笔记本

这些笔记本显示了如何将JSON数据转换为Delta Lake格式，创建Delta表，追加到表，优化结果表，最后使用Delta Lake元数据命令显示表的历史记录，格式和详细信息。Delta Lake Quickstart Python笔记本 Note 链接地址：Databricks Delta ...

删除项目用户

调用DeleteFlowProjectUser接口，删除项目用户。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。请求参数名称类型是否必选示例值描述 Action String ...

删除工作流

返回数据名称类型示例值描述 Data Boolean true 返回执行结果，包含如下：true：删除成功。false：删除失败。RequestId String 11BAFBD8-8509-4177-A26D-407505E73713 请求ID。示例请求示例 http(s):/[Endpoint]/?Action=DeleteFlow&...

查询项目详情

调用 DescribeFlowProject 接口，查询项目详情。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。请求参数名称类型是否必选示例值描述 Action String ...

创建项目空间

调用CreateFlowProject，根据传入的地域、名称和描述创建项目空间，并返回创建好的项目空间的ID。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。请求参数 ...

Bloom过滤器索引

布隆过滤器是一项非常有用的Data-skipping技术。...禁用布隆过滤器索引 Databricks默认启用布隆过滤器索引，如果需要禁用布隆过滤器索引，可以通过设置配置项spark.databricks.io.skipping.bloomFilter.enabled 为false实现。

约束条件

说明详细内容请参考Databricks官网文章：约束条件注意在Databricks Runtime 7.4及更高版本中可用。Delta表支持标准的SQL约束管理子句，以确保自动验证添加到表中的数据的质量和完整性。当违反约束时，Delta Lake会抛出一个...

克隆工作流

返回数据名称类型示例值描述 Id String FJ-3FC8XXXXXDXX00C0 clone得到的新的作业ID RequestId String 0b16392216407604990527735e8d05 请求ID。示例请求示例 http(s):/[Endpoint]/?Action=CloneFlow&ProjectId=FP-A1BE52DDXXXXX3&Id=...

列出项目空间中项目

您可以调用ListFlowProjects查看项目的ID Name String 否 my_project 项目名称，用于过滤项目 PageNumber Integer 否 1 页码，用于分页 PageSize Integer 否 20 每页数量 ResourceGroupId String 否 rg-axndjccbxdj 资源组ID 返回数据名称...

解绑标签

调用UntagResources接口可以为指定的Databricks集群解绑标签。解绑后，如果该标签没有绑定其他任何资源，会被自动删除。请求参数名称类型是否必选示例值描述 Action String 否 TagResource 系统规定参数。对于您自行拼凑HTTP或...

查询项目用户信息

调用ListFlowProjectUser接口，查询项目用户列表。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。请求参数名称类型是否必选示例值描述 Action String...

关闭弹性伸缩

背景信息关闭弹性伸缩后，当前已经通过弹性伸缩功能扩充的Task节点将会全部释放，但HDFS存储的位于Core节点的数据不会受影响。如果关闭弹性伸缩后，集群计算资源不足，则建议您通过扩容来增加集群计算资源，详情请参见集群扩容。操作步骤...

并发控制

说明详情请参考Databricks官网文章：并发控制。Delta Lake在读取和写入之间提供ACID事务保证。这意味着：跨多个集群的多个编写器可以同时修改表分区，并查看表的一致性快照视图，并且这些写入操作将具有序列顺序。即使在作业过程中修改了...

暂停工作流

返回数据名称类型示例值描述 Data Boolean true 返回执行结果。RequestId String B46F8A2A-B46B-415C-8A9C-B01B99B775A2 请求ID。示例请求示例 http(s):/[Endpoint]/?Action=SuspendFlow&RegionId=...

删除工作流目录

返回数据名称类型示例值描述 Data Boolean true 返回执行结果，包含如下：true：删除成功。false：删除失败。RequestId String 243D5A48-96A5-4C0C-8966-93CBF65635ED 请求ID。示例请求示例 http(s):/[Endpoint]/?Action=...

恢复工作流

返回数据名称类型示例值描述 Data Boolean true 返回执行结果。RequestId String B46F8A2A-B46B-415C-8A9C-B01B99B775A2 请求ID。示例请求示例 http(s):/[Endpoint]/?Action=ResumeFlow&RegionId=...

查询作业列表

Job Type String SPARK 作业的类型，可能的取值有：SPARK，SPARK_STREAMING，ZEPPELIN FailAct String STOP 失败策略，可能的取值：CONTINUE（提过本次作业），STOP（停止作业）CustomVariables String {"scope":"project"} 自定义变量。...

大数据spark 项目

新品推荐