API参考

对于Delta表上最常见的读写操作,可以使用Apache Spark读取器和编写器API(请参阅 表批读写 和 表流读写)。但是,有一些特定于Delta Lake的操作,您必须使用Delta Lake编程API。本文介绍了这些编程API。Databricks确保Delta Lake项目和...

通过JDBC连接Spark Thrift Server提交Spark作业

本文介绍通过JDBC连接Spark Thrift Servert并成功提交Spark作业。前提条件 连接Spark Thrift Server需要校验用户名和密码,请进行用户认证配置,请参见:用户管理 DDI集群Spark Thrift Server默认端口号为10001,请确认成功添加安全组白...

迁移指南

说明 详情可参考Databricks官网文章:迁移指南 将工作负载迁移到Delta Lake 当您将工作负载迁移到Delta-Lake时,您应该注意到以下简化和与apachespark和apachehive提供的数据源相比的区别。Delta Lake自动处理以下操作,您永远不要手动执行...

文本文件

1,a,10000,11-03-2019,pune 2,b,10020,14-03-2019,pune 3,a,34567,15-03-2019,pune tyui,a,fgh-03-2019,pune 4,b,10020,14-03-2019,pune%spark val path="oss:/databricks-data-source/datas/dataTest.csv"val dtDF=spark.read.textFile...

Notebook-航空公司数据分析示例

读取OSS数据、打印schema,创建TempView Load OSS data%spark val sparkDF=spark.read.format("csv").option("header","true").option("inferSchema","true").load("oss:/databricks-demo-hangzhou/airline_statistic_usa.csv")Print ...

表删除,更新和合并

要在使用updateAll和insertAll(至少其中一个)执行merge操作期间自动更新表架构,可以在运行merge操作之前设置Spark会话配置spark.databricks.delta.schema.autoMerge.enabled为true。说明 架构演变仅在同时存在一个updateAll或一个...

表批读写

有关Delta Lake SQL命令的信息,请参见 Databricks Runtime 7.0及更高版本:Databricks Runtime 7.x SQL参考 Databricks Runtime 6.x及以下版本:Databricks Runtime 5.5 LTS和6.x SQL参考 建立表格 Delta Lake支持使用DataFrameWriter...

JindoFS

本文介绍如何使用Databricks 读写JindoFS数据数据。前提条件 通过主账号登录 阿里 Databricks控制台。已创建 EMR集群,具体参见 EMR集群创建 已创建DDI集群,具体请参见 DDI集群创建。创建集群并通过knox账号访问NoteBook。重要 版本...

表流读写

说明 详细内容请参考Databricks官网文章:表流读写 有关演示这些功能的Databricks笔记本,请参阅 入门笔记本二。Delta Lake通过readStream和writeStream与Spark结构化流式处理深度集成。Delta Lake克服了许多流式处理系统和文件相关的常见...

自动优化

说明 详细内容可参考Databricks官网文章:自动优化 自动优化的工作原理 自动优化包含两个重要特性:优化Delta表的写入 在开源版Spark中,每个executor向partition中写入文件时,都会创建一个文件进行写入,最终会导致一个partition中包含...

使用OPTIMIZE和Z-ORDER优化商品库存查询性能

步骤二:创建Notebook、导入数据、进行数据分析%pyspark#将csv文件转化为parquet格式#注意文件读取和保存的路径请按照您的oss路径进行配置 spark.read.option("header","true")\.csv("oss:/databricks-demo/online_retail.csv")\.select(...

Delta Lake 快速入门

Python%pyspark events=spark.read.json("/databricks-datasets/structured-streaming/events/")events.write.partitionBy("date").format("delta").save("/mnt/delta/events")spark.sql("CREATE TABLE events USING DELTA LOCATION '/mnt/...

工作流调度Zeppelin Notebook

Databricks数据开发中,您可以在项目空间的作业编辑中创建一组有依赖的 Zeppelin 作业,然后创建工作流,按照依赖次序定义执行顺序,Databricks工作流支持基于有向无环(DAG)并行执行大数据作业。前提条件 通过主账号登录 阿里 ...

创建数据开发作业

Type String 是 SPARK 作业类型,取值如下:SPARKspark作业,使用spark-submit提交 ZEPPELIN:提交zeppelin notebook,使用该作业类型,作业的params参数为notebook id SPARK_STREAMING:提交spark流处理作业 FailAct String 否 STOP ...

通过文件管理优化性能

可以通过将 Spark 会话配置 spark.databricks.delta.stalenessLimit 设置为时间字符串值(例如 1h、15m、1d 分别为 1 小时、15 分钟和 1 天)来配置表数据的过时程度。此配置是特定session,因此不会影响其他用户从其他笔记本、作业或BI...

表实用程序命令

如果您确定在此表上执行的操作没有超过计划指定的保留时间间隔,你可以通过设置ApacheSpark属性spark.databricks.delta.retentionDurationCheck.enabled设置为false来关闭此安全检查。选择的时间间隔,必须比最长的并发事务长,也必须比...

工作流使用案例

Databricks数据开发中,您可以在项目空间的作业编辑中创建一组有依赖的作业,然后创建工作流,按照依赖次序定义执行顺序,Databricks工作流支持基于有向无环(DAG)并行执行大数据作业。前提条件 通过主账号登录 阿里 Databricks控制台...

查询作业列表

Job Type String SPARK 作业的类型,可能的取值有:SPARKSPARK_STREAMING,ZEPPELIN FailAct String STOP 失败策略,可能的取值:CONTINUE(提过本次作业),STOP(停止作业)CustomVariables String {"scope":"project"} 自定义变量。...

Bloom过滤器索引

布隆过滤器是一项非常有用的Data-skipping技术。...禁用布隆过滤器索引 Databricks默认启用布隆过滤器索引,如果需要禁用布隆过滤器索引,可以通过设置配置项spark.databricks.io.skipping.bloomFilter.enabled 为false实现。

并发控制

说明 详情请参考Databricks官网文章:并发控制。Delta Lake在读取和写入之间提供ACID事务保证。这意味着:跨多个集群的多个编写器可以同时修改表分区,并查看表的一致性快照视图,并且这些写入操作将具有序列顺序。即使在作业过程中修改了...

查询作业运行实例列表

JobType String 否 SPARK 作业的类型,可能的取值有:SPARKSPARK_STREAMING,ZEPPELIN InstanceId String 否 FJI-BCCAE48B90CC*作业实例ID。您可以调用DescribeFlowJob查看作业实例ID。TimeRange String 否 {"type":"range","from":...

修改数据开发作业

调用ModifyFlowJob接口,修改数据开发作业。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求参数 名称 类型 是否必选 示例值 描述 Action String 是 ...

查询作业信息

返回数据 名称 类型 示例值 描述 Type String SPARK 作业的类型,可能的取值有:SPARKSPARK_STREAMING,ZEPPELIN LastInstanceId String FJI-0BA97D0BB8F3*最后一次执行的实例ID。EnvConf String {"key":"value"} 环境变量设置。...

查询工作流实例列表

StatusList.N String 否 RUNNING 工作流状态:PREP:准备中 RUNNING:运行中 SUCCEEDED:成功 FAILED:失败 KILLED:已终止 SUSPENDED:暂停中 返回数据 名称 类型 示例值 描述 RequestId String EDF99BA3-F7AF-49B2-ABA1-36430A31F482 ...

修改工作流

返回数据 名称 类型 示例值 描述 Data Boolean true 返回执行结果,包含如下:true:成功 false:失败 RequestId String 243D5A48-96A5-4C0C-8966-93CBF65635ED 请求ID。示例 请求示例 http(s):/[Endpoint]/?Action=ModifyFlowForWeb&...

Java管理

使用NoteBook引入Java依赖的三种方式 spark.jars spark.jars.packages spark.files 说明 用户做好配置之后,在启动spark任务之前(即第一次运行spark、pyspark、sparkR或者sparkSQL相关代码之前)运行spark.conf段落即可对将要启动的spark...

查询节点实例详情

返回数据 名称 类型 示例值 描述 Status String OK 实例的执行状态,取值如下:PREP(等待启动)SUBMITTING(提交中)RUNNING(运行中)DONE(已完成)OK(执行成功)FAILED(执行失败)KILLED(已终止)KILL_FAILED(终止失败)START_...

优化数据转换

Databricks使用嵌套类型优化高阶函数和 DataFrame 操作的...请参阅以下文章以了解如何开始使用这些优化的高阶函数和复杂数据类型:Higher-order functions Transform complex data types 说明 详细内容可参考Databricks官网文章:优化数据转换

入门笔记本

这些笔记本显示了如何将JSON数据转换为Delta Lake格式,创建Delta表,追加到表,优化结果表,最后使用Delta Lake元数据命令显示表的历史记录,格式和详细信息。Delta Lake Quickstart Python笔记本 Note 链接地址:Databricks Delta ...

约束条件

说明 详细内容请参考Databricks官网文章:约束条件 注意 在Databricks Runtime 7.4及更高版本中可用。Delta表支持标准的SQL约束管理子句,以确保自动验证添加到表中的数据的质量和完整性。当违反约束时,Delta Lake会抛出一个...

解绑标签

调用UntagResources接口可以为指定的Databricks集群解绑标签。解绑后,如果该标签没有绑定其他任何资源,会被自动删除。请求参数 名称 类型 是否必选 示例值 描述 Action String 否 TagResource 系统规定参数。对于您自行拼凑HTTP或...

关闭弹性伸缩

操作步骤 登录 阿里云Databricks控制台。在顶部菜单栏处,选择地域(Region)。单击左侧 集群 页签。在 集群管理 页面,单击相应集群所在行的 详情。在 详情 页面上部页签栏,单击 弹性伸缩。在 弹性伸缩 页面,单击 关闭弹性伸缩 划窗。在...

返回结果

调用成功返回的数据格式主要有 XML 和 JSON 两种,外部系统可以在请求时传入参数来制定返回的数据格式,默认为 XML 格式。成功结果 JSON示例:{"Data":"true","RequestId":"2670BCFB-925D-4C3E-9994-8D12F7A9F538"} 错误结果 调用接口出错...

隔离等级

Databricks上的Delta Lake支持两种隔离级别:Serializable和WriteSerializable。说明 详细内容可参考Databricks官网文章:隔离等级 Serializable:最强的隔离级别。它确保提交的写入操作和所有读取都是可序列化。只要有一个串行序列一次...

公共参数

公共请求参数是指每个接口都需要使用到的请求参数。...返回结果数据->接口名称+Response>JSON示例:{"RequestId":"4C467B38-3910-447D-87BC-AC049166F216",/*返回结果数据*/}$icmsDocProps={'productMethod':'created','language':'zh-CN',};

创建并绑定标签

调用TagResources接口,为指定的Databricks集群列表统一创建并绑定标签。调用该接口时,有如下使用限制:最多可以给集群绑定20个标签(包括集群已有标签)标签键和值均不能以“acs:”或者“aliyun”开头,且标签键和值均不能包含“http://...

API概览

本文为您介绍阿里DDI提供的API接口及说明。API 描述 克隆工作流 调用CloneFlow接口,克隆工作流。克隆作业 调用CloneFlowJob接口,克隆作业。创建数据开发作业 调用 CreateFlowJob接口,创建数据开发作业。创建项目空间 调用...

删除数据开发项目

调用 DeleteFlowProject 接口删除数据开发项目。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求参数 名称 类型 是否必选 示例值 描述 Action String ...

克隆工作流

返回数据 名称 类型 示例值 描述 Id String FJ-3FC8XXXXXDXX00C0 clone得到的新的作业ID RequestId String 0b16392216407604990527735e8d05 请求ID。示例 请求示例 http(s):/[Endpoint]/?Action=CloneFlow&ProjectId=FP-A1BE52DDXXXXX3&Id=...

修改数据开发项目

调用 ModifyFlowProject 接口,修改数据开发项目。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求参数 名称 类型 是否必选 示例值 描述 Action String...
共有116条 < 1 2 3 4 ... 116 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云数据库 Redis 版 云数据库专属集群 开源大数据平台 E-MapReduce 云原生数据湖分析 (文档停止维护) 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用