EMR HDFS

本文介绍如何使用Databricks 读写EMR HDFS文件系统数据。前提条件 通过主账号登录 阿里云 Databricks控制台。已创建 EMR集群,具体参见 EMR集群创建 已创建DDI集群,具体请参见 DDI集群创建。创建集群并通过knox账号访问Notebook。接入EMR ...

基于TPC-DS测试Databricks引擎性能

Databricks数据洞察的项目空间中创建一个新项目,操作如下:步骤三:生成测试数据集脚本 spark资源可以根据测试数据量与集群规模配置的具体情况,进行逐一调整。scale_factor参数控制整个测试集的数据量(如scale_factor=1000 即1T的数据...

OSS

本文介绍如何使用Databricks 读写 OSS文件系统数据。前提条件 通过主账号登录 阿里云 Databricks控制台。已创建集群,具体请参见 创建集群。已使用OSS管理控制台创建 非系统目录存储空间,详情请参见 创建存储空间。警告 首次使用DDI产品...

Databricks数据洞察Notebook演示

本文针对Databricks数据洞察Notebook基本使用的一个示例。前提条件 通过主账号登录 阿里云 Databricks控制台。已创建集群,具体请参见 创建集群。已使用OSS管理控制台创建 非系统目录存储空间,详情请参见 创建存储空间。警告 首次使用DDI...

自动优化

手动执行Optimize命令时默认合并的文件大小为1GB,而自动压缩默认产生的文件大小为128MB(最大),可以使用spark conf:spark.databricks.delta.autoCompact.maxFileSize 进行控制;自动压缩会使用贪心算法,选择收益最大的一些partition来...

Notebook-航空公司数据分析示例

读取OSS数据、打印schema,创建TempView Load OSS data%spark val sparkDF=spark.read.format("csv").option("header","true").option("inferSchema","true").load("oss:/databricks-demo-hangzhou/airline_statistic_usa.csv")Print ...

Delta Lake 快速开始二

创建数据库 不指定路径创建数据库,创建的数据库会存储在当前集群hive路径中%pyspark#创建数据库目录,你也可以选择自定义目录 database="db_test"spark.sql("DROP DATABASE IF EXISTS {} CASCADE".format(database))spark.sql("CREATE ...

创建数据开发作业

Type String 是 SPARK 作业类型,取值如下:SPARKspark作业,使用spark-submit提交 ZEPPELIN:提交zeppelin notebook,使用该作业类型,作业的params参数为notebook id SPARK_STREAMING:提交spark流处理作业 FailAct String 否 STOP ...

优化数据转换

Databricks使用嵌套类型优化高阶函数和 DataFrame 操作的...请参阅以下文章以了解如何开始使用这些优化的高阶函数和复杂数据类型:Higher-order functions Transform complex data types 说明 详细内容可参考Databricks官网文章:优化数据转换

隔离等级

Databricks上的Delta Lake支持两种隔离级别:Serializable和WriteSerializable。说明 详细内容可参考Databricks官网文章:隔离等级 Serializable:最强的隔离级别。它确保提交的写入操作和所有读取都是可序列化。只要有一个串行序列一次...

解绑标签

调用UntagResources接口可以为指定的Databricks集群解绑标签。解绑后,如果该标签没有绑定其他任何资源,会被自动删除。请求参数 名称 类型 是否必选 示例值 描述 Action String 否 TagResource 系统规定参数。对于您自行拼凑HTTP或...

最佳实践

说明 详情请参考Databricks官网文章:最佳实践 本文介绍了使用Delta Lake时的最佳做法。提供数据位置提示 如果您通常希望在查询谓词中使用一个列,并且该列具有较高的基数(即,大量不同的值),则使用Z-ORDER-BY。Delta-Lake根据列值自动...

查询作业列表

Job Type String SPARK 作业的类型,可能的取值有:SPARKSPARK_STREAMING,ZEPPELIN FailAct String STOP 失败策略,可能的取值:CONTINUE(提过本次作业),STOP(停止作业)CustomVariables String {"scope":"project"} 自定义变量。...

文本文件

读取纯文本文件,文件中的每一行将被解析为DataFrame中的一条记录,然后根据要求进行转换,由于文本文件能够充分利用原生类型(native type)的灵活性,因此很适合作为DataSetAPI的输入。前提条件 通过主账号登录 阿里云 Databricks控制台...

入门笔记本

这些笔记本显示了如何将JSON数据转换为Delta Lake格式,创建Delta表,追加到表,优化结果表,最后使用Delta Lake元数据命令显示表的历史记录,格式和详细信息。Delta Lake Quickstart Python笔记本 Note 链接地址:Databricks Delta ...

创建并绑定标签

调用TagResources接口,为指定的Databricks集群列表统一创建并绑定标签。调用该接口时,有如下使用限制:最多可以给集群绑定20个标签(包括集群已有标签)标签键和值均不能以“acs:”或者“aliyun”开头,且标签键和值均不能包含“http://...

查询作业运行实例列表

JobType String 否 SPARK 作业的类型,可能的取值有:SPARKSPARK_STREAMING,ZEPPELIN InstanceId String 否 FJI-BCCAE48B90CC*作业实例ID。您可以调用DescribeFlowJob查看作业实例ID。TimeRange String 否 {"type":"range","from":...

修改数据开发作业

调用ModifyFlowJob接口,修改数据开发作业。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求参数 名称 类型 是否必选 示例值 描述 Action String 是 ...

查询作业信息

返回数据 名称 类型 示例值 描述 Type String SPARK 作业的类型,可能的取值有:SPARKSPARK_STREAMING,ZEPPELIN LastInstanceId String FJI-0BA97D0BB8F3*最后一次执行的实例ID。EnvConf String {"key":"value"} 环境变量设置。...

查询工作流实例列表

StatusList.N String 否 RUNNING 工作流状态:PREP:准备中 RUNNING:运行中 SUCCEEDED:成功 FAILED:失败 KILLED:已终止 SUSPENDED:暂停中 返回数据 名称 类型 示例值 描述 RequestId String EDF99BA3-F7AF-49B2-ABA1-36430A31F482 ...

表实用程序命令

如果您确定在此表上执行的操作没有超过计划指定的保留时间间隔,你可以通过设置ApacheSpark属性spark.databricks.delta.retentionDurationCheck.enabled设置为false来关闭此安全检查。选择的时间间隔,必须比最长的并发事务长,也必须比...

机器学习开发示例

本文介绍如何使用阿里云 Databricks 数据洞察的Notebook进行机器学习开发。前提条件 通过主账号登录 阿里云 Databricks控制台。已创建集群,具体请参见 创建集群。已使用OSS管理控制台创建 非系统目录存储空间,详情请参见 控制台创建存储...

Delta Lake 快速入门

此快速入门演示如何生成管道,以便将JSON数据读入Delta表、修改表、读取表、显示表历史记录,以及优化表。有关演示这些功能的Databricks笔记本,请参阅 入门笔记本。创建表 若要创建一个delta表,可以使用现有的Apache Spark SQL代码,也...

修改工作流

返回数据 名称 类型 示例值 描述 Data Boolean true 返回执行结果,包含如下:true:成功 false:失败 RequestId String 243D5A48-96A5-4C0C-8966-93CBF65635ED 请求ID。示例 请求示例 http(s):/[Endpoint]/?Action=ModifyFlowForWeb&...

约束条件

说明 详细内容请参考Databricks官网文章:约束条件 注意 在Databricks Runtime 7.4及更高版本中可用。Delta表支持标准的SQL约束管理子句,以确保自动验证添加到表中的数据的质量和完整性。当违反约束时,Delta Lake会抛出一个...

通过JDBC连接Spark Thrift Server提交Spark作业

本文介绍通过JDBC连接Spark Thrift Servert并成功提交Spark作业。前提条件 连接Spark Thrift Server需要校验用户名和密码,请进行用户认证配置,请参见:用户管理 DDI集群Spark Thrift Server默认端口号为10001,请确认成功添加安全组白...

关闭弹性伸缩

背景信息 关闭弹性伸缩后,当前已经通过弹性伸缩功能扩充的Task节点将会全部释放,但HDFS存储的位于Core节点的数据不会受影响。如果关闭弹性伸缩后,集群计算资源不足,则建议您通过扩容来增加集群计算资源,详情请参见 集群扩容。操作步骤...

表删除,更新和合并

要在使用updateAll和insertAll(至少其中一个)执行merge操作期间自动更新表架构,可以在运行merge操作之前设置Spark会话配置spark.databricks.delta.schema.autoMerge.enabled为true。说明 架构演变仅在同时存在一个updateAll或一个...

JindoFS

本文介绍如何使用Databricks 读写JindoFS数据数据。前提条件 通过主账号登录 阿里云 Databricks控制台。已创建 EMR集群,具体参见 EMR集群创建 已创建DDI集群,具体请参见 DDI集群创建。创建集群并通过knox账号访问NoteBook。重要 版本...

表流读写

说明 详细内容请参考Databricks官网文章:表流读写 有关演示这些功能的Databricks笔记本,请参阅 入门笔记本二。Delta Lake通过readStream和writeStream与Spark结构化流式处理深度集成。Delta Lake克服了许多流式处理系统和文件相关的常见...

使用OPTIMIZE和Z-ORDER优化商品库存查询性能

步骤二:创建Notebook、导入数据、进行数据分析%pyspark#将csv文件转化为parquet格式#注意文件读取和保存的路径请按照您的oss路径进行配置 spark.read.option("header","true")\.csv("oss:/databricks-demo/online_retail.csv")\.select(...

表批读写

expression SELECT*FROM events VERSION AS OF version 说明 timestamp_expression为实际的时间,你可以通过 DESCRIBE HISTORY events查看表的历史版本 table_identifier[database_name.]table_name:一个表名,可以选择用数据库名限定。...

列出项目空间中项目

您可以调用ListFlowProjects查看项目的ID Name String 否 my_project 项目名称,用于过滤项目 PageNumber Integer 否 1 页码,用于分页 PageSize Integer 否 20 每页数量 ResourceGroupId String 否 rg-axndjccbxdj 资源组ID 返回数据 名称...

查询数据开发中可用的集群列表

调用ListFlowClusterAll接口,查询数据开发可用的集群列表。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求参数 名称 类型 是否必选 示例值 描述 ...

并发控制

说明 详情请参考Databricks官网文章:并发控制。Delta Lake在读取和写入之间提供ACID事务保证。这意味着:跨多个集群的多个编写器可以同时修改表分区,并查看表的一致性快照视图,并且这些写入操作将具有序列顺序。即使在作业过程中修改了...

查询资源标签

调用ListTagResources,查询一个或多个Databricks集群已绑定的标签列表,或者根据一组标签查询被改组标签绑定的资源。调用该接口时注意以下信息:请求中至少指定一个参数:ResourceId.N、Tag.N(Tag.N.Key与Tag.N.Value),以确定查询对象...

通过文件管理优化性能

可以通过将 Spark 会话配置 spark.databricks.delta.stalenessLimit 设置为时间字符串值(例如 1h、15m、1d 分别为 1 小时、15 分钟和 1 天)来配置表数据的过时程度。此配置是特定session,因此不会影响其他用户从其他笔记本、作业或BI...

Bloom过滤器索引

布隆过滤器是一项非常有用的Data-skipping技术。...禁用布隆过滤器索引 Databricks默认启用布隆过滤器索引,如果需要禁用布隆过滤器索引,可以通过设置配置项spark.databricks.io.skipping.bloomFilter.enabled 为false实现。

返回结果

调用成功返回的数据格式主要有 XML 和 JSON 两种,外部系统可以在请求时传入参数来制定返回的数据格式,默认为 XML 格式。成功结果 JSON示例:{"Data":"true","RequestId":"2670BCFB-925D-4C3E-9994-8D12F7A9F538"} 错误结果 调用接口出错...

公共参数

公共请求参数是指每个接口都需要使用到的请求参数。...返回结果数据->接口名称+Response>JSON示例:{"RequestId":"4C467B38-3910-447D-87BC-AC049166F216",/*返回结果数据*/}$icmsDocProps={'productMethod':'created','language':'zh-CN',};
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云数据库 RDS 云数据库 Redis 版 云数据库 MongoDB 版 数据库备份 DBS 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用