databricks是什么-databricks是什么文档介绍内容-阿里云

什么是Databricks数据洞察

Databricks数据洞察（简称DDI）是基于Apache Spark的全托管大数据分析平台。产品内核引擎使用Databricks Runtime，并针对阿里云平台进行了优化。DDI为您提供了高效稳定的阿里云Spark服务，您无需关心集群服务，只需专注在Spark作业的开发上...

Databricks Runtime

用于机器学习的Databricks Runtime（敬请期待）Databricks Runtime ML是Databricks Runtime的变体，它添加了多个流行的机器学习库，包括TensorFlow，Keras，PyTorch和XGBoost。用于基因组的Databricks Runtime（敬请期待）用于基因组的 ...

Databricks Runtime版本说明

Databricks数据洞察的内核引擎是Databricks Runtime，Databricks Runtime包括Apache Spark，并在此基础上进行了大量的功能和性能优化，可以显著提高大数据分析的可用性、性能和安全性。Databricks Runtime版本与Databricks官方保持一致，...

Databricks数据洞察Notebook演示

本文针对Databricks数据洞察Notebook基本使用的一个示例。前提条件通过主账号登录阿里云 Databricks控制台。已创建集群，具体请参见创建集群。已使用OSS管理控制台创建非系统目录存储空间，详情请参见创建存储空间。警告首次使用DDI...

Databricks数据洞察快速使用

本文指引您快速完成一次完整的Databricks数据洞察的使用操作。前提条件已使用OSS管理控制台创建非系统目录存储空间，详情请参见创建存储空间。警告首次使用DDI产品创建的Bucket为系统目录Bucket，不建议存放数据，您需要再创建一个...

Databricks Delta vs Open-Source Delta Lake

本文介绍Databricks数据洞察产品中Databricks Runtime Delta和社区开源版本Delta Lake在性能优化方面的差异点。Performance Optimization 1.Compaction Delta Lake on Databricks can improve the speed of read queries from a table by ...

使用Databricks Delta优化Spark作业性能

本文介绍如何使用Databricks Delta进行Spark作业的优化。前提条件已创建集群，详情请参见创建集群。集群应满足以下配置：区域详情地域（Region）华北2（北京）集群规模 1个Master节点，5个Worker节点 ECS实例配置配置如下：CPU：32核 ...

Databricks数据洞察 vs Open-Source Delta Lake功能...

本文提供Databricks数据洞察中的Databricks Runtime Delta与社区开源版本Delta Lake。Databricks Runtime vs Apache Spark 下表中的 feature 列表来自 Databricks 官网...

阿里云Databricks数据洞察云产品服务协议

阿里云Databricks数据洞察云产品服务协议，请参见阿里云产品服务协议(通用)。

基于TPC-DS测试Databricks引擎性能

前提条件通过主账号登录阿里云 Databricks控制台，当前 TPC-DS 测试流程已在 Databricks Runtime 9.1 以上版本做验证，请选择DBR9及以上版本产品。为保证测试效果，推荐最小测试数据量应为1T，故需创建特定规模的集群，创建步骤请参见 ...

Databricks Delta Lake数据入湖最佳实践

本章架构图步骤一：创建Kafka集群和Databricks 数据洞察集群 1.登录阿里云E-MapReduce控制台。2.创建Kafka集群，详情参见创建集群 3.登录 Databricks数据洞察控制台。4.创建集群，详情参见创建集群。步骤二：Databricks 数据洞察集群...

阿里云Databricks数据洞察服务等级协议（SLA）

阿里云Databricks数据洞察服务等级协议（SLA）的详情，请参见阿里云Databricks数据洞察服务等级协议。

Databricks数据洞察的审计事件

Databricks数据洞察已与操作审计服务集成，您可以在操作审计中查询用户操作数据洞察产生的管控事件。操作审计支持将管控事件投递到日志服务SLS的LogStore或对象存储OSS的存储空间中，满足实时审计、问题回溯分析等需求。操作审计记录了用户...

Confluent+数据洞察Databricks最佳实践

创建集群登录流数据服务Confluent管理控制台，创建Confluent集群，并开启公网服务登录 Databricks管理控制台，创建Databricks集群 Databricks Worker节点公网访问 Databricks的worker节点暂时不支持公网访问，为了能访问Confluent的公网...

Databricks 数据洞察（文档停止维护）

Databricks企业版Spark&Delta引擎

CSV文件

Both positiveInf 任意字符串字符 Inf 声明什么字符表示正无穷大 Both negativeInf 任意字符串字符-Inf 声明什么字符表示负无穷大 Both Compression 或Code None，Uncompressed，bzip2,deflate,gzip,lz4,snappy none 声明spark应该用什么...

JSON文件

read/write Key 取值范围默认值说明 Both Compression或code None,uncompressed,bzip2,defalte,gzip,lz4,snappy none 声明Spark应该使用什么压缩编解码来读取或写入文件 Both dateFormat 任何符合Java SimpleDateFormat格式的字符串或...

Parquet（推荐）

read/write Key 取值范围默认值说明 Write compression None,Uncompressed,bzip2,defalte,gzip,lz4,snappy None 声明Spark应该使用什么样的压缩编码器来读取或写入文件 Read Merge Schema true，false 配置值spark.sql.parquet....

表批读写

有关Delta Lake SQL命令的信息，请参见 Databricks Runtime 7.0及更高版本：Databricks Runtime 7.x SQL参考 Databricks Runtime 6.x及以下版本：Databricks Runtime 5.5 LTS和6.x SQL参考建立表格 Delta Lake支持使用DataFrameWriter...

支持STS的云服务

关于STS的介绍，请参见 什么是STS 和 RAM角色概览。弹性计算云服务子服务/子模块 RAM代码控制台 API 云服务器ECS 云服务器ECS ecs√块存储块存储 ecs√块存储块存储EBS ebs√云服务器ECS GPU云服务器 ecs√云服务器ECS 弹性裸金属...

产品架构

Databricks数据洞察构建在ECS之上，使用阿里云对象存储服务（OSS）为核心存储。本文介绍Databricks数据洞察的产品架构。存储访问加速层方便您可以像操作HDFS上的数据一样访问OSS上的数据。目前，Databricks数据洞察提供了两种执行Spark作业...

应用场景

Databricks数据洞察（简称DDI）的核心引擎是Databricks Runtime和Databricks Delta Lake。商业版引擎的加持下，为您提供了新一代云数仓的解决方案。本文为您介绍Databricks数据洞察适用的典型应用场景。数据湖分析 Databricks数据洞察支持...

集群运维与监控

本文主要介绍Databricks数据洞察在集群维度的监控与告警能力。背景信息目前Databricks数据洞察主要采用阿里云监控服务，完整对接DBR指标体系，实现多维度、多实例、多时段的指标图表监控，用户可以根据业务情况，灵活自定义告警规则，...

Spark作业原生运维与监控

背景信息 Databricks数据洞察提供了原生的监控运维UI，例如Spark UI和YARN UI，用户可根据自己的需求进行查询。本文主要介绍原生UI透露出来的日志监控和指标查询，配合平台侧的运维与监控能力，更好的服务于用户，运维Spark作业。集群Web ...

API参考

Databricks确保Delta Lake项目和Databricks Runtime中的Delta Lake之间的二进制兼容性。兼容性矩阵列出了每个Databricks Runtime版本中打包的Delta Lake API版本以及指向相应API文档的链接。说明详情文章请参考Databricks官网文章：API...

管理运维中心

在Databricks数据洞察控制台页面，选择所在的地域（Region）。创建的集群将会在对应的地域内，一旦创建后不能修改。在左侧导航栏，单击项目空间。在项目空间页面，单击待操作项目所在行的运行记录。单击上方的概览页签。展示当前项目...

表版本控制

说明详细文章请参考Databricks官网文章：表版本控制 Delta表的事务日志包含支持Delta Lake演变的版本控制信息。Delta Lake分别跟踪最低检索Delta表详细信息。Delta Lake保证向后兼容。较高版本的Databricks Runtime始终能够读取由较低...

数据湖元数据管理

Databricks 数据洞察DBR 7.3,Spark 3.0.1,Scala 2.12及之后版本，在创建集群选择元数据类型时支持数据湖元数据作为Hive数据库。数据湖元数据是服务化高可用并且可扩展的元数据库，您无需额外购买独立的元数据库，就可以实现多个引擎计算，...

Delta Engine 概述

Delta Engine 是与 Apache Spark 兼容的...只需要通过将Databricks 用于数据湖即可获得这些 Delta Engine 功能的优势。通过文件管理优化性能自动优化通过缓存优化性能动态文件修剪隔离级别 Bloom 筛选器索引优化联接性能优化的数据转换

文本文件

例：读取在存储空间名称为databricks-demo-hangzhou文件路径为demo/The_Sorrows_of_Young_Werther.txt的文件/从oss地址读取文本文档 val dataRDD=sc.textFile("oss:/databricks-demo-hangzhou/demo/The_Sorrows_of_Young_Werther.txt"实例 ...

Notebook概述

相关操作有关Notebook的更多操作，请参见：管理Notebook 使用Notebook 说明每个Databricks数据洞察集群都会部署独立DataInsight Notebook服务。用户在使用Notebook时，需要先选择一个可用的集群。icmsDocProps={'productMethod':'created...

约束条件

说明详细内容请参考Databricks官网文章：约束条件注意在Databricks Runtime 7.4及更高版本中可用。Delta表支持标准的SQL约束管理子句，以确保自动验证添加到表中的数据的质量和完整性。当违反约束时，Delta Lake会抛出一个...

ORC文件

例：读取在存储空间名称为databricks-demo-hangzhou文件路径为demo/The_Sorrows_of_Young_Werther.txt的文件/从oss地址读取文本文档 val dataRDD=sc.textFile("oss:/databricks-demo-hangzhou/demo/The_Sorrows_of_Young_Werther.txt"实例 ...

工作流调度Zeppelin Notebook

在Databricks数据开发中，您可以在项目空间的作业编辑中创建一组有依赖的 Zeppelin 作业，然后创建工作流，按照依赖次序定义执行顺序，Databricks工作流支持基于有向无环（DAG）并行执行大数据作业。前提条件通过主账号登录阿里云 ...

隔离等级

Databricks上的Delta Lake支持两种隔离级别：Serializable和WriteSerializable。说明详细内容可参考Databricks官网文章：隔离等级 Serializable：最强的隔离级别。它确保提交的写入操作和所有读取都是可序列化。只要有一个串行序列一次...

Bloom过滤器索引

说明详细内容可参考Databricks官网文章：Bloom过滤索引如果在表的某列上创建了布隆过滤器索引，并且使用 where col="something"作为查询条件，那么在扫描表中文件时，我们可以使用布隆过滤器索引得出两种结论：文件中肯定不包含 col=...

独立RDS元数据库

本文介绍如何配置独立的阿里云RDS，作为Databricks数据洞察集群的元数据。前提条件已购买RDS，详情请参见创建RDS MySQL实例。说明本文以MySQL 5.7版本为例介绍。元数据库准备创建hivemeta的数据库详情请参见创建数据库和账号中的...

按量付费

本文主要介绍Databricks数据洞察产品使用按量付费的付费方式时计算资源的费用参考（不包含块存储的价格）。中国站支持的区域，包括华东1（杭州）、华东2（上海）、华南1（深圳）、华北2（北京）、华北5（呼和浩特）美国（弗吉尼亚）。下...

按负载伸缩规则配置

在使用Databricks数据洞察集群时，如果您无法准确的预估大数据计算的波峰和波谷，则可以使用按负载伸缩配置的策略。在Databricks数据洞察中开启弹性伸缩时，如果选择按负载配置伸缩规则，则根据以下说明配置相关参数即可。详细配置步骤请...

databricks是什么

新品推荐