hive on spark 存储-hive on spark 存储文档介绍内容-阿里云

MongoDB

MongoDB数据源与DDI网络打通登录MongoDB管理控制台云数据库MongoDB管理控制台点击上部选择实例所在 region 点击实例ID进入实例详情页面查看基本信息找到对应的VPV和VSwitch 登录到databricks数据洞察集群阿里云Databricks控制台 ...

Redis

打通网络环境登录阿里云Databricks数据洞察控制台。进入DDI 数据源点击添加选择通用网络打通，选择Redis数据库所在的VPC和vsw。登录 Redis控制台添加DDI集群各个机器IP至访问白名单，或者在VPC登录处设置允许VPC内免密访问。使用...

RDS(MySQL)

4.登录Databricks数据洞察集群进入Notebook，代码实现MySQL数据读写。示例文本下载：The_Sorrows_of_Young_Werther.txt%spark import java.sql.{Connection,DriverManager,PreparedStatement} import java.util.Properties import org....

访问Web UI

Databricks数据洞察集群提供了多个Web UI的访问入口，包括Notebook、Spark UI、Yarn UI和Ganglia监控。增加安全组白名单为了用户的数据安全，DDI提供了安全组白名单机制来访问集群Web UI。默认不添加白名单是不能进行访问的，具体添加入口...

集群运维与监控

本文主要介绍Databricks数据洞察在集群维度的监控与告警能力。背景信息目前Databricks数据洞察主要采用阿里云监控服务，完整对接DBR指标体系，实现多维度、多实例、多时段的指标图表监控，用户可以根据业务情况，灵活自定义告警规则，...

管理作业

在Databricks数据洞察控制台页面，选择所在的地域（Region）。创建的集群将会在对应的地域内，一旦创建后不能修改。在左侧导航栏，单击项目空间。在项目空间页面，单击待操作项目所在行的作业编辑。在作业编辑区域，在需要操作的文件...

基于TPC-DS测试Databricks引擎性能

在Databricks数据洞察的项目空间中创建一个新项目，操作如下：步骤三：生成测试数据集脚本 spark资源可以根据测试数据量与集群规模配置的具体情况，进行逐一调整。scale_factor参数控制整个测试集的数据量（如scale_factor=1000 即1T的数据...

按量付费

本文主要介绍Databricks数据洞察产品使用按量付费的付费方式时计算资源的费用参考（不包含块存储的价格）。中国站支持的区域，包括华东1（杭州）、华东2（上海）、华南1（深圳）、华北2（北京）、华北5（呼和浩特）美国（弗吉尼亚）。下...

Databricks数据洞察Notebook演示

本文针对Databricks数据洞察Notebook基本使用的一个示例。前提条件通过主账号登录阿里云 Databricks控制台。已创建集群，具体请参见创建集群。已使用OSS管理控制台创建非系统目录存储空间，详情请参见创建存储空间。警告首次使用DDI...

作业日期设置

在Databricks数据洞察控制台页面，选择所在的地域（Region）。创建的集群将会在对应的地域内，一旦创建后不能修改。在左侧导航栏，单击项目空间。在项目空间页面，单击待操作项目所在行的作业编辑。进行作业设置。在作业编辑页面，选择...

OSS数据权限隔离

},{"Effect":"Allow","Action":["oss:Listobjects","oss:GetObject","oss:PutObject"],"Resource":["acs:oss:*:*:prod-bucket","acs:oss:*:*:prod-bucket/*"]}]} 按上述脚本示例进行权限隔离后，RAM用户在Databricks 数据洞察控制台...

开启并配置弹性伸缩

当您的业务量需求不断波动时，建议您开启弹性伸缩功能并配置相应的伸缩规则，以使Databricks数据洞察可按业务量波动来增加和减少Task节点。操作步骤登录阿里云Databricks控制台。在顶部菜单栏处，根据实际情况选择地域（Region）和资源组...

项目空间运维与监控

本文主要介绍Databricks数据洞察中项目空间具有的运维与监控能力。背景信息项目空间的运维能力主要辅助作业开发和工作流生产，前者提供作业开发过程中的日志监控、版本监控和操作审计监控；后者兼容前者的功能，更提供针对调度场景下的...

项目管理

创建Databricks 数据洞察集群后，您可以在数据开发中创建项目，并在项目中进行作业的编辑和工作流的调度。新建项目之后，您可以对项目进行管理，为项目关联集群资源、添加项目成员以及设置全局变量。前提条件已创建集群，详情请参见集群...

机器学习开发示例

本文介绍如何使用阿里云 Databricks 数据洞察的Notebook进行机器学习开发。前提条件通过主账号登录阿里云 Databricks控制台。已创建集群，具体请参见创建集群。已使用OSS管理控制台创建非系统目录存储空间，详情请参见控制台创建存储...

按时间伸缩规则配置

配置伸缩规则在Databricks数据洞察中开启弹性伸缩时，如果选择按时间配置伸缩规则，则根据以下说明配置相关参数即可伸缩规则分为扩容规则和缩容规则。集群关闭弹性伸缩功能后，所有规则会被清空，再次开启弹性伸缩功能时，需要重新配置...

PySpark及Python库使用

本文介绍如何使用阿里云 Databricks数据洞察 Notebook 进行 PySpark 开发。重要若要使用其他数据源进行数据开发，需开通相应服务。本示例采用OSS数据源。步骤一：创建 Databricks数据洞察集群登录阿里云Databricks数据洞察控制台。创建...

HBase

打通网络环境登录阿里云Databricks数据洞察控制台。进入DDI 数据源点击添加选择通用网络打通，选择HBase数据库所在的VPC和vsw。登录 HBase控制台添加DDI集群各个机器IP至访问白名单。创建HBase表准备数据，本实例使用的HBase表为：...

数据湖元数据管理

Databricks 数据洞察DBR 7.3,Spark 3.0.1,Scala 2.12及之后版本，在创建集群选择元数据类型时支持数据湖元数据作为Hive数据库。数据湖元数据是服务化高可用并且可扩展的元数据库，您无需额外购买独立的元数据库，就可以实现多个引擎计算，...

优化链接性能

Delta Lake on Databricks可优化范围和skew连接。Range连接优化需要根据您的查询模式进行调整，Skew连接可以通过skew提示变得高效。请参阅以下文章以了解如何充分利用这些连接优化：Range Join optimization Skew Join optimization 说明 ...

独立RDS元数据库

本文介绍如何配置独立的阿里云RDS，作为Databricks数据洞察集群的元数据。前提条件已购买RDS，详情请参见创建RDS MySQL实例。说明本文以MySQL 5.7版本为例介绍。元数据库准备创建hivemeta的数据库详情请参见创建数据库和账号中的...

Databricks数据洞察 vs Open-Source Delta Lake功能...

Databricks Runtime vs Apache Spark 下表中的 feature 列表来自 Databricks 官网（https://databricks.com/spark/comparing-databricks-to-apache-spark）Feature Apache Spark Databricks数据洞察 Built-in file system optimized for ...

通过缓存优化性能

每个节点为缓存的元数据保留的磁盘空间（以字节为单位）spark.databricks.io.cache.compression.enabled-缓存的数据是否应以压缩格式存储 INI spark.databricks.io.cache.maxDiskUsage 50g spark.databricks.io.cache.maxMetaDataCache 1g ...

Tablestore

本文介绍如何使用Databricks 读写Tablestore数据。前提条件已创建 Tablestore实例通过主账号登录阿里云 Databricks控制台。已创建DDI集群，具体请参见 DDI集群创建。创建集群并通过knox账号访问NoteBook。使用Databricks 读写Tablestore...

工作流调度Zeppelin Notebook

在Databricks数据开发中，您可以在项目空间的作业编辑中创建一组有依赖的 Zeppelin 作业，然后创建工作流，按照依赖次序定义执行顺序，Databricks工作流支持基于有向无环（DAG）并行执行大数据作业。前提条件通过主账号登录阿里云 ...

Databricks数据洞察快速使用

本文指引您快速完成一次完整的Databricks数据洞察的使用操作。前提条件已使用OSS管理控制台创建非系统目录存储空间，详情请参见创建存储空间。警告首次使用DDI产品创建的Bucket为系统目录Bucket，不建议存放数据，您需要再创建一个...

Databricks Runtime

有关顶级库和其他提供的库的完整列表，请参见以下有关每个可用Runtime的文章：Databricksr Runtime 7.4 ML（测试版）Databricks Runtime 7.3 LTS ML Databricks Runtime 7.2 ML Databricks Runtime 7.1 ML Databricks Runtime 7.0 ML ...

Delta Engine 概述

Delta Engine 是与 Apache Spark 兼容的高性能查询引擎，提供了一种高效的方式来处理数据湖中的数据，包括存储在开源 Delta Lake 中的数据。Delta Engine 优化可加快数据湖操作速度，并支持各种工作负载，从大规模 ETL 处理到临时交互式...

表版本控制

您还可以通过设置SQL配置来设置默认协议版本：spark.databricks.delta.protocol.minWriterVersion=2(default)spark.databricks.delta.protocol.minReaderVersion=1(default)要将表升级到较新的协议版本，请使用以下DeltaTable....

Parquet（推荐）

Parquet是一种开源的面向列的数据存储格式，它提供了各种存储优化，尤其适合数据分析。Parquet提供列压缩从而可以节省空间，而且它支持按列读取而非整个文件的读取。作为一种文件格式，Parquet与Apache Spark配合的很好，而且实际上也是...

MaxCompute

本文介绍如何使用Databricks 读写MaxCompute数据。前提条件已创建 MaxCompute实例，具体参见快速体验MaxCompute 通过主账号登录阿里云 Databricks控制台。已创建DDI集群，具体请参见 DDI集群创建。创建集群并通过knox账号访问NoteBook。...

EMR HDFS

本文介绍如何使用Databricks 读写EMR HDFS文件系统数据。前提条件通过主账号登录阿里云 Databricks控制台。已创建 EMR集群，具体参见 EMR集群创建已创建DDI集群，具体请参见 DDI集群创建。创建集群并通过knox账号访问Notebook。接入EMR ...

Databricks Delta vs Open-Source Delta Lake

本文介绍Databricks数据洞察产品中Databricks Runtime Delta和社区开源版本Delta Lake在性能优化方面的差异点。Performance Optimization 1.Compaction Delta Lake on Databricks can improve the speed of read queries from a table by ...

Java库管理

使用NoteBook引入Java依赖的三种方式 spark.jars spark.jars.packages spark.files 说明用户做好配置之后，在启动spark任务之前（即第一次运行spark、pyspark、sparkR或者sparkSQL相关代码之前）运行spark.conf段落即可对将要启动的spark...

OSS

本文介绍如何使用Databricks 读写 OSS文件系统数据。前提条件通过主账号登录阿里云 Databricks控制台。已创建集群，具体请参见创建集群。已使用OSS管理控制台创建非系统目录存储空间，详情请参见创建存储空间。警告首次使用DDI产品...

CSV文件

spark spark.read.format("csv")1.hearder 选项默认header=false%spark val path="oss:/databricks-data-source/datas/input.csv"val dtDF=spark.read.format("csv").option("mode","FAILFAST").load(path)dtDF.show(5)数据展示 header=...

Delta Lake 快速开始一

步骤二：创建Notebook、导入数据、进行数据分析定义Notebook中使用的路径path%pyspark#注意需要将数据文件events.json上传至您的OSS对应bucket下，events.json数据来源Databricks站点的open/close数据 inputPath="oss:/databricks-...

迁移指南

说明详情可参考Databricks官网文章：迁移指南将工作负载迁移到Delta Lake 当您将工作负载迁移到Delta-Lake时，您应该注意到以下简化和与apachespark和apachehive提供的数据源相比的区别。Delta Lake自动处理以下操作，您永远不要手动执行...

JSON文件

{"key":"value3","extra_key":"extra_value3"}} 数据读取%spark val path="oss:/databricks-data-source/datas/example.json"val data_json=spark.read.format("json").load(path)data_json.show()data_json.printSchema()2.添加mode，...

文本文件

1,a,10000,11-03-2019,pune 2,b,10020,14-03-2019,pune 3,a,34567,15-03-2019,pune tyui,a,fgh-03-2019,pune 4,b,10020,14-03-2019,pune%spark val path="oss:/databricks-data-source/datas/dataTest.csv"val dtDF=spark.read.textFile...

hive on spark 存储

新品推荐