spark 集群监控-spark 集群监控文档介绍内容-阿里云

集群运维与监控

本文主要介绍Databricks数据洞察在集群维度的监控与告警能力。背景信息目前Databricks数据洞察主要采用阿里云监控服务，完整对接DBR指标体系，实现多维度、多实例、多时段的指标图表监控，用户可以根据业务情况，灵活自定义告警规则，...

角色授权

通过授予 AliyunDDIEcsDefaultRole 角色，您创建的Databricks数据洞察集群可以以免AK的方式访问阿里云OSS资源，详细信息请参见基于MetaService免AccessKey访问阿里云资源。注意首次使用Databricks数据洞察服务时，必须用主账号完成默认...

集群

Q：如何购买Databricks数据洞察集群 请使用阿里云账号进行购买，如需折扣优惠，请提工单或在产品群中联系我们享受折扣优惠。Q：可以使用阿里云子账号创建集群么？可以。但子账号必须通过主账号进行授权方可购买，权限包括：...

数据湖元数据管理

多个Databricks 数据洞察集群可以共享统一元数据库。前提条件已在数据湖构建（Data Lake Formation）控制台开通数据湖构建。重要数据湖元数据产品目前只支持华北2（北京）、华东2（上海）和华东1（杭州）三个地域。进入 RAM访问控制台 ...

访问外部数据源

绑定数据源绑定数据源的本质是打通不同VPC之间的网络，即将数据源集群所在VPC与目标Databricks数据洞察集群所在VPC的网络打通。数据源绑定之后，您可以在Notebook或Spark作业里直接访问对应数据源的数据。说明对于数据源绑定场景，如果多...

服务关联角色

AliyunServiceRoleForDDI应用场景 Databricks数据洞察集群创建及数据源绑定功能需要访问云服务器ECS、专有网络VPC 等云服务的资源时，需要通过服务关联角色AliyunServiceRoleForDDI获取访问权限。AliyunServiceRoleForDDI权限说明 ...

PySpark及Python库使用

步骤一：创建 Databricks数据洞察集群 登录阿里云Databricks数据洞察控制台。创建Databricks 数据洞察集群，详情参见创建集群。步骤二：添加依赖库并安装根据开发需要，添加相应的依赖库添加matplotlib库，本示例使用PyPI方式添加，...

Notebook概述

相关操作有关Notebook的更多操作，请参见：管理Notebook 使用Notebook 说明每个Databricks数据洞察集群都会部署独立DataInsight Notebook服务。用户在使用Notebook时，需要先选择一个可用的集群。icmsDocProps={'productMethod':'created...

集群扩容

当Databricks 数据洞察集群计算资源或存储资源不足时，您可以对集群进行水平扩展。目前支持Worker 实例的扩容。扩容操作步骤登录阿里云 Databricks 数据洞察控制台。在左侧导航栏的菜单下，单击集群管理。选择想要扩容的集群，单击集群...

独立RDS元数据库

本文介绍如何配置独立的阿里云RDS，作为Databricks数据洞察集群的元数据。前提条件已购买RDS，详情请参见创建RDS MySQL实例。说明本文以MySQL 5.7版本为例介绍。元数据库准备创建hivemeta的数据库详情请参见创建数据库和账号中的...

为RAM用户授权

以下举例访问控制RAM的典型场景：用户：如果您购买了多台Databricks 数据洞察集群实例，您的组织里有多个用户（如运维、开发或数据分析）需要使用这些实例，您可以创建一个策略允许部分用户使用这些实例。避免了将同一个AccessKey泄露给...

RDS(SQL Server)

登录Databricks数据洞察集群进入Notebook，代码实现SQL Server数据读写。示例文本下载：The_Sorrows_of_Young_Werther.txt 在Notebook中使用%spark读取OSS文件，并执行WordCount代码实现。spark/从oss读取数据到spark的rdd import org....

RDS(MySQL)

4.登录Databricks数据洞察集群进入Notebook，代码实现MySQL数据读写。示例文本下载：The_Sorrows_of_Young_Werther.txt%spark import java.sql.{Connection,DriverManager,PreparedStatement} import java.util.Properties import org....

按负载伸缩规则配置

在使用Databricks数据洞察集群时，如果您无法准确的预估大数据计算的波峰和波谷，则可以使用按负载伸缩配置的策略。在Databricks数据洞察中开启弹性伸缩时，如果选择按负载配置伸缩规则，则根据以下说明配置相关参数即可。详细配置步骤请...

MongoDB

MongoDB数据源与DDI网络打通登录MongoDB管理控制台云数据库MongoDB管理控制台点击上部选择实例所在 region 点击实例ID进入实例详情页面查看基本信息找到对应的VPV和VSwitch 登录到databricks数据洞察集群 阿里云Databricks控制台 ...

使用Spark Structured Streaming实时处理Kafka数据

步骤一：创建Kafka集群和Databricks 数据洞察集群 登录阿里云E-MapReduce控制台。创建Kafka集群。登录 Databricks数据洞察控制台。创建集群，详情参见创建集群。步骤二：Databricks 数据洞察集群添加外部数据源登录 Databricks数据洞察...

项目管理

创建Databricks 数据洞察集群后，您可以在数据开发中创建项目，并在项目中进行作业的编辑和工作流的调度。新建项目之后，您可以对项目进行管理，为项目关联集群资源、添加项目成员以及设置全局变量。前提条件已创建集群，详情请参见集群...

CreateClusterV2

调用CreateClusterV2，创建一个Databricks 数据洞察集群。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。请求参数名称类型是否必选示例值描述 Action...

Databricks Delta Lake数据入湖最佳实践

本章架构图步骤一：创建Kafka集群和Databricks 数据洞察集群 1.登录阿里云E-MapReduce控制台。2.创建Kafka集群，详情参见创建集群 3.登录 Databricks数据洞察控制台。4.创建集群，详情参见创建集群。步骤二：Databricks 数据洞察集群...

使用Databricks Delta优化Spark作业性能

OSS宽带 10Gbps 背景信息 Databricks数据洞察内置了Databricks商业版引擎，您可以利用Databricks数据洞察创建集群，实现在秒级响应时间内处理PB级别的数据。本文示例制造100亿条数据，利用Databricks Delta的Data Skipping和ZOEDER ...

Databricks数据洞察 vs Open-Source Delta Lake功能...

Databricks Runtime vs Apache Spark 下表中的 feature 列表来自 Databricks 官网（https://databricks.com/spark/comparing-databricks-to-apache-spark）Feature Apache Spark Databricks数据洞察 Built-in file system optimized for ...

Databricks Runtime版本说明

Databricks数据洞察的内核引擎是Databricks Runtime，Databricks Runtime包括Apache Spark，并在此基础上进行了大量的功能和性能优化，可以显著提高大数据分析的可用性、性能和安全性。Databricks Runtime版本与Databricks官方保持一致，...

Notebook

Python package 需要通过Databricks数据洞察控制页面选择相应的python包。Q：如何配置Spark Application 资源通过以下属性配置driver的资源：spark.driver.memory spark.driver.cores 通过以下属性配置executor的资源：spark.executor....

创建集群

本节介绍如何使用Databricks数据洞察控制台创建集群。前提条件已注册阿里云账号，并完成实名认证。详情请参见阿里云账号注册流程。操作步骤使用阿里云账号登录 Databricks数据洞察控制台。在Databricks数据洞察控制台页面，选择所在的...

数据源概览

本章节主要介绍如何使用Databricks数据洞察完成对多种数据源的读写，以及如何使用Databricks数据洞察完成与其他阿里云产品数据源之间的网络连接。静态数据源 Databricks数据洞察支持直接读取静态数据源。CSV文件 JSON文件 Parquet文件 ORC...

弹性伸缩概述

本文介绍Databricks数据洞察的弹性伸缩功能，您可以根据业务需求和策略设置伸缩策略。弹性伸缩开启并配置完成后，当业务需求增长时Databricks数据洞察会自动为您增加Task节点以保证计算能力，当业务需求下降时Databricks数据洞察会自动减少...

Python库管理

本文介绍在Databricks数据洞察控制台，执行Spark作业时，如何安装自定义的库或者第三方库。添加库使用阿里云账号登录 Databricks数据洞察控制台。在Databricks数据洞察控制台页面，选择所在的地域（Region）。创建的集群将会在对应的地域...

产品架构

Databricks数据洞察构建在ECS之上，使用阿里云对象存储服务（OSS）为核心存储。本文介绍Databricks数据洞察的产品架构。...同时，Databricks数据洞察还提供了监控告警、元数据管理、权限管理等功能，方便您对集群资源进行管理。

续费流程

本文为您介绍如何手动和自动续费Databricks数据洞察(DDI)集群，以及取消自动续费。背景信息只有包年包月集群才需要进行续费操作，按量集群是实时结算的。DDI续费方式包括手动续费和自动续费两种。前提条件请确认包年包月集群还未到期。您...

Spark作业原生运维与监控

点击Logs链接，可以看到具体的container日志，如下图：指标查询 YARN队列资源指标 Databricks数据洞察中YARN组件采用的是Capacity Scheduler，当用户访问Scheduler页面时，可以看到整个集群队列的资源状态，对于单一作业的资源指标状态也...

阿里云Databricks数据洞察服务等级协议（SLA）

阿里云Databricks数据洞察服务等级协议（SLA）的详情，请参见阿里云Databricks数据洞察服务等级协议。

应用场景

Databricks数据洞察（简称DDI）的核心引擎是Databricks Runtime和Databricks Delta Lake。商业版引擎的加持下，为您提供了新一代云数仓的解决方案。本文为您介绍Databricks数据洞察适用的典型应用场景。数据湖分析 Databricks数据洞察支持...

释放集群

在Databricks数据洞察控制台页面，选择所在的地域（Region）。在左侧导航栏中，单击集群。设置释放。在集群管理页面，单击待释放集群所在行的释放。单击待释放集群的集群ID，在集群基础信息页面，单击集群操作>释放。在弹出的集群管理-...

通过JDBC连接Spark Thrift Server提交Spark作业

前提条件连接Spark Thrift Server需要校验用户名和密码，请进行用户认证配置，请参见：用户管理 DDI集群Spark Thrift Server默认端口号为10001，请确认成功添加安全组白名单，请参见：安全组白名单背景信息 JDBC连接Spark Thrift Server...

Databricks Delta vs Open-Source Delta Lake

本文介绍Databricks数据洞察产品中Databricks Runtime Delta和社区开源版本Delta Lake在性能优化方面的差异点。Performance Optimization 1.Compaction Delta Lake on Databricks can improve the speed of read queries from a table by ...

什么是Databricks数据洞察

Databricks数据洞察包含以下组件：Spark SQL和DataFrames Spark SQL是用来处理结构化数据的Spark模块。DataFrames是被列化了的分布式数据集合，概念上与关系型数据库的表近似，也可以看做是R或Python中的data frame。Spark Streaming 实时...

ElasticSearch

本文介绍如何使用Databricks数据洞察访问ElasticSearch数据源。前提条件通过主账号登录阿里云Databricks控制台。已创建 ElasticSearch实例，具体参见创建阿里云Elasticsearch实例。已创建DDI集群，具体请参见创建集群。创建集群并通过...

产品性能

本文介绍Databricks数据洞察采用的企业版Spark引擎性能对比数据，Databricks Runtime（简写dbr）的性能及Delta Lake功能是本产品的核心优势。Databricks Runtime完全兼容开源版本Spark，并且相对开源Spark引擎TPC-DS平均性能有 3~5倍提升，...

阿里云Databricks数据洞察云产品服务协议

阿里云Databricks数据洞察云产品服务协议，请参见阿里云产品服务协议(通用)。

到期与欠费

本文介绍Databricks数据洞察的停服欠费策略。停服欠费说明计费方式停服或欠费说明包年包月购买的集群资源到期后立即停机。停机后168小时（7天），集群资源会被释放。按量计费暂不支持

spark 集群监控

新品推荐