aliyun数据湖分析使用指引-aliyun数据湖分析使用指引文档介绍内容-阿里云

Spark UDF

重要云原生数据湖分析（DLA）产品已退市，云原生数据仓库 AnalyticDB MySQL 版湖仓版支持DLA已有功能，并提供更多的功能和更好的性能。AnalyticDB for MySQL 相关使用文档，请参见 Spark SQL开发介绍。使用元数据服务管理用户自定义函数...

扫描量版本与CU版本的差异

当您开通云原生数据湖分析服务（DLA）后，根据您实际的使用场景，您可以选择扫描量版本或者CU版本。DLA Presto引擎既支持扫描量版本也支持CU版本，DLA Spark只支持CU版本。扫描量版本 DLA默认版本，适用于查询频率低、查询数据量较小的...

AnalyticDB MySQL湖仓版（3.0）使用流程

欢迎使用云原生数据仓库AnalyticDB MySQL版湖仓版（3.0）入门指南。云原生数据仓库AnalyticDB MySQL版（简称ADB，原分析型数据库MySQL版）是云端托管的PB级高并发实时数据仓库，是专注于服务OLAP领域的数据仓库。本指南将指引您完成一次 ...

SLS的OSS投递数据源

以前这些数据不可进行分析计算，使用DLA的元信息发现功能，能够一键构建数据湖的元数据，接入DLA的统一数据分析平台。使用DLA的Serverless Spark及Presto引擎能够计算和分析DLA元数据管理的全域数据，可以支持ETL后数据交付、低频全量日志...

Serverless Presto概述

阿里云数据湖分析团队在Presto之上又进行了很多的优化，DLA支持了阿里云几乎所有的数据源比如AnalyticDB、TableStore等等；阿里云数据湖分析团队优化了Hive Connector，使得分析OSS数据时对OSS调用量大幅下降，从而提高性能且节省成本；DLA...

DLF+EMR之统一权限最佳实践

本文结合具体业务场景，为您介绍如何使用DLF+EMR两个产品实现数据湖上统一权限的最佳实践。背景说明元数据和数据权限是DLF产品提供的数据湖构建所需的基础能力，数据湖上引擎及产品。通过DLF提供的统一元数据视图访问湖上数据，解决湖上...

SDK安装与使用

获取开发用的SDK 可以在PIP的仓库中获取数据湖分析最新的开发SDK包，地址为 Python SDK官方地址。使用SDK提交Spark作业获取用户的AccessKey，详情请参见获取AccessKey。获取当前使用区的RegionId,阿里云各区的RegionId可以参见地域和...

DLF中数据入湖功能停止更新公告

说明 数据湖构建（DLF）产品其他功能正常使用，不受此功能停止更新影响。停止更新说明停止更新时间 2023年02月15日停止更新影响数据入湖功能停止更新及新用户使用，未使用数据入湖的用户将不可见数据入湖功能。停止更新期间，已有数据入...

产品优势

无论是数据湖中的非结构化或半结构化数据，还是数据库中的结构化数据，您都可使用 AnalyticDB MySQL 构建企业的数据分析平台，同时完成高吞吐离线处理和高性能在线分析，实现降本增效。弹性能力和扩展性 AnalyticDB MySQL版采用云原生技术...

产品简介

阿里云数据湖构建（Data Lake Formation，简称 DLF）是一款全托管的快速帮助用户构建云上数据湖及Lakehouse的服务，为客户提供了统一的元数据管理、统一的权限与安全管理、便捷的数据入湖能力以及一键式数据探索能力。DLF可以帮助用户快速...

MaxCompute

重要云原生数据湖分析（DLA）产品已退市，云原生数据仓库 AnalyticDB MySQL 版湖仓版支持DLA已有功能，并提供更多的功能和更好的性能。AnalyticDB for MySQL 相关使用文档，请参见访问MaxCompute数据源。前提条件已经开通对象存储OSS...

OSS

重要云原生数据湖分析（DLA）产品已退市，云原生数据仓库 AnalyticDB MySQL 版湖仓版支持DLA已有功能，并提供更多的功能和更好的性能。AnalyticDB for MySQL 相关使用文档，请参见访问OSS数据源。操作步骤配置DLA访问OSS的权限。如果您...

数据探索简介

支持数据湖内多种存储格式，包括Delta、Hudi、CSV、Parquet、JSON、ORC等数据格式。准备工作已开通OSS。已开通DLF，并创建了元数据库。通过元数据发现/入湖任务管理或者API等方式创建了元数据表。运行查询登录 数据湖构建控制台，在...

请求结构

获取用户AccessKey 使用阿里云API需要获取用户的AccessKey以对入参进行签名,获取用户AccessKey的方法请参见获取AccessKey。获取运行区的RegionId 需要确定使用区的RegionId，每个区域的值请参见地域和可用区。请求地址的构成 数据湖分析...

调度DLA Spark任务

您已开通云原生数据湖分析服务，详情请参见开通云原生数据湖分析服务您已开通OSS服务，详情请参见开通OSS服务。您已创建DLA Spark虚拟集群，详情请参见创建虚拟集群。说明如果您想用RAM用户提交Spark作业，且之前未使用过RAM用户在DLA...

Spark SQL

重要云原生数据湖分析（DLA）产品已退市，云原生数据仓库 AnalyticDB MySQL 版湖仓版支持DLA已有功能，并提供更多的功能和更好的性能。AnalyticDB for MySQL 相关使用文档，请参见 Spark SQL开发。Spark访问数据湖元数据服务 Spark引擎...

计费概述

计费方式计费类别说明适用场景相关文档按计算资源付费 数据湖分析CU版根据购买的CU规格进行计费，费用跟运行查询扫描的数据量没有关系。计费模式如下。包年包月。按量付费。适用于查询频率高、查询数据量较大的场景，同时也能够给您...

角色管理

本文档主要为您说明如何管理数据湖构建中的角色。说明子账号需要具备admin（数据湖管理员）或 super_administrator（超级管理员）的权限，才可以进行角色相关操作。查看角色信息 1.打开 数据湖构建控制台，并打开数据权限管理-角色菜单。2...

Kafka实时入湖建仓分析

前提条件已在DLA中开通云原生数据湖分析服务。更多信息，请参见开通云原生数据湖分析服务。已创建Spark引擎的虚拟集群。更多信息，请参见创建虚拟集群。如果您使用RAM子账号登录，还需要进行如下操作：已授予RAM子账号...

服务等级协议

自2021年1月起，数据湖构建（DLF）服务等级协议（SLA）生效。详细内容参考 数据湖构建服务等级协议。

常见问题

接入移动监控SDK后控制台没有统计数据崩溃分析SDK和AlipaySDK有UTDID冲突崩溃分析日志的上报时机使用子账号登录控制台，提示没有权限崩溃分析未上报，服务端没有查到上传日志 App启动后崩溃闪退，但相关信息未上报至控制台阿里云专家...

Lindorm实时入湖建仓分析

前提条件已在DLA中开通云原生数据湖分析服务。更多信息，请参见开通云原生数据湖分析服务。已创建Spark引擎的虚拟集群。更多信息，请参见创建虚拟集群。已创建Presto CU版虚拟集群。更多信息，请参见 DLA Presto CU版本快速入门。如果您...

游戏运营融合分析

架构图产品列表专有网络VPC、负载均衡SLB、NAT网关、弹性公网IP 云服务器ECS、日志服务SLS、对象存储OSS 数据库RDS MySQL、数据传输服务DTS、数据管理DMS 分析型数据库MySQL版ADB 数据湖分析DLA、Quick BI 参考链接有关游戏运营融合分析...

关系数据库全量入湖

本文为您介绍如何在数据湖构建（Data Lake Formation，简称DLF）中使用关系数据库全量入湖任务将RDS或PolarDB数据批量同步到数据湖中。重要数据入湖功能已经停止更新，如果您有数据入湖需求请参考：数据入湖停止更新公告。前提条件已开通...

约束和限制

本文档主要介绍了云原生数据湖分析（Data Lake Analytics，DLA）的限制约束条件。账号和元数据限制限制描述每个账号可购买虚拟集群数量的最大值 10 每个DLA Presto虚拟集群可配置的数据源网络数量 1 每个账号可创建数据库的最大值 100 ...

用户管理

本文档主要为您说明如何管理数据湖构建中已添加的用户。查看用户列表 1.打开 数据湖构建控制台，并打开数据权限管理-用户菜单。2.打开用户列表信息页面。说明此处管理的用户为添加到数据湖构建中的用户，目前仅支持添加RAM用户到数据湖...

配置流入湖任务延迟监控

您可以通过云监控查看数据湖构建（DLF）流任务延迟状况，以及为每一个流任务设置报警规则，帮助您监控流任务运行状态。重要数据入湖功能已经停止更新，如果您有数据入湖需求请参考：数据入湖停止更新公告。查看流任务监控数据您可以在...

Delta Engine 概述

Delta Engine 是与 Apache Spark 兼容的高性能查询引擎，提供了一种高效的方式来处理数据湖中的数据，包括存储在开源 Delta Lake 中的数据。Delta Engine 优化可加快数据湖操作速度，并支持各种工作负载，从大规模 ETL 处理到临时交互式...

品牌升级

无论是数据湖中的非结构化或半结构化数据，还是数据库中的结构化数据，您都可使用 AnalyticDB for MySQL 构建企业的数据分析平台，同时完成高吞吐离线处理和高性能在线分析，实现降本增效。此次品牌升级，存量分析型数据库MySQL版（ADS）...

JindoCache概述

JindoCache（原JindoFSx）是阿里云EMR提供的用于加速云原生数据湖的一个服务。他提供了数据缓存和元数据缓存等加速功能，并根据不同的CacheSet提供不同的读写策略，以满足数据湖在不同使用场景下对访问加速的需求。背景信息 CacheSet是...

应用场景

该方案优势如下：全托管免运维弹性扩展能力开放数据湖架构一站式的数据开发平台数据查询与分析场景在传统数据平台下，数据仓库工程师和数据分析师通常面临两个不同的环境，甚至使用不同的引擎和语法，导致数据指标和算子行为存在差异...

查询加速

本章将详细介绍如何在云数据库 SelectDB 版实例中进行查询优化和数据分析，云数据库 SelectDB 版提供了多种分析SQL和优化方案，帮助您提升查询速度并实现高效的数据分析。概述云数据库 SelectDB 版采用了MySQL网络连接协议，兼容标准...

API概览

云原生数据湖分析DLA提供以下相关API接口。Serverless Spark API 描述 SubmitSparkSQL 提交SparkSQL作业。SubmitSparkJob 提交Spark作业。GetJobStatus 获取Spark作业的执行状态。服务管理 API 描述 CreateInstance 创建实例。...

同步数据

分析型数据库MySQL版支持多种数据加载方式，包括但不限于：通过阿里云数据传输服务DTS将MySQL/DRDS中的数据导入分析型数据库MySQL版，其中MySQL可为RDS for MySQL、其他云厂商或线上IDC的自建MySQL以及ECS自建MySQL。详细操作步骤请参见 ...

CatalogSettings

名称类型描述示例值 object 数据湖相关配置 Config object 配置 string 数据湖权限配置,auth.permission.check.enable 表示是否开启元数据服务端鉴权，开启后通过 API 访问元数据将被鉴权，auth.super.principal 表示设置超级用户，超级...

按扫描量付费

您可以登录 数据湖分析管理控制台，通过费用>订单查看消费记录。如何节省费用您可以先通过以下3种方式对原始数据进行处理，然后再使用DLA扫描数据，可以节省一定的费用。格式转换：把原始数据的格式转换为高性能格式。DLA支持多种高性能...

UserRole

名称类型描述示例值 object 数据湖元数据角色 Role Role 角色。GrantTime long 授予时间。DatabaseWildcard User Principal 用户身份。

RoleInput

名称类型描述示例值 object role input Name string 数据湖角色名 test Description string 角色描述注释 DisplayName string 角色显示名显示名称，允许中文

湖格式管理

策略所属类型默认阈值描述 AutoOptimizeByCommitVersion Optimize 17 每间隔固定的版本，触发Optimize任务 AutoVacuumByCommitVersion Clean 13 每间隔固定的版本，触发过期文件的Clean任务说明目前仅支持Delta Lake数据湖格式，更多...

DLF统一元数据

背景信息阿里云数据湖构建是一款全托管的快速帮助用户构建云上数据湖的服务，产品为云原生数据湖提供了统一的元数据管理、统一的权限与安全管理、便捷的数据入湖能力以及一键式数据探索能力，详细信息请参见 数据湖构建产品简介。...

aliyun数据湖分析使用指引

新品推荐