数据湖怎么样-数据湖怎么样文档介绍内容-阿里云

概述

数据湖构建可以帮助用户快速构建云上数据湖，采用统一的管理视角治理数据湖。本产品目前处于公测阶段，您可以随时开通使用，目前数据湖构建所有功能均为免费使用阶段。用户使用流程 数据湖构建将帮助您快速简洁抽取源数据到统一数据湖的...

API概览

本产品（数据湖构建/2020-07-10）的OpenAPI采用 ROA 签名风格，签名细节参见签名机制说明。我们已经为开发者封装了常见编程语言的SDK，开发者可通过下载SDK 直接调用本产品OpenAPI而无需关心技术细节。如果现有SDK不能满足使用需求，可...

常见问题

本文为您介绍数据湖构建的常见问题。如何申请数据湖构建产品的公测资格？数据湖构建如何收费？数据湖构建与OSS有什么区别？什么情况下我需要使用数据湖构建？如何申请数据湖构建产品的公测资格？请使用阿里云主账号进行公测资格申请（请...

关系数据库全量入湖

本文为您介绍如何在数据湖构建（Data Lake Formation，简称DLF）中使用关系数据库全量入湖任务将RDS或PolarDB数据批量同步到数据湖中。重要数据入湖功能已经停止更新，如果您有数据入湖需求请参考：数据入湖停止更新公告。前提条件已开通...

使用流程

云原生数据湖分析DLA（Data Lake Analytics）是无服务器（Serverless）化的云上交互式查询分析服务，支持通过Presto和Spark引擎分析多种数据源中的数据。快速入门旨在介绍如何开通DLA、构建数据湖、调用Presto和Spark引擎进行数据分析与...

入湖基础操作

数据湖构建（Data Lake Formation，简称DLF）支持多种入湖任务类型用于快速构建数据湖，通过入湖任务，您可以定义数据入湖的方式和所消耗的资源。本文为您介绍入湖任务的基础操作。重要数据入湖功能已经停止更新，如果您有数据入湖需求请...

角色管理

本文档主要为您说明如何管理数据湖构建中的角色。说明子账号需要具备admin（数据湖管理员）或 super_administrator（超级管理员）的权限，才可以进行角色相关操作。查看角色信息 1.打开 数据湖构建控制台，并打开数据权限管理-角色菜单。2...

【通知】停止售卖云原生数据湖分析DLA

阿里云计划停止售卖云原生数据湖分析DLA，其湖分析功能将并入云原生数据仓库AnalyticDB MySQL版。停售对象云原生数据湖分析DLA 停售计划 2023年06月01日起，停止新购云原生数据湖分析DLA实例和开通服务。2023年12月01日起，停止升级云原生...

数据湖构建之MaxCompute湖仓一体最佳实践

MaxCompute+DLF湖仓一体方案打破数据湖与数据仓库割裂的体系，架构上将数据湖的灵活性、生态丰富与数据仓库的企业级能力进行融合，构建数据湖和数据仓库融合的数据管理平台。本文介绍湖仓一体的具体方案。背景信息大数据计算服务...

常见术语

数据湖 数据湖是一个集中式存储库，允许您以任意规模存储所有结构化和非结构化数据，数据湖支持存储EB级别的数据，阿里云数据湖存储以OSS为代表！数据湖分析 数据湖分析就是针对数据湖数据分析的方案。云原生数据湖分析（简称DLA）是新一代...

快速入门

数据湖构建（Data Lake Formation，DLF）产品主要使用流程如下。前提条件注册阿里云账号，并完成实名认证。创建数据源创建数据湖的入湖来源，当前支持阿里云RDS MySQL和PolarDB作为数据来源。您需要输入RDS MySQL连接的用户名和密码。...

Flink VVP+DLF数据入湖与分析实践

数据湖构建（DLF）可以结合阿里云实时计算Flink版（Flink VVP），以及Flink CDC相关技术，实现灵活定制化的数据入湖。并利用DLF统一元数据管理、权限管理等能力，实现数据湖多引擎分析、数据湖管理等功能。本文为您介绍Flink+DLF数据湖方案...

EMR+DLF数据湖解决方案

通过EMR+DLF数据湖方案，可以为企业提供数据湖内的统一的元数据管理，统一的权限管理，支持数据湖的多种管理如数据生命周期，湖格式自动优化，存储分析等。同时支持多源数据入湖以及一站式数据探索的能力。本文为您介绍EMR+DLF数据湖方案...

使用限制

您在使用数据湖构建（Data Lake Formation，简称DLF）控制台和接口时，产品做了如下限制，请在使用时注意不要超过相应的限制值，以免出现异常。数据湖元数据限制项用户配额单表QPS 500 单表分区数量 100万 数据湖入湖预处理作业限制项 ...

服务等级协议

自2021年1月起，数据湖构建（DLF）服务等级协议（SLA）生效。详细内容参考 数据湖构建服务等级协议。

配置流入湖任务延迟监控

您可以通过云监控查看数据湖构建（DLF）流任务延迟状况，以及为每一个流任务设置报警规则，帮助您监控流任务运行状态。重要数据入湖功能已经停止更新，如果您有数据入湖需求请参考：数据入湖停止更新公告。查看流任务监控数据您可以在...

功能特性

本文档主要介绍数据湖分析服务DLA包含的核心功能以及应用场景。数据湖分析服务DLA支持以下功能：功能名称功能描述参考文档账号管理账号分为DLA账号、RAM账号。您可以创建DLA子账号，并关联RAM子账号，关联后可以通过RAM子账号提交Spark...

用户管理

本文档主要为您说明如何管理数据湖构建中已添加的用户。查看用户列表 1.打开 数据湖构建控制台，并打开数据权限管理-用户菜单。2.打开用户列表信息页面。说明此处管理的用户为添加到数据湖构建中的用户，目前仅支持添加RAM用户到数据湖...

产品简介

阿里云数据湖构建（Data Lake Formation，简称 DLF）是一款全托管的快速帮助用户构建云上数据湖及Lakehouse的服务，为客户提供了统一的元数据管理、统一的权限与安全管理、便捷的数据入湖能力以及一键式数据探索能力。DLF可以帮助用户快速...

Kafka实时入湖

本文为您介绍如何在数据湖构建（Data Lake Formation，简称DLF）中使用Kafka实时入湖任务将数据同步到数据湖中。重要数据入湖功能已经停止更新，如果您有数据入湖需求请参考：数据入湖停止更新公告。前提条件已开通数据湖构建服务，尚未...

什么是云原生数据湖分析

重要云原生数据湖分析（DLA）产品已退市，云原生数据仓库 AnalyticDB MySQL 版湖仓版支持DLA已有功能，并提供更多的功能和更好的性能。AnalyticDB for MySQL 相关使用文档，请参见云原生数据仓库AnalyticDB MySQL版产品简介。云原生数据...

查询多个备份集

管理数据湖 若您在创建数据湖后仍想添加备份集，您可以通过添加备份集功能，按需往数据湖中添加备份集。由于每个备份计划仅支持同时创建一个数据湖，若您想创建新的数据湖，需要先关闭原有数据湖才可以重新建湖。登录 DBS控制台。单击...

MaxCompute湖仓一体概述

MaxCompute提供湖仓一体方案，该方案可以打破数据湖与数据仓库割裂的体系，并将数据湖的灵活性、生态丰富能力与数据仓库的企业级部署能力进行融合，助力构建数据湖和数据仓库相融合的数据管理平台。本文介绍如何通过MaxCompute和异构数据...

计费概述

本文介绍DLA的三种计费方式：按计算资源付费、按扫描量付费和数据湖存储服务付费。计费方式计费类别说明适用场景相关文档按计算资源付费 数据湖分析CU版根据购买的CU规格进行计费，费用跟运行查询扫描的数据量没有关系。计费模式如下...

Location托管

Location托管可以将数据湖OSS中的存储数据托管到数据湖构建（DLF）中进行管理和分析，在托管Location后将可以为你提供存储概览，生命周期管理介绍，数据表-数据概况（如数据访问频次，数据最后更新时间等），以及存储权限（规划中）等数据...

DLF统一元数据

背景信息阿里云数据湖构建是一款全托管的快速帮助用户构建云上数据湖的服务，产品为云原生数据湖提供了统一的元数据管理、统一的权限与安全管理、便捷的数据入湖能力以及一键式数据探索能力，详细信息请参见 数据湖构建产品简介。...

数据湖元数据管理

Databricks 数据洞察DBR 7.3,Spark 3.0.1,Scala 2.12及之后版本，在创建集群选择元数据类型时支持数据湖元数据作为Hive数据库。数据湖元数据是服务化高可用并且可扩展的元数据库，您无需额外购买独立的元数据库，就可以实现多个引擎计算，...

使用OpenAPI

本文为您介绍使用数据湖构建OpenAPI的基本信息及注意事项。说明关于如何使用阿里云OpenAPI，请参见学习文档：使用OpenAPI。基本信息版本说明版本号说明 2020-07-10 推荐接入点说明参见服务接入点。用户身份用户身份支持情况阿里...

计费模式

本文介绍数据湖构建中各资源的计费规格，包括入湖作业资源用量、数据存储对象和元数据请求三部分。计量计费项重要 DLF产品目前所有功能为 0折扣活动阶段，即使超过免费阶梯限定后，目前也均不会产生实际计费。元数据对象的存储量元数据...

数据湖投递概述

表格存储 数据湖投递可以全量备份或实时投递数据到数据湖OSS中存储，以满足更低成本的历史数据存储，以及更大规模的离线和准实时数据分析需求。应用场景利用数据湖投递可以实现如下场景需求：冷热数据分层 数据湖投递结合表格存储的 ...

Delta Engine 概述

Delta Engine 是与 Apache Spark 兼容的高性能查询引擎，提供了一种高效的方式来处理数据湖中的数据，包括存储在开源 Delta Lake 中的数据。Delta Engine 优化可加快数据湖操作速度，并支持各种工作负载，从大规模 ETL 处理到临时交互式...

CatalogSettings

名称类型描述示例值 object 数据湖相关配置 Config object 配置 string 数据湖权限配置,auth.permission.check.enable 表示是否开启元数据服务端鉴权，开启后通过 API 访问元数据将被鉴权，auth.super.principal 表示设置超级用户，超级...

湖格式管理

策略所属类型默认阈值描述 AutoOptimizeByCommitVersion Optimize 17 每间隔固定的版本，触发Optimize任务 AutoVacuumByCommitVersion Clean 13 每间隔固定的版本，触发过期文件的Clean任务说明目前仅支持Delta Lake数据湖格式，更多...

支持的数据源

AnalyticDB for MySQL 支持导入RDS MySQL、MongoDB、OSS、MaxCompute、Kafka等多种数据源至数据仓库或数据湖中，各数据源支持的导入方案也不同，您可以参考本文档，选择合适的导入方案。数据入仓类别数据源导入方式产品系列文档链接 ...

数据权限概述

数据湖权限支持配置数据库、数据表、数据列、函数四种维度细粒度权限。下面针对不同的数据操作，对所需要配置的权限进行说明，并对Owner权限的定义和权限鉴定方式进行详细说明。权限设置权限设置主要为数据目录（Catalog）开启和关闭权限...

与Spark集成分析

DLA Ganos是基于云原生数据湖分析（Data Lake Analytics，DLA）系统设计开发的，面向时空大数据存储与计算的数据引擎产品。基于DLA无服务器化（Serverless）数据湖分析服务与内置的Spark计算引擎，DLA Ganos提供了不同级别的数据分析模型，...

与Spark集成分析

DLA Ganos是基于云原生数据湖分析（Data Lake Analytics，DLA）系统设计开发的，面向时空大数据存储与计算的数据引擎产品。基于DLA无服务器化（Serverless）数据湖分析服务与内置的Spark计算引擎，DLA Ganos提供了不同级别的数据分析模型，...

UserRole

名称类型描述示例值 object 数据湖元数据角色 Role Role 角色。GrantTime long 授予时间。DatabaseWildcard User Principal 用户身份。

为Spark集群设置元数据

EMR on ACK支持使用数据湖元数据DLF（Data Lake Formation）和自建Hive Metastore元数据两种方式，为Spark集群设置元数据。本文为您介绍如何在EMR on ACK中设置Spark集群的元数据。背景信息因为数据湖元数据DLF具有高可用和易维护的特点，...

RoleInput

名称类型描述示例值 object role input Name string 数据湖角色名 test Description string 角色描述注释 DisplayName string 角色显示名显示名称，允许中文

数据湖怎么样

新品推荐