您可以使用该功能管理元数据库和元数据表。创建元数据库 登录 数据湖管理控制台,选择 元数据 目录下的 元数据管理。单击 新建数据库。配置元数据库参数。选择所属数据目录。输入元数据库名称。(选填)输入元数据库描述。输入元数据库的...
操作流程 具体操作 步骤一:创建采用DLF为元数据服务的EMR DataLake集群 步骤二:在DLF中创建元数据库和元数据表 步骤三:通过DLF入湖功能创建RDS到数据湖的入湖流程 步骤四:通过EMR的Spark、Presto引擎查询DLF表 步骤一:创建DLF统一...
本文为您介绍如何使用DLF数据探索查询Iceberg表。目前DLF数据探索可以直接支持Delta、Hudi、...针对Iceberg表,需要在指定的元数据库和表之前,加上dlf_catalog.前缀。例如:SELECT*FROM dlf_catalog.database_name.iceberg_table limit 100;
参见 元数据管理 章节,定义数据湖的元数据库和表。控制台概览 控制台概览分为2个部分,左侧为主要功能区,右侧为产品主要信息,帮助用户快速上手产品。注册数据湖位置 阿里云数据湖构建采用OSS作为统一数据湖位置,用户需要注册一个OSS的...
数据探索是一种线上的交互式查询服务,开通即用。它是完全托管的,并且具备了高性能、弹性、易用等特点,无需申请任何资源即可直接使用。用户可以对入湖后的数据使用Spark SQL快速的进行数据探索,以便对湖内数据进行审核,质量检查,分类...
通过新建Paimon数据源能够实现Dataphin读取Paimon的业务数据或向Paimon写入数据。本文为您介绍如何新建Paimon数据源。权限说明 仅支持具备新建数据源权限的账号进行新建。更多信息,请参见 数据源权限说明。使用限制 Paimon数据源不支持以...
产品功能架构 元数据管理,通过控制台查看和管理数据湖中元数据库和表的信息,通过 新增元数据库 的方式操作元数据,集成到第三方应用服务。并支持多版本管理、可通过元数据发现和入湖任务自动生成元数据。入湖基础操作,通过入湖任务的...
元数据库 Cloudera Manager、Hive和Hue等组件都需要使用数据库存储他们的元数据信息,目前元数据库部署在Utility节点和Master-1节点上,采用主备的架构,Utility节点上的元数据库作为Master,Master-1节点上的元数据库作为Slave去复制...
本文为您介绍如何新建元数据、编辑元数据、检测元数据、转交负责人及删除元数据。介绍页面 在Dataphin首页,单击顶部菜单栏的 资产。在 资源 页面,按照下图操作指引,进入 元数据管理 页面。在 元数据管理 页面,查看系统元数据及自定义的...
本文为您介绍如何新建元数据、编辑元数据、检测元数据、转交负责人及删除元数据。介绍页面 在Dataphin首页,单击顶部菜单栏的 资产。在 资源 页面,按照下图操作指引,进入 元数据管理 页面。在 元数据管理 页面,查看系统元数据及自定义的...
前提条件 已有一个EMR集群,且Metastore服务配置的元数据库与导出的目标RDS库要一致。同步任务会使用EMR集群的Metastore服务,以Spark作业的方式运行在该EMR集群上实现导出。所有元数据的location路径建议都在oss上,如果location的路径为...
Dataphin支持使用ArgoDB作为Dataphin的离线计算引擎,为Dataphin项目提供处理离线计算任务的能力。本文为您介绍如何创建ArgoDB计算源。背景信息 ArgoDB是星环自主研发的分布式分析型数据库,可替代Hadoop+MPP的混合架构。能够使用标准的SQL...
EMR-2.4.0之前版本,所有集群采用的是集群本地的MySQL数据库作为Hive元数据库;EMR-2.4.0及后续版本,E-MapReduce(简称EMR)支持统一的高可靠的Hive元数据库。背景信息 因为元数据库需要使用公网IP来连接,所以集群必须要有公网IP,同时请...
云原生数据仓库MySQL版的元数据库分为记载性能相关信息的performance_schema库和记载元数据的information_schema库,并和MySQL的元数据库有一定的兼容性,但并不是100%一致。查询元数据库可以直接在JDBC连接中使用SQL语句进行查询。查询云...
本文为您介绍Hive元数据的基本操作,包括新建库、删除库、新建表和删除表。前提条件 已创建集群,详情请参见 创建集群。新建库 进入元数据管理页面。登录 阿里云E-MapReduce控制台。在顶部菜单栏处,根据实际情况选择地域 和资源组。单击...
比如,定义的前缀为“abc_”,那么来源库名在数据湖中的元数据库就会自动加上此前缀,如"abc_my_db",“abc_test_table”等等,此时体现在OSS路径就会是“oss:/zhangsan/my_folder/abc_my_db/abc_test_table”。分区信息 设置数据入湖存储时...
云数据库HBase存储海量大数据,在业务场景中往往承载着重要数据,为保障数据的高可用性和安全性,云数据库HBase提供了主备双活和主备容灾特性。本文介绍云数据库HBase的主备双活和主备容灾特性功能。使用场景 主备双活:大数据量随机读响应...
独立部署版本:私有云独立部署,Dataphin输出PostgreSQL数据库作为元数据库。元数据库采用一主一备或一主两备模式,保障元数据库稳定性;每天进行元数据库全量冷备,保留七天,过期自动删除。公有云独立部署,Dataphin元数据库采用阿里云上...
前提条件 若以TDH Inceptor作为元仓,或元仓初始化中的元数据库配置使用TDH Incepor作为元数据库获取方式时,需要具备以下条件:已在TDH Inceptor中创建dataphin_meta的项目。元仓初始化中TDH Inceptor配置的用户,需具备dataphin_meta项目...
数据库名称>为 hive元数据库 名称。数据库用户名 填写hive元数据库中账号的用户名。数据库密码 填写hive元数据库中账号的密码。Metastore初始化 1.连接RDS元数据库,首先需要打通Databricks集群与MySQL实例的VPC和vSwitch网络。详情参见 ...
通过创建Impala数据源能够实现Dataphin读取Impala的业务数据或向Impala写入数据。本文为您介绍如何创建Impala数据源。背景信息 Impala是用于处理存储在Hadoop集群中大量数据的SQL查询引擎。如果您使用的是Impala,在导出Dataphin数据至...
本产品(数据湖构建/2020-07-10)的...GetDatabaseProfile 获取库数据概况 获取库数据概况的详细信息。GetLifecycleRule 获取库表生命周期规则 获取库表生命周期规则。ListPartitionsProfile 获取分区数据概况 获取分区数据概况的详细信息。
为了保证更稳定的大规模Hive元数据服务,您可以从原有的统一元数据库迁出到您自建的RDS实例。前提条件 已购买RDS,详情请参见 创建RDS MySQL实例。使用限制 建议选择 MySQL 的5.7版本;系列 选择 高可用版。RDS MySQL实例须与E-MapReduce的...
通过创建Impala数据源能够实现Dataphin读取Impala的业务数据或向Impala写入数据。本文为您介绍如何创建Impala数据源。背景信息 Impala是用于处理存储在Hadoop集群中大量数据的SQL查询引擎。如果您使用的是Impala,在导出Dataphin数据至...
Delta Lake和Hudi是数据湖方案中常用的存储机制,为数据湖提供流处理、批处理能力。MaxCompute基于阿里云DLF、RDS或Flink、OSS产品提供了支持Delta或Hudi存储机制的湖仓一体架构。您可以通过MaxCompute查询到实时数据,即时洞察业务数据...
步骤一:创建数据湖的元数据库 登录 数据湖管理控制台,在页面上方选择地域,在 元数据>元数据管理 页面创建元数据库。具体操作请参见 创建元数据库。步骤二:DataWorks数据集成导入数据至OSS 准备入湖数据。登录 RDS管理控制台,选择地域...
背景信息 因为数据湖元数据DLF具有高可用和易维护的特点,所以以下场景适合使用数据湖元数据:当您的EMR集群均为生产环境时,您无需维护独立的元数据库。横向使用多种大数据计算引擎时,元数据可以集中管理。例如,MaxCompute、Hologres和 ...
DataWorks为您提供DLF可视化权限申请、权限审批及权限审计等功能,帮助您实现数据湖全托管的统一权限管理,本文为您详细介绍如何进行DLF数据访问权限管控。前提条件 已将DLF设置为计算引擎元数据服务。例如,EMR已将DLF设置为元数据服务,...
问题描述 Bucket不存在元数据索引库。问题原因 您发起了DoMetaQuery或GetMetaQueryStatus请求,但是请求的目标Bucket没有开启元数据管理功能。问题示例 例如,你发起了DoMetaQuery请求,但是请求的Bucket(oss-example)未开启元数据管理...
数据湖构建已与操作审计服务集成,您可以在操作审计中查询用户操作数据湖构建产生的管控事件。操作审计支持将管控事件投递到日志服务SLS的LogStore或对象存储OSS的存储空间中,满足实时审计、问题回溯分析等需求。操作审计记录了用户通过...
数据库名称>:步骤一:元数据库准备 中设置的数据库名称。javax.jdo.option.ConnectionUserName RDS用户名 填写 步骤一:元数据库准备 中账号的用户名。javax.jdo.option.ConnectionPassword RDS密码 填写 步骤一:元数据库准备 中账号的...
本文介绍了过载保护功能的原理和使用方法。背景 当用户做促销活动时,数据库主库的CPU资源容易负载过高,这时就需要对数据库进行变配(升级),但变配的过程中整个集群的请求可能都会路由到主节点,导致主节点CPU资源超负载甚至雪崩,从而...
本文为您介绍迁移E-MapReduce(简称EMR)元数据至数据湖元数据DLF(Data Lake Formation)中的原因及迁移流程。迁移原因 2020年阿里云EMR推出全新的数据湖构建和统一元数据服务,为EMR用户提供了更好的统一元数据服务方案。阿里云EMR团队...
名称 类型 描述 示例值 object 数据库对象 CreateTime integer 创建时间,Unix 时间戳秒数 1608707407 Description string 元数据库描述文本 this is a hive database LocationUri string 元数据库保存路径,例如 HDFS 路径/hdfs/hivedb/...
名称 类型 描述 示例值 object 数据库对象 Description string 元数据库描述文本 this is a hive database LocationUri string 元数据库保存路径,例如可填写 HDFS 路径/hdfs/hivedb/data Name string 元数据库名称,校验长度 128,不支持...
在数据湖 元信息发现、T+1全量同步一键建仓 中创建的库表结构,可以被Spark读取并使用,Spark SQL创建或者修改的元数据也可以被其他引擎访问到。下图是Spark SQL和DLA SQL与元数据服务之间的关系。登录 DLA控制台,单击左侧导航栏的 SQL执行...
本文将介绍使用DMS(Data Management Service)和通用MySQL客户端连接 PolarDB MySQL版 集群失败的问题原因以及解决方法。集群白名单未配置或配置有误 问题原因:白名单设置中默认地址为 127.0.0.1,表示禁止任何IP地址访问 PolarDB 集群。...
本文介绍如何使用数据传输服务DTS(Data Transmission Service),实现 RDS PostgreSQL 间的结构迁移、全量数据迁移以及增量数据迁移。同时使用这三种迁移类型可以实现在业务不停服的情况下,平滑地完成数据库的迁移。前提条件 已创建源和...
功能说明 您可以通过生命周期管理对数据湖中的数据库、数据表配置数据管理规则,可以基于数据最后访问时间、分区值、分区/表最后修改时间、分区/表创建时间四种规则类型,对数据定期进行存储类型转换,从而节省数据存储成本。同时,可以...
说明 开通免费试用后,系统会根据您提供的用户名和密码抽取目标数据库中的元数据和少量随机数据用于敏感数据分析,这些数据不会被存储和修改。您可以在页面中查看到数据库相关信息和数据库中敏感数据的扫描结果。如需对扫描出来的敏感数据...