EMR元数据迁移公告

阿里云EMR团队发现部分用户在EMR集群上,仍然使用本地MySQL和统一meta数据库(旧版功能)作为生产环境的Hive元数据存储。我们强烈建议您尽快迁移到数据湖构建DLF中,原因如下:本地MySQL是单机部署,无法保证服务高可用,容易造成服务中断...

快速入门

数据湖构建(Data Lake Formation,DLF)产品主要使用流程如下。...创建数据源 创建数据湖的入湖来源,当前支持阿里云RDS MySQL...创建数据湖的元数据 添加元数据库 创建元数据表,指定表中数据的存储位置和存储格式 详细操作请参见 元数据管理。

元数据库数据字典

云原生数据仓库AnalyticDB MySQL版 的元数据库为INFORMATION_SCHEMA库,兼容MySQL的元数据库。查询元数据库可以直接在JDBC连接中使用SQL语句进行查询。查询test库下的所有表,示例如下:select*from TABLES where table_schema='test' ...

E-MapReduce数据迁移方案

Hive元数据同步 概述 Hive元数据,一般存在MySQL里,与一般MySQL同步数据相比,要注意两点:Location变化 Hive版本对齐 E-MapReduce支持Hive Meta DB:统一元数据库,E-MapReduce管控RDS,每个用户一个Schema 用户自建RDS 用户ECS自建MySQL...

创建Impala数据

通过创建Impala数据源能够实现Dataphin读取Impala的业务数据或向Impala写入数据。本文为您介绍如何创建Impala数据源。背景信息 Impala是用于处理存储在Hadoop集群中大量数据的SQL查询引擎。如果您使用的是Impala,在导出Dataphin数据至...

修改集群模版

UseLocalMetaDb Boolean 否 true 是否使用本地Hive元数据库,取值如下:true:使用本地Hive元数据库。false:不本地Hive元数据库。IoOptimized Boolean 否 true 是否开启I/O优化,取值如下:true:开启I/O优化 false:不开启I/O优化 ...

Superset(仅对存量用户开放)

这里以E-MapReduce Hadoop集群默认安装的Hive引擎为例,更多的数据库类型访问方式请参见 SQLAlchemy。登录Superset。您需要在SSH连接中创建隧道以查看开源组件的Web页面,详情请参见 通过SSH隧道方式访问开源组件Web UI。默认用户名和密码...

创建TDH Inceptor数据

通过创建TDH Inceptor数据源能够实现Dataphin读取TDH Inceptor的业务数据或向TDH Inceptor写入数据。本文为您介绍如何创建TDH Inceptor数据源。使用限制 Dataphin仅支持 超级管理员、数据源管理员、板块架构师、项目管理员 角色创建数据源...

常见问题

在Impala之外操作元数据后,您可以在Impala控制台通过使用命令INVALIDATE METADATA,以刷新全或者某个表的元数据。Impala写入Hive数据的时候,是否可以修改写入文件的owner?使用Impala写入的表文件的owner默认为Impala,暂不支持修改...

使用Hive查询JindoFS上的数据

例如,创建名为database_on_jindofs,location为 jfs:/emr-jfs/warehouse/database_on_jindofs 的Hive数据库。CREATE DATABASE database_on_jindofs LOCATION 'jfs:/emr-jfs/hive/warehouse/database_on_jindofs';修改Database的Location到...

新建Paimon数据

元数据库方式 数据库类型:仅支持MySQL数据库类型,支持的版本包括 MySQL5.1.43、MySQL5.6/5.7、MySQL8。JDBC URL:填写元数据库的JDBC URL地址。连接格式 jdbc:mysql:/host:port/dbname。用户名、密码:填写访问元数据库的用户名和密码。...

使用Presto访问

Presto支持在线数据查询,包括Hive、Cassandra、关系数据库以及专有数据存储。说明 本文中Presto是通过连接Hive的元数据服务来读取文件存储HDFS上的数据,在文件引擎上使用Presto时需要额外配置一些依赖包,详细操作步骤请参见 配置Presto...

EMR+DLF数据湖解决方案

在新建元数据库对话框,配置元数据库参数。单击确定,完成元数据库创建。新建大数据集群,已有数据存在在OSS中,但没有元数据信息。可以使用 元数据抽取 来识别OSS上数据的元数据信息,并存储在DLF中。步骤三:初始化数据 初始化数据一般...

管理元数据

本文为您介绍如何新建元数据、编辑元数据、检测元数据、转交负责人及删除元数据。介绍页面 在Dataphin首页,单击顶部菜单栏的 资产。在 资源 页面,按照下图操作指引,进入 元数据管理 页面。在 元数据管理 页面,查看系统元数据及自定义的...

数据开发常见问题

磁盘空间满导致本地Hive元数据库(MySQL Server)异常,Hive Metastore连接报错。解决方法:清理Master节点磁盘空间、系统盘的空间以及HDFS空间。访问OSS或LogService时报错ConnectTimeoutException或ConnectionException 问题分析:OSS ...

管理元数据

本文为您介绍如何新建元数据、编辑元数据、检测元数据、转交负责人及删除元数据。介绍页面 在Dataphin首页,单击顶部菜单栏的 资产。在 资源 页面,按照下图操作指引,进入 元数据管理 页面。在 元数据管理 页面,查看系统元数据及自定义的...

元数据抽取

目标数据库 抽取获取的元数据存储的元数据库位置。目标数据表前缀 通过元数据抽取生成跟文件一致的表名,输入目标元数据表前缀后,会在表名前添加前缀。抽取任务发现表字段更新时 当元数据抽取任务获取的表与现有表字段发现不一致时,采取...

EMR Hive功能增强

本文为您介绍E-MapReduce(简称EMR)各版本对应的Hive组件版本,以及各版本中Hive相对开源增强的功能。Hive针对开源功能增强的功能如下表。EMR版本 组件版本 功能增强 EMR-5.2.1 Hive 3.1.2 修复使用DLF元数据执行 show create table 命令...

创建集群模板

UseLocalMetaDb Boolean 否 false 是否使用集群内置MySQL作为Hive元数据库。取值如下:true:使用本地Hive元数据库。false:不本地Hive元数据库。集群内置MySQL单节点,无法保证高可靠。UserDefinedEmrEcsRole String 否 ...

管理敏感数据

如果您需要对RDS实例中的敏感数据进行管控和脱敏,可以使用数据管理DMS提供的敏感数据保护功能。费用 请参见 敏感数据保护功能定价。功能介绍 数据管理DMS的敏感数据管理提供如下功能:提供敏感数据资产大盘,解决企业敏感数据分布的统一纳...

DBMS_METADATA

DBMS_METADATA提供了获取数据库对象的元数据信息的方法,用于重建数据库中的对象。元数据信息以XML形式或者DDL语句的形式返回。DBMS_METADATA子程序总览 子程序 说明 GET_DDL Function 获取对象的DDL。GET_DDL 该函数用于获取对象的DDL...

2020-10-27版本

支持Hive Metastore:可读取Hive中维护的元数据信息,便于统一管理元数据。详情请参见 管理Hive Catalog。重要 仅支持Hive Metastore 2.3.6版本。Hive Metastore暂不支持Kerberos方式认证。支持快速配置监控告警:您可以直接在Flink全托管...

MySQL整实时同步至OSS数据

比如,定义的前缀为“abc_”,那么来源库名在数据湖中的元数据库就会自动加上此前缀,如"abc_my_db",“abc_test_table”等等,此时体现在OSS路径就会是“oss:/zhangsan/my_folder/abc_my_db/abc_test_table”。分区信息 设置数据入湖存储时...

0037-00000002

问题原因 您发起OpenMetaQuery请求为Bucket开启元数据管理功能,但是请求的Bucket已开启或者正在关闭元数据索引。问题示例 例如,您发起OpenMetaQuery请求为Bucket(oss-example)开启元数据管理功能。如果该Bucket已开启或者正在关闭...

Paimon与Trino集成

hive元数据同步到指定的Hive MetaStore中。dlf:元数据同步到DLF中。重启Trino服务。在Trino服务配置页面,选择右上角的 更多操作>重启。在弹出的对话框中,输入 执行原因,单击 确定。在 确认 对话框中,单击 确定。查询Paimon数据。...

Dataphin将csv文件同步到hive库,目标hive库字段值为...

产品名称 Dataphin 产品模块 数据集成 概述 通过该问题的分析处理过程,提供以下场景问题处理排查思路和注意点:管道任务数据集成到hive之后,hive库查询集成数据为空 问题描述 将本地csv文件数据集成到hive库中,任务运行成功,但是查询...

Flink Table Store与Trino集成

hive元数据同步到指定的Hive MetaStore中。dlf:元数据同步到DLF中。重启Trino服务。在Trino服务配置页面,选择右上角的 更多操作>重启。在弹出的对话框中,输入 执行原因,单击 确定。在 确认 对话框中,单击 确定。查询Flink Table ...

Dataphin中SQL脚本任务在元数据库存放位置

概述 Dataphin中SQL脚本任务在元数据库存放位置。详细信息 SQL脚本存放在dataphin.od_node中。适用于 Dataphin

新建ArgoDB计算源

数据库类型 选择ArgoDB的元数据库类型。系统目前支持ArgoDB。JDBC URL 填写对应元数据库的连接地址,格式为 jdbc:postgresql:/<host>:<port>/<database name>。用户名、密码 填写登录元数据库的用户名和密码。说明 为保证任务正常执行,请...

LockObj

名称 类型 描述 示例值 object LockObj CatalogId string 数据库分类命名空间,默认填写主账号 Uid 1344371 DatabaseName string 元数据库名称 database_test PartitionName string 分区名称,非必填 dt TableName string 元数据表名称 ...

使用Prometheus监控E-MapReduce

HiveMetaStore:元数据管理模块,用于存储Database和Table等信息。YARN大盘 HOME:展示集群状态、内存、任务、节点、Container等。NodeManager:负责节点的资源管理、监控和作业运行。ResourceManager:负责集群的资源管理与调度,为运行...

使用Prometheus监控E-MapReduce

HiveMetaStore:元数据管理模块,用于存储Database和Table等信息。YARN大盘 HOME:展示集群状态、内存、任务、节点、Container等。NodeManager:负责节点的资源管理、监控和作业运行。ResourceManager:负责集群的资源管理与调度,为运行...

Hive数据

通过连接Hive Metastore,云数据库 SelectDB 版 可以自动获取Hive的库表信息,进行数据查询、分析。除了Hive外,例如Iceberg、Hudi等其他系统也会使用Hive Metastore存储元数据。通过Hive Catalog,能轻松集成Hive及使用Hive Metastore作为...

功能特性

可以将S3、HDFS等常见远端存储中的文件数据,映射成云数据库 SelectDB 版中的表,从而对这些文件数据进行分析 文件分析 数据湖分析 Hive数据源 通过连接Hive Metastore,云数据库 SelectDB 版可以自动获取Hive的库表信息,进行数据查询、...

数据管理DMS中重新加载表结构的元数据说明

概述 本文主要介绍数据管理DMS中,为什么需要重新加载表结构的元数据。详细信息 通过数据管理DMS登录某个数据库实例时,DMS会加载该实例当前的数据库、表等元数据的结构信息。例如,数据库的名称列表、表的名称列表、当前表的结构字段、...

DeleteDatabase-删除元数据库

Uid 1344371 Name string 否 元数据库名称 database_test Cascade boolean 否 是否级联删除数据 false Async boolean 否 是否异步执行 true Cascade:true:删除 db 下的表,false:不删除 db 下的表,如果 db 还存在表,那么删除失败 返回...

Dataphin自定义组件创建Hive自定义数据源,集成任务...

问题描述 本文主要描述了Dataphin自定义组件创建Hive自定义数据源,集成任务执行的时候报错连接数据库失败的解决方法。问题原因 数据源的链接地址格式不正确。解决方案 正确格式如下:jdbc:hive2:/{ip}:{port}/{db} 适用于 Dataphin v2.9.4...

参数配置

catalog_trash_expire_second 86400 删表或数据库之后,元数据在回收站中保留的时长,单位为s,默认1天。如果超过该时长,则数据无法恢复。alter_table_timeout_second 86400 Schema change超时时间,单位为s,默认1天。balance_load_disk_...

参数配置

catalog_trash_expire_second 86400 删表或数据库之后,元数据在回收站中保留的时长,单位为s,默认1天。如果超过该时长,则数据无法恢复。alter_table_timeout_second 86400 Schema change超时时间,单位为s,默认1天。balance_load_disk_...

在EMR集群运行TPC-DS Benchmark

hive-e"desc database tpcds_bin_partitioned_orc_$SF"(可选)清理已经存在的Hive数据库。重要 如果Hive数据库tpcds_bin_partitioned_orc_$SF已经存在,需要执行下面的命令清理数据库,否则后续流程会报错。如果不存在,则跳过该步骤。...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云数据库 RDS 数据库备份 DBS 云数据库 Redis 版 云数据库 MongoDB 版 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用