DLF统一元数据

背景信息 阿里云数据湖构建是一款全托管的快速帮助用户构建云上数据湖的服务,产品为云原生数据湖提供了统一的元数据管理、统一的权限与安全管理、便捷的数据入湖能力以及一键式数据探索能力,详细信息请参见 数据湖构建产品简介。...

归档为CSV或ORC格式

暂不支持对归档后的分区数据进行修改。暂不支持对分区表中的二级分区执行冷数据归档操作。暂不支持对LIST DEFAULT HASH分区表的DEFAULT分区执行冷数据归档操作。暂不支持对HASH或KEY类型的分区表执行冷数据归档操作。暂不支持对整张分区表...

在EMR集群运行TPC-DS Benchmark

hive-f./hive-testbench-hdp3/ddl-tpcds/bin_partitioned/analyze.sql \-hiveconf hive.execution.engine=tez \-database tpcds_bin_partitioned_orc_$SF 说明 因为同时使用了数据湖构建(DLF)来保存Hive表的元数据,所以数据生成后,您...

分区定义

分区表维护 分区表支持多种分区管理操作,包括新增分区,删除分区,重命名分区,清空截断分区,交换分区,分裂分区等,具体信息,请参见 Partitioning Large Tables。分区表子表重命名 AnalyticDB PostgreSQL版 在6.3.10.9版本之后支持对...

自建Hive数据仓库迁移到阿里云E-MapReduce

客户在IDC或者公有云环境自建Hadoop集群,数据集中保存在HDFS文件系统,同时借助Hive进行常见的ETL任务。客户在决策上云之后,会将自建Hadoop集群的数据迁移到阿里云自建Hadoop或者EMR。方案优势 易用性 您可以简单选择所需ECS机型(CPU、...

创建数据

开关打开:如果表已存在,先清空目标表或者分区数据,再写入数据。文件格式 选择文件存储格式。支持4种文件存储格式:Parquet、ORC、Avro和CSV。压缩 选择文件的压缩方式。分区 选择数据的分区键。您可以通过分区键中的值,快速查找您需要...

配置连接器

连接器 功能 hive 使用Hive连接器可以查询存储在Hive数据仓库中的数据。kudu 使用Kudu连接器可以查询、插入和删除存储在Kudu里的数据。mysql 使用MySQL连接器可以在外部MySQL实例中查询和创建表。iceberg 使用Iceberg连接器可以查询Iceberg...

配置连接器

Hive连接器 Kudu 使用Kudu连接器可以查询、插入和删除存储在Kudu里的数据。Kudu连接器 MySQL 使用MySQL连接器可以在外部MySQL实例中查询和创建表。MySQL连接器 Iceberg 使用Iceberg连接器可以查询Iceberg格式的数据文件。Iceberg连接器 ...

Hudi数据

本文介绍 云数据库 SelectDB 版 与Hudi数据源进行对接使用的流程,帮助您对Hudi数据源进行联邦分析。注意事项 Hudi表支持的查询类型如下。表类型 支持的查询类型 Copy On Write Snapshot Query+Time Travel Merge On Read Snapshot Queries...

数据建模

创建时序数据库 Lindorm实例创建成功后,系统会默认创建default数据库,将数据默认写入该数据库,您无法删除default数据库。时序引擎也支持创建多个数据库,不同的数据库在存储层面进行物理隔离,支持设置不同的数据有效期(TTL)、时间...

功能特性

MaxCompute数据导入 导出至MaxCompute Hive数据源 AnalyticDB for MySQL支持通过数据迁移功能将Hive元数据和数据一键迁移至OSS。Hive数据导入 HDFS数据源 AnalyticDB for MySQL支持通过外表、DataWorks两种方式将HDFS数据导入至数仓版或湖...

Insert Into

数据数据同步 如果数据数据湖等外部系统中,可以在SelectDB中创建Catalog,映射到数据湖等外部系统中的数据,然后通过Insert Into Select将其中的数据导入到SelectDB表中。SelectDB支持对接Hive、Iceberg、Hudi、Elasticsearch、JDBC等...

阿里云DLF数据

本文介绍 云数据库 SelectDB 版 与阿里云DLF数据源进行对接使用的流程,帮助您对阿里云DLF数据源进行联邦分析。概述 阿里云Data Lake Formation(DLF)是阿里云上的统一元数据管理服务,兼容Hive Metastore协议。SelectDB 可以像访问 Hive ...

颜色映射器使用说明

颜色映射器适用于设置组件内各种颜色和数据数值之间的映射配置样式,内置十余种颜色模板,同时支持自定义颜色和颜色的对应值,以满足用户不同的定制需求。本文以配置 基础平面地图 3.0 组件中 矢量散点层 子组件的散点颜色...数值分区数据示例

生命周期操作

对于分区表,则根据各分区的 LastModifiedTime 判断该分区数据是否该被回收,当最后一个分区被回收后,该表不会被删除。如果您需要在最后一个分区被回收后自动删除该表,可以通过以下两种方式进行设置:说明 当项目级别与表级别的设置发生...

一键实时同步至MaxCompute

附:Base表数据未产出排查思路 Merge流程 现象 原因 解决方案 增量Log表T-1分区数据产出检查失败。实时同步任务执行异常,导致增量Log表T-1分区数据未正常产出。检查实时同步任务失败原因,并从失败位点重启该任务。说明 RDS Binlog保留时...

一键实时同步至MaxCompute

附:Base表数据未产出排查思路 Merge流程 现象 原因 解决方案 增量Log表T-1分区数据产出检查失败。实时同步任务执行异常,导致增量Log表T-1分区数据未正常产出。检查实时同步任务失败原因,并从失败位点重启该任务。说明 RDS Binlog保留时...

ACID语义

本文为您介绍MaxCompute在作业并发情况下...UPDATE、DELETE、MERGE小文件操作会因为目标非分区表或分区数据变化而产生冲突报错。说明 需要注意的是,在极端情况下,如果多个作业并发且元数据正处于更新阶段,可能因元数据更新而产生冲突报错。

动态过滤器(Dynamic Filter)

当JOIN Key为分区列时,动态范围过滤器或布隆过滤器(Dynamic Range|Bloom Filter)仍然可用,但MaxCompute会读取完整个分区的数据后再过滤数据,读取分区数据的过程可以进一步优化。即在读取数据前,将无用的分区裁剪掉,即动态分区裁剪...

动态过滤器(Dynamic Filter)

当JOIN Key为分区列时,动态范围过滤器或布隆过滤器(Dynamic Range|Bloom Filter)仍然可用,但MaxCompute会读取完整个分区的数据后再过滤数据,读取分区数据的过程可以进一步优化。即在读取数据前,将无用的分区裁剪掉,即动态分区裁剪...

访问Hive数据

AnalyticDB MySQL湖仓版(3.0)支持访问Hive数据源。本文以E-MapReduce集群的Hive服务为例,介绍使访问Hive数据的方法。前提条件 已创建AnalyticDB MySQL湖仓版(3.0)集群。具体操作,请参见 创建湖仓版(3.0)集群。已创建数据库账号。...

支持的数据

类别 数据源 导入方式 文档链接 消息队列 Kafka 数据同步 通过数据同步功能同步Kafka至湖仓版(推荐)日志类数据 日志服务(SLS)数据同步 通过数据同步功能同步SLS至湖仓版(推荐)大数据 Hive 数据迁移 Hive数据导入 相关文档 AnalyticDB...

生命周期管理介绍

例如:订单表(按pt分区,如pt=20220101),业务诉求为仅分析近3年数据,而历史分区数据期望转为冷归档,降低存储使用成本。此类场景,可以配置按分区值规则类型进行定期归档。业务A的数据库A,因为业务A不再发展,历史数据暂时封存,可以...

通过EMR运行基于OSS-HDFS服务的TPC-DS Benchmark

TPC-DS作为大数据行业中最权威且被广泛认可的基准测试标准,用于衡量大规模数据处理系统的性能与效率的关键指标。阿里云EMR是第一个通过认证的可运行TPC-DS 100 TB的大数据系统。本文介绍如何在EMR集群环境下,充分利用OSS-HDFS服务的优势...

测试模型

表格存储的BatchWriteRow会以分区维度并发处理,每个分区数据会最终变成一次写磁盘操作。建议您在组织BatchWriteRow请求时,按数据分区键进行聚合,可以减少每次BatchWriteRow的写磁盘数量,有效提高写入性能。随机读和随机范围读两个...

API概览

DropPartition 删除分区信息。表管理 API 描述 CreateTable 创建OSS的表。GetTable 获取给定表的详细信息。GetAllTables 获取当前用户有读权限或写权限的所有表。AlterTable 修改表的数据库名、表名、表属性以及列信息。DropTable 删除给定...

分区表达式介绍

日期表达式说明,当5月份的分区数据产出的时候,将进行如下计算:第一步:计算yyyyMMld,即是取给定日期所在月的最后一天,5月最后一天为31日,得到结果:20220531。第二步:计算DELTA,DELTA为减1天,20220531减1天为20220530。最终结果为...

分区表达式介绍

日期表达式说明,当5月份的分区数据产出的时候,将进行如下计算:第一步:计算yyyyMMld,即是取给定日期所在月的最后一天,5月最后一天为31日,得到结果:20220531。第二步:计算DELTA,DELTA为减1天,20220531减1天为20220530。最终结果为...

迁移Hive表和分区数据到OSS-HDFS服务

本文介绍如何使用JindoTable MoveTo命令将Hive表和分区数据迁移至OSS-HDFS服务。前提条件 已创建EMR-3.36.0及以上版本(除3.39.x版本以外)或EMR-5.2.0(除5.5.x版本以外)及以上版本的集群。具体步骤,请参见 创建集群。已通过Hive命令...

分区裁剪

分区表能够将大的事实表分解成多个小表,根据查询条件自动跳过不满足条件的分区数据,从而提高查询效率。分区裁剪(Partition Pruning)是数据库分区表中常用的性能优化手段。使用限制 仅支持分区表。仅支持在Range或List分区列上使用范围...

动态分区管理

创建分区子表:tbl1_20231218 清理分区子表:tbl1_20231213 常见场景 保留指定分区子表 默认情况下,系统会按照已配置的动态分区规则,自动创建和删除分区子表,不在保留范围内的分区子表将被自动删除。但在某些特殊场景中(例如在电商场景...

通过命令行方式访问Presto

例如,如果要查看Hive数据源中默认数据库中的 test 表的数据,您可以使用 select*from hive.default.test;命令。可选:执行 quit;可以退出Presto命令行。高安全集群 说明 如果创建集群时打开了 Kerberos身份认证 开关,则创建的集群即为高...

Iceberg数据

本文介绍 云数据库 SelectDB 版 与Iceberg数据源进行对接使用的流程,帮助您对Iceberg数据源进行联邦分析。注意事项 支持Iceberg V1、V2表格式。V2格式仅支持Position Delete方式,不支持Equality Delete。创建Catalog 基于Hive Metastore...

通过Spark SQL读Lindorm数据

本文主要介绍如何通过Spark SQL访问Lindorm中的Hive表和宽表的数据。前提条件 已创建Lindorm单可用区实例。具体操作,请参见 创建实例。重要 Lindorm实例需开通宽表引擎、计算引擎、文件引擎。计算引擎开通方式,请参见 开通与变配。已开通...

JindoTable MoveTo命令介绍

MoveTo命令可以实现表和分区数据的迁移功能。本文为您介绍MoveTo命令的使用方法。前提条件 本地安装了Java JDK 8。已创建集群,详情请参见 创建集群。背景信息 MoveTo命令可以在拷贝底层数据结束后,自动更新元数据,使表和分区的数据完整...

数据规范

数据分区 依赖数据源产出新分区 aime对接的离线数据往往是周期性更新的,这种情况下您可以将数据表的全量调度策略设置为“依赖数据源产出新分区”,这种策略下,aime会自动检测您的数据表是否有更新。为了使数据更新事件能够被aime...

AUTO模式数据库与DRDS模式数据库

PolarDB-X数据库模式概述 从 PolarDB-X 5.4.13版本开始,新增支持AUTO模式的数据库(也称为自动分区数据库)。AUTO模式的数据库支持自动分区,即创建表时无需指定分区键,数据即可自动在集群内均匀分布;同时也支持使用标准的MySQL分区表语...

快速使用EMR Notebook

数据库 待访问的Hive数据库名称。访问方式 支持以下访问方式:LDAP:EMR集群中设置的用户名和密码,详情请参见 管理用户。免密登录:仅需设置用户名。网络检测 单击 测试连通性,可以测试网络连通性。单击 添加数据库。步骤三:新建...

列存索引中HashMatch算子的实现

ProbeDisk用于磁盘分区的probe操作,按分区来处理,处理指定磁盘分区时先从该分区的临时文件中加载chunk,然后直接调用Probe处理,若为Left类型的Join,还需要调用ProbeLeft对该分区进行处理。Join逻辑 HashMatch实现Inner/LeftOuter/...

存储引擎

数据分区:支持数据多级分区,且可按Value或范围进行分区,常用场景为按时间进行分区,可明显降低IO数据量,同时分区支持混合存储,历史数据和活跃数据可分层冷热存储。排序及粗糙集过滤:建表时可指定排序字段,数据通过排序后,一方面可...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据传输服务 云数据库 RDS 云数据库 Redis 版 数据库备份 DBS 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用