大表瓶颈简介-大表瓶颈简介文档介绍内容-阿里云

品牌升级

PolarDB-X 融合分布式SQL引擎与分布式自研存储X-DB，专注解决海量数据存储、超高并发吞吐、大表瓶颈以及复杂计算效率等数据库瓶颈问题，历经各届天猫双十一及阿里云各行业客户业务的考验。此次品牌升级，存量DRDS实例不受影响，可正常续费...

自媒体：易撰

PolarDB-X 专注解决海量数据存储、超高并发吞吐、大表瓶颈以及复杂计算效率等数据库瓶颈问题，历经各届天猫双十一及阿里云各行业客户业务的考验，助力企业加速完成业务数字化转型。本文介绍易撰如何通过 PolarDB-X 应对业务挑战。所属行业...

公交出行：启迪公交

PolarDB-X 专注解决海量数据存储、超高并发吞吐、大表瓶颈以及复杂计算效率等数据库瓶颈问题，历经各届天猫双十一及阿里云各行业客户业务的考验，助力企业加速完成业务数字化转型。本文介绍启迪公交如何通过 PolarDB-X 应对业务挑战。所属...

聚合支付：Ping+

PolarDB-X 专注解决海量数据存储、超高并发吞吐、大表瓶颈以及复杂计算效率等数据库瓶颈问题，历经各届天猫双十一及阿里云各行业客户业务的考验，助力企业加速完成业务数字化转型。本文介绍Ping+如何通过 PolarDB-X 应对业务挑战。所属行业...

新零售：特步

PolarDB-X 专注解决海量数据存储、超高并发吞吐、大表瓶颈以及复杂计算效率等数据库瓶颈问题，历经各届天猫双十一及阿里云各行业客户业务的考验，助力企业加速完成业务数字化转型。本文介绍特步（中国）有限公司如何通过 PolarDB-X 应对...

行业趋势与背景

专注解决海量数据存储、超高并发吞吐、大表瓶颈以及复杂计算效率等数据库瓶颈问题，历经各届天猫双十一及阿里云各行业客户业务的考验，助力企业加速完成业务数字化转型。PolarDB-X 核心能力通过标准关系型数据库技术实现，配合完善的管控运...

CREATE TABLE

简介 CREATE TABLE 将在当前数据库中创建一个新的、初始为空的表。该表将由发出该命令的用户所拥有。如果给定了一个模式名（例如 CREATE TABLE myschema.mytable.），那么该表被创建在指定的模式中。否则它被创建在当前模式中。临时表存在...

消除数据重分布

对于一个大表join多个小表的场景，类似star schema，采用大表（fact表）和最大的小表（dimension表）的共同列作为数据分布列。根据参与最常见join的数据集的大小选择最大dimension表，而不仅仅是表的大小。如果涉及到一个表的查询普遍带有...

JOIN实现类型

Lookup Join：用于包含等值条件的join 将小表按连接键作为大表的查询条件，去召回大表纪录。SELECT t1.id,t2.id FROM tj_shop AS t1 JOIN tj_item AS t2 ON t1.id=t2.id 说明等值条件的一边是建索引的字段才可以开启lookup join优化说明 ...

STRAIGHT_JOIN

在默认Hash JOIN场景下，选择大表在左，小表在右时，会达到较好性能。如果指定NESTED LOOP JOIN，则应选择小表在左，大表在右。如下第一句SQL，如果已知最佳连接顺序为region、nation、customer，则可以将第一句SQL改写为第二句SQL，指定...

JOIN

例如，当需要连接一个大表和一个小表时，您也可以将小表加载到内存中，从而提高运行效率。配置组件在Designer工作流页面添加 JOIN 组件（仅支持可视化方式配置），并在界面右侧配置相关参数：参数描述连接类型支持左连接、内连接、右...

DISTRIBUTED MAPJOIN

Distributed MapJoin是MapJoin的升级版，适用于小表Join大表的场景，二者的核心目的都是为了减少大表侧的Shuffle和排序。注意事项 Join两侧的表数据量要求不同，大表侧数据在10 TB以上，小表侧数据在[1 GB,100 GB]范围内。小表侧的数据需要...

DISTRIBUTED MAPJOIN

Distributed MapJoin是MapJoin的升级版，适用于大表Join中表的场景，二者的核心目的都是为了减少大表侧的Shuffle和排序。注意事项 Join两侧的表数据量要求不同，大表侧数据在10 TB以上，中表侧数据在[1 GB,100 GB]范围内。小表侧的数据需要...

MAPJOIN HINT

当您对一个大表和一个或多个小表执行 join 操作时，可以在 select 语句中显式指定 mapjoin Hint提示以提升查询性能。本文为您介绍如何通过 mapjoin hint 连接表。功能介绍整个 JOIN 过程包含Map、Shuffle和Reduce三个阶段。通常情况下，...

MAPJOIN HINT

当您对一个大表和一个或多个小表执行 join 操作时，可以在 select 语句中显式指定 mapjoin Hint提示以提升查询性能。本文为您介绍如何通过 mapjoin hint 连接表。功能介绍整个 JOIN 过程包含Map、Shuffle和Reduce三个阶段。通常情况下，...

数据膨胀、倾斜与索引统计

表类型表的存储类型，例如堆表或AO表。期望表大小期望的表的大小，单位为Byte。期望表大小为 AnalyticDB PostgreSQL版判断没有膨胀情况下的表大小。实际表大小实际表的大小，单位为Byte。膨胀表大小膨胀表的大小，为可释放的空间量，...

产品概述

专注解决海量数据存储、超高并发吞吐、大表瓶颈以及复杂计算效率等数据库瓶颈问题，历经各届天猫双十一及阿里云各行业客户业务的考验，助力企业加速完成业务数字化转型。PolarDB-X 1.0 核心能力采用标准关系型数据库技术实现，配合完善的...

动态过滤器（Dynamic Filter）

DFC（Dynamic Filter Consumer）算子：动态过滤器的消费者（Consumer），利用Bloom Filter和Range Filter过滤大表侧的数据。Range Filter会尽可能将过滤条件下推到底层存储，以便从源头过滤数据。对于不同类型的JOIN语义，JOIN对象可担任的...

分区表简介

当大表用于存储历史数据，新数据均加入至某个最新的分区，该场景下建议使用分区表。例如，大表用于存储一年12个月的历史数据。当前月份的数据存在一个单独的分区中，该分区的数据是可更新的。而历史月份的数据则存在另一个只读的分区中。...

分区表简介

当大表用于存储历史数据，新数据均加入至某个最新的分区，该场景下建议使用分区表。例如，大表用于存储一年12个月的历史数据。当前月份的数据存在一个单独的分区中，该分区的数据是可更新的。而历史月份的数据则存在另一个只读的分区中。...

DQL操作常见问题

MAPJOIN中的大表和小表是否可以互换位置？其他 MaxCompute SQL设置过滤条件后，报错提示输入的数据超过100 GB，如何解决？MaxCompute SQL中模糊查询的WHERE条件是否支持正则表达式？如果只同步100条数据，如何在过滤条件WHERE中通过LIMIT...

使用限制

500 MB 6,144,000 16,000 polar.mysql.g4.4xlarge 32核128 GB 10,240 MB 20,480,000 32,000 以上表格中的参数解释如下：文件系统占用内存当集群达到存储空间上限，且处于正常读写（非性能压测，没有大表DDL）的情况下，文件系统所占用的...

单元测试报告

数据倾斜检查是否存在倾斜的情况，是否有大表join小表未用mapjoin等。表分区选择检查代码对表分区的选择是否正确。关联条件检查关联条件是否正确，是否会产生意料外的结果，例如多对多关联、笛卡尔积。字段类型检查字段类型是否正确，...

表回收站

在清理回收站中表的时候，如果遇到大表，系统会再启动一个后台线程异步删除大表。权限 PolarDB 集群启动时，系统会初始化一个数据库_recycle_bin_，作为回收站使用的专有数据库。recycle_bin_是系统级数据库，您无法直接进行修改和删除。...

表统计信息查看与分析

场景3：查询占用磁盘空间较大表的近期总访问趋势-查看昨天占用磁盘空间最大的(10)个表的近一周总访问趋势 with tmp_table_info AS(SELECT db_name,schema_name,table_name,collect_time,hot_storage_size+cold_storage_size as total_...

回收表碎片空间

注意事项回收大容量表的碎片空间时，请确保实例剩余的存储空间大小至少为目标表大小的2~3倍，并在变更过程中密切关注实例剩余空间情况。重要回收大容量表的碎片空间时，可能需要临时存储数据的副本或其他，这可能会导致额外的空间需求。...

表分布定义

如果数据库中存在大表与小表join的场景，您可以将足够小的表设置为复制分布来提升性能。示例如下：哈希分布 CREATE TABLE products(name varchar(40),prod_id integer,supplier_id integer)DISTRIBUTED BY(prod_id);随机分布 CREATE TABLE ...

算子级别诊断结果

表扫描数据量倾斜问题 AnalyticDB MySQL版是分布式执行架构，大表的数据一般需要指定分布字段，数据写入时根据分布字段分散到不同的存储节点上。如果分布字段的值分布不均匀，那么数据存储在各个节点上时也会不均匀，最终导致数据读取时...

分布表

将大表定义为分区表，从而将其分成较小的存储单元，根据查询条件，会只扫描满足条件的分区而避免全表扫描，从而显著提升查询性能。分布表使用 AnalyticDB PostgreSQL支持的分区表类型包括范围（Range）分区、值（List）分区和多级分区表，...

常见问题以及改进措施

其它问题本文只列举了几类常见的查询计划问题，例如全表扫描时出现无过滤条件的大表、可以下推的过滤条件没有下沉到存储等复杂计划和性能问题等，需要 AnalyticDB MySQL版专家服务小组来协助定位排查。改进执行计划收集统计信息 ...

OOM常见问题排查指南

类型4：大表被Broadcast Broadcast是指将数据复制至所有Shard。仅在Shard数量与广播表的数量均较少时，Broadcast Motion的优势较大。在Join场景中，执行计划先进行Broadcast，即将build side的数据广播完再构建Hash表，这就意味着每个Shard...

查看元数据

元数据管理功能主要为您展示当前实例的所有数据库，数据表，分区及各种任务等信息。本文为您介绍如何通过EMR StarRocks Manager查看元数据。前提条件已创建StarRocks实例，详情请参见创建实例。使用限制普通用户无法查看数据库大小、...

无锁结构变更方案对比

锁表变更对业务甚至是致命的，DDL无锁变更通过引入非触发器的方式可以解决大表无锁变更这个难题。本文介绍几种无锁结构变更方案的对比。线上业务不建议直接进行DDL操作，通常有几种做法来避免影响业务：业务低峰期变更：合适的变更窗口以及...

Table Group设置最佳实践

规划时可以考虑如下因素：数据量首先应该考虑的是数据量，也就是大表放更多的Shard，中小表放更少的Shard。写入性能需求 Shard数和数据写入性能呈一定的正相关性，单个Shard的写入能力是有上限的。Shard越多，写入的并发越多，写入的吞吐...

Hash Clustering

Join在MaxCompute内部主要有三种实现方法：Broadcast Hash Join 当Join表中存在一个很小的表时，MaxCompute采用此方式，即把小表广播传递到所有的Join Task Instance上面，然后直接和大表做Hash Join。Shuffle Hash Join 如果Join表比较大...

互联网服务：小打卡

PolarDB-X 专注解决海量数据存储、超高并发吞吐、大表瓶颈以及复杂计算效率等数据库瓶颈问题，历经各届天猫双十一及阿里云各行业客户业务的考验，助力企业加速完成业务数字化转型。本文介绍小打卡如何通过 PolarDB-X 应对业务挑战。所属...

功能特性

空库初始化表一致性修复用于对比不同表之间的表结构，找出差异并在目标表执行差异脚本，以保障不同表之间的表结构一致性。表一致性修复普通结构变更支持CREATE TABLE、ALTER、DROP等SQL语句，可以对数据库中的表结构进行变更操作。普通...

表分区定义

AnalyticDB PostgreSQL版支持将大表定义为分区表，当您进行条件查询时，系统只会扫描满足条件的分区，避免全表扫描，从而提升查询性能。支持的表分区类型范围（RANGE）分区：基于一个数值型范围划分数据，例如按日期区间定义。值（LIST）...

结构设计

控制修改字段数据类型控制修改索引风险控制删除主键控制删除索引控制主键更改为索引控制修改主键包含列控制修改普通索引控制新增索引类型控制SQL执行风险控制核心实例风险控制表存储引擎控制锁表/大表变更风险审批规则校验 ...

分区表管理（auto_partition）

AnalyticDB PostgreSQL版支持将大表定义为分区表，并支持通过auto_partition插件对分区表进行自动删除或新增，当您进行条件查询时，系统只会扫描满足条件的分区，避免全表扫描，从而提升查询性能。新增分区的粒度包括小时，天，星期，月，...

大表瓶颈简介

新品推荐