可变分区存储方式-可变分区存储方式文档介绍内容-阿里云

表设计最佳实践

此种分区方式可避免发生因某一个地点或某一个时间的天气变化而造成其他无关数据变化。建议采集终端上使用DataHub进行数据汇聚，然后依据稳定的流量值选择合适的Shard通道数量，以批量数据传输的方式写入到天气日志表中，而非INSERT INTO。...

流计算实现细节

RDD是Spark中最基本的数据抽象，它代表一个不可变、可分区、元素可并行计算的集合。在SourceRDD中将通道的channel和RDD的partition进行绑定，因此每个Channel都会在Spark的执行节点上分布式的进行数据并行转换和处理。执行自定义的Spark...

分布式线性扩展

数据物理分布 PolarDB-X 将数据表以水平分区的方式，分布在多个存储节点（DN）上。数据分区方式由分区函数决定，PolarDB-X 支持哈希（Hash）、范围（Range）等常用的分区函数。以下图为例，shop库中的orders表根据每行数据的ID属性进行哈希...

变更表的表组（AUTO模式）

在 PolarDB-X 的AUTO模式数据库中，所有表都从属且只属于一个表组，同一个表组内的表分区方式一致，同一表组内的表之间的关联查询可以下推到存储节点执行，执行效率得到了很大的提高。本语法仅适用于AUTO模式数据库。为了方便将表关联到同...

CREATE MATERIALIZED VIEW

基于满足物化视图场景的数据创建物化视图，支持分区和聚簇场景。背景信息视图是一种虚拟表，任何对视图的查询，都会转换为视图SQL语句的查询。而物化视图是一种特殊的物理表，物化视图会存储实际的数据，占用存储资源。更多物化视图计费...

分区设计

用户存有海量数据的表应该按照数据规模进行拆解，表的数据将拆解成多个数据分区独立存储，通常的设计原则是：主键（Primary Key）单实例数据库不要求表一定要有主键，但是对于分布式数据库，主键则是必须的，以保证一行数据是全局唯一的，...

谷歌BigQuery数据迁移至AnalyticDB PostgreSQL版

STRUCT CREATE TYPE JSON JSON GEOGRAPHY CREATE TYPE/GEOGRAPHY DDL CREATE TABLE PARTITION BY（分区表）谷歌BigQuery的分区方式主要有以下三大类：整数范围分区对应 AnalyticDB PostgreSQL版的数字范围表分区，可以使用数字数据类型的...

什么是TTL功能

基本原理 TTL表的每个物理表都会按照时间做Range分区，所有GSI的物理表跟主表的分区方式一致。随着时间的推移，新的分区会被创建，失效的分区会被删除，如下图所示：说明 PolarDB-X 默认会自动创建新分区和删除失效分区。您也可以在建表时...

AUTO模式数据库与DRDS模式数据库

自动分区与手动分区自动分区自动分区，指创建表时不指定任何分区定义（如分区键、分区策略等），PolarDB-X 能够自动选择分区键并对表及其索引进行水平分区的功能。AUTO模式数据库支持自动分区，而DRDS模式数据库不支持。示例如下：使用...

技术原理

分布式线性扩展 PolarDB-X将数据表以水平分区的方式，分布在多个存储节点（DN）中。数据分区方式由分区函数决定，PolarDB-X支持哈希（Hash）、范围（Range）等常用的分区函数。以下图为例，shop库中的orders表根据每行数据的ID属性的哈希，...

访问列存数据

列存即列式存储，是一种将数据按列进行存储和处理的数据管理方式。Lindorm计算引擎支持将半结构化、结构化数据以列存方式进行存储，相较于行式存储，列式存储的查询响应时间更短，消耗IO更少。本文介绍如何通过计算引擎访问Lindorm列存数据...

通过LOCALITY指定存储位置（AUTO模式）

创建逻辑表时指定存储位置在创建逻辑表时指定存储位置以实现数据隔离，目前支持在单表和Range、Hash、List三种分区方式的分区表中使用Locality关键字。在实例中创建一个逻辑表，并指定其存储位置。详细语法参见 CREATE TABLE（AUTO模式）...

变更表类型及分区策略（AUTO模式）

本文介绍了变更表类型（即在单表、广播表和分区表三者间进行相互转换）及分区策略（包括拆分函数或分区列）的相关语法和示例。本语法仅适用于AUTO模式数据库。前提条件仅适用于分区模式为auto/partitioning的逻辑库（请参见 CREATE ...

使用说明

分区方式需要为 RANGE COLUMN 类型。暂不支持在创建全局二级索引（GSI）的分区表上使用DLM功能。PolarDB MySQL版不支持修改DLM策略，您可以先删除原有策略，再创建策略。当前表上存在DLM策略时，如果执行某些DDL操作，使归档表和原表的表...

读取以分区方式存储的OSS数据

MaxCompute支持创建OSS外部表为分区表，访问OSS上以分区方式存储的数据，通过该方式可降低读取数据量并提升数据处理效率。本文为您介绍MaxCompute支持的OSS标准分区路径格式和自定义分区路径格式。背景信息创建OSS外部表后，MaxCompute会...

并行查询

根据并行的方式，分区并行可分为分区间并行、分区内并行和混合并行。以上三种并行方式都有自己的代价模型，优化器会根据实际情况选择最优的一种。分区间并行分区间并行是指每个worker查询一个分区，从而实现多个worker并行查询整个分区表...

并行查询

根据并行的方式，分区并行可分为分区间并行、分区内并行和混合并行。以上三种并行方式都有自己的代价模型，优化器会根据实际情况选择最优的一种。分区间并行分区间并行是指每个worker查询一个分区，从而实现多个worker并行查询整个分区表...

并行查询

根据并行的方式，分区并行可分为分区间并行、分区内并行和混合并行。以上三种并行方式都有自己的代价模型，优化器会根据实际情况选择最优的一种。分区间并行分区间并行是指每个worker查询一个分区，从而实现多个worker并行查询整个分区表...

按扫描量付费

然后将GZIP格式的数据分区存储，将待扫描的数据存储在同一个分区中。DLA只扫描一个分区，扫描的数据量降低至0.2 TB。将1 TB的JSON文件转换为ORC格式，DLA只需按列扫描其中10%的数据，扫描的数据量降低至0.1 TB。经过数据格式转换、压缩和...

概述

只将分区表中的过期子分区存储在OSS中，热分区存储在云盘中，这是比较典型的冷热分层模式。数据冷热分层场景由于OSS访问延迟是云盘介质访问延迟的几百倍，数据一旦冷存处理后，其访问性能会降低。用户为了降低成本将数据冷存处理，但对冷...

概述

只将分区表中的过期子分区存储在OSS中，热分区存储在云盘中，这是比较典型的冷热分层模式。数据冷热分层场景由于OSS访问延迟是云盘介质访问延迟的几百倍，数据一旦冷存处理后，其访问性能会降低。用户为了降低成本将数据冷存处理，但对冷...

概述

只将分区表中的过期子分区存储在OSS中，热分区存储在云盘中，这是比较典型的冷热分层模式。数据冷热分层场景由于OSS访问延迟是云盘介质访问延迟的几百倍，数据一旦冷存处理后，其访问性能会降低。用户为了降低成本将数据冷存处理，但对冷...

查看分区状态

分区用于存储消息，每个Topic由一个或多个分区组成，分区状态展示了各个分区的消息总量、最大及最小消费位点。当Kafka集群出现消息堆积、磁盘水位过高等异常情况时，可查看分区状态了解服务端的消息量及各个分区的消费进度，定位异常原因。...

存储引擎

数据分区：支持数据多级分区，且可按Value或范围进行分区，常用场景为按时间进行分区，可明显降低IO数据量，同时分区支持混合存储，历史数据和活跃数据可分层冷热存储。排序及粗糙集过滤：建表时可指定排序字段，数据通过排序后，一方面可...

创建云盘

根据云盘容量，可使用不同的分区方式：使用GPT分区：支持2 TiB以上容量。使用MBR分区：不支持2 TiB以上容量。初始化小于等于2 TiB数据盘（Linux）初始化小于等于2 TiB数据盘（Windows）初始化大于2 TiB数据盘创建云盘快照快照是一种无...

过滤式特征选择

连续特征分区方式 连续特征分区的方式，取值如下：自动化分区等距离分区连续特征离散区间数仅连续特征分区方式 选择等距离分区时，才需要配置该参数。方式二：PAI命令方式使用PAI命令方式，配置该组件参数。您可以使用SQL脚本组件...

原理

将表定义存储到表的Option结构上，包括这些数据需要存储：interval_expr：这个结构存储间隔分区的间隔大小 sub_part_strategy/sub_part_params：存储二级分区的分区键和分区类型信息 partition_template_list：存储了模版分区列表，用于...

分区表常见问题

使用分区表数据量没有下限，空表也可建分区表，但数据量太少没必要分区，一般普通表大于500 MB可以选择使用分区表。当单分区数据量超过64 TB（与单个普通表一致），最大分区数超过8192时不适合使用分区表。建议单表数据量超过1 TB或者1亿行...

扩缩容最佳实践

设置临时变配您的业务面临小规模、高频的促销或其它活动时，可选择通过临时变配的方式实现集群规格和容量暂时扩缩容，扩容期间产生的增量费用按小时收取。您可对套餐规格、存储规格分别或同时进行临时扩容的操作。具体操作参见设置临时变...

概述

扩缩容维度分类扩缩容方式使用场景集群标准变配存储空间扩缩容当随着您业务的不断运行，积累了更多的数据，需要更多存储空间时，可选择存储空间扩容。当您的业务对历史数据进行迁移或删除后，使用的存储空间变小，即可选择修改存储...

全局二级索引（GSI）

局部索引单个分区的数据由分区表单个分区的数据构建而成，且局部索引的分区与分区表的分区一一对应，所以，局部索引的索引数据只能保证在单个分区内有序，如果您想创建局部唯一索引，则索引字段必须包含全部的分区键。当分区表上只存在局部...

优化建议

查询尽量在单机完成，最为简单的方式就是在分区字段上指定等值条件，使操作只发送到一个后台数据库节点。若不指定，则操作需要发送到每个后台节点，可能导致性能大幅下降；尽量避免分布式事务和分布式查询；同时使用其他适用于MySQL的优化...

Interval范围分区

在复合分区中，间隔范围分区可用于主分区机制，但不支持子分区级别。DEFAULT和MAXVALUE不能为区间范围分区表定义。不能在分区键列中指定NULL、Not-a-Number或Infinity值。区间范围分区表达式必须产生常量值并且不能为负值。间隔范围分区表...

数据建模

时间分区时间分区会按照时间维度进行数据分区存储，存储底层会将不同时间分区内的数据进行分段存储，一个时间分区内的数据包含时间线索引和时序数据。时序引擎支持在数据库设置时间分区，一般情况下，如果创建周期性时间线导致了时间线...

创建MaxCompute投递任务（新版）

日志服务采集到日志后，支持将日志投递至MaxCompute的表中进行存储与分析。本文介绍如何创建MaxCompute投递任务（新版）。前提条件已创建Project和Logstore。具体操作，请参见创建Project和Logstore。已采集日志。具体操作，请参见数据...

DDL操作常见问题

生命周期操作设置表的生命周期为3天，每个表的分区存储量很大，如何清理分区表旧数据？MaxCompute支持虚拟表吗？例如MySQL中的DUAL表？不支持虚拟表，您可以手动创建DUAL表。MaxCompute的表有无索引？没有索引，Hash Clustering可以提供...

何时选择RANGE分区

对于定期加载新数据和清除旧数据的场景，RANGE分区也是理想的分区方式。例如，通常会保留一个滚动的数据窗口，将过去36个月的数据保持在线。RANGE分区简化了这个过程。要添加新月份的数据，需要将其加载到一个单独的表中，对其进行清理、...

迁移说明

非阿里云服务存储数据迁移至云上NAS 如果您想将线下数据、IDC数据、本地数据等非阿里云服务存储数据迁移至阿里云文件存储NAS，可参照以下方式进行迁移：配置数据传输中转节点迁移数据至阿里云NAS OSS和NAS之间的数据迁移对于NAS与OSS之间...

功能特性

数据管理功能集功能功能描述参考文档存储类型标准存储提供高可靠、高可用、高性能的对象存储服务，面向温热数据，适合支持频繁的数据访问。标准存储低频访问存储提供高持久性、较低存储成本的对象存储服务。有最小计量单位（64 KB...

投递日志到MaxCompute（旧版）

您可以在日志服务控制台实时...分区列 log_partition_time string_partition_time_保留字段由日志的_time_字段对齐计算而得，分区粒度可配置。status string status 日志内容字段解析自日志，该字段取值支持枚举，保证分区数目不超过上限。

可变分区存储方式

新品推荐