防止重复的行数据条目-防止重复的行数据条目文档介绍内容-阿里云

SELECT

SELECT&WHERE clause SELECT DISTINCT 在查询结果中去除重复的行数据。SELECT DISTINCT Group Aggregation 根据聚合规则对多条记录进行聚合计算后输出。Group Aggregation Joins 关联两张表进行数据关联查询。Joins ORDER BY 将返回结果...

INSERT ON CONFLICT(UPSERT)

使用数据集成或Flink写入数据时，如果需要对主键重复的行数据执行更新或跳过操作，则需进行如下配置：通过DataWorks的数据集成导入数据。数据集成已内置 INSERT ON CONFLICT 功能，该功能的实现原理请参见 Hologres Writer。同时，您需要...

数据模型

对Aggregate模型而言，指定的所有Key列数据相同的行，多行数据会进行合并，Value列按照建表时字段定义中设置的AggregationType进行预聚合，最终只保留一行数据。这意味着Aggregate模型可以通过预聚合，极大地降低聚合查询时所需扫描的数据...

主键与唯一键（DRDS模式）

此时order_tbl表内存在两行主键重复的数据，这说明Local主键无法保证全局唯一。INSERT INTO order_tbl(order_id,city,name)VALUES(10001,"Shenzhen","camera");Query OK,1 row affected SELECT*FROM order_tbl;order_id|city|name|+-+-+-+|...

主键与唯一键（AUTO模式）

此时list_tbl表内存在两行主键重复的数据，说明Local主键无法保证全局唯一。INSERT INTO list_tbl(order_id,city,name)VALUES(10001,"Shenzhen","camera");Query OK,1 row affected SELECT*FROM list_tbl;order_id|city|name|+-+-+-+|10001...

库表

但对维度表进行增删改时，会对涉及的数据行进行重复多次的操作，以保证每个维度表的副本都生效。所以维度表不宜过大，也不宜对维度表频繁进行增删改查操作。表个数的上限是多少？更多详情，请参见使用限制。创建表后为什么看不到分区信息...

云数据库Redis间的迁移

对于List列表，由于DTS在调用 psync 或 sync 传输数据时，不会对目标端已有的数据执行 Flush 操作，所以可能出现重复的数据。如果源库中的某些Key使用了过期（expire）策略，由于可能存在Key已过期但未被及时删除的情况，所以在目标库中...

从自建Redis迁移至阿里云Redis

对于List列表，由于DTS在调用 psync 或 sync 传输数据时，不会对目标端已有的数据执行 Flush 操作，所以可能出现重复的数据。迁移期间，如自建Redis发生扩缩容（如增加或者减少分片）、规格变配（如扩大内存），则您需重新配置任务。且为...

配置MySQL输出组件

主键冲突时覆盖（replace into）：即在主键/约束冲突时，会先删除整行主键重复的旧数据，再插入新数据。主键冲突时更新（on duplicate key update）：即在主键/约束冲突时，会在已存在的记录上更新映射字段的数据。准备语句非必填项。数据...

配置MySQL输出组件

主键冲突时覆盖（replace into）：即在主键/约束冲突时，会先删除整行主键重复的旧数据，再插入新数据。主键冲突时更新（on duplicate key update）：即在主键/约束冲突时，会在已存在的记录上更新映射字段的数据。准备语句非必填项。数据...

质量规则参数配置

统计值（重复行数/重复率）重复行数用于检查数据中重复了的行数的多少，仅计算多出来的行数，算法为总行数-去重行数。重复率=重复行数/总行数。如果需要重复数据的全部行数/重复率计算，可以使用唯一值校验模板的异常行数/异常率指标。及时...

质量规则参数配置

统计值（重复行数/重复率）重复行数用于检查数据中重复了的行数的多少，仅计算多出来的行数，算法为总行数-去重行数。重复率=重复行数/总行数。如果需要重复数据的全部行数/重复率计算，可以使用唯一值校验模板的异常行数/异常率指标。及时...

DELETE

语法 delete_statement:=DELETE FROM table_name WHERE where_clause 说明 Where_Clause必须可以唯一限定一行数据。语法限制 DELETE的WHERE子句中，必须给出能够唯一定位一行数据的完备主键条件。一条DELETE语句只能删除一行数据，不支持一...

ModifyDatasetItem-修改数据集条目

修改用户自定义数据集的数据条目的超时时间和描述。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。调试授权信息下表是API对应的授权信息，可以在RAM权限...

CreateDatasetItem-创建数据集条目

创建用户自定义数据集的数据条目。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。调试授权信息下表是API对应的授权信息，可以在RAM权限策略语句的 ...

DescribeDatasetItemList-查询数据集条目列表

查询用户自定义数据集的数据条目列表。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。调试授权信息下表是API对应的授权信息，可以在RAM权限策略语句的 ...

DeleteDatasetItem-删除数据集条目

删除用户自定义数据集的数据条目。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。调试授权信息下表是API对应的授权信息，可以在RAM权限策略语句的 ...

窗口函数

窗口函数基于查询结果的行数据进行计算。窗口函数运行在 HAVING 子句之后，ORDER BY 子句之前。触发一个窗口函数需要特殊的关键字 OVER 子句来指定窗口。一个窗口包含三个组成部分：分区规范，用于将输入行分裂到不同的分区中。这个过程和 ...

IP访问控制插件

数据集中的数据条目在到达其过期时间后将自动失效。重要插件数据集只在专享实例生效，如果您配置了数据集的插件所绑定的API不是配置在专享实例上，那么插件中配置的数据集将不生效。6.2.IP访问控制插件配置插件数据集 IP访问控制插件...

添加TableStore数据源

如下图创建了一个名称为 test 的实例，里面有3行数据，每行数据有两个列：id(主键,integer)和 test(string)。配置数据源。查询参数。使用 getRow 方式查询。数据响应结果如下。使用 getRange 方式查询。数据响应结果如下。说明在使用...

添加TableStore数据源

如下图创建了一个名称为 test 的实例，里面有3行数据，每行数据有两个列：id(主键,integer)和 test(string)。配置数据源。查询参数。使用 getRow 方式查询。数据响应结果如下。使用 getRange 方式查询。数据响应结果如下。说明在使用 ...

数据去重

用途数据去重算子可以按照指定的字段去除重复的数据，只保留其中一条，然后输出到下个节点。适用场景计算链路计算引擎是否支持离线 MaxCompute 是 Hive 是 HiveStorage 是 RDS/MySQL 是使用说明选择去重字段选择需要去重的字段，...

API概览

ModifyDatasetItem 修改数据集条目修改用户自定义数据集的数据条目的超时时间和描述。DescribeDatasetInfo 查询数据集信息查询单个数据集信息。DescribeDatasetList 查询数据集列表查询用户自定义数据集列表。DescribeDatasetItemInfo ...

表数据格式

tblproperties("transactional"="true"）：transactional属性代表满足ACID事务特性，保障快照隔离和读写并发控制，写入的每行数据会附加事务属性字段，比如事务timestamp，用来支持 Time travel查询，过滤出正确数据版本的记录。...

行级管控

所有的行通过一个或若干个确定的值（管控值）进行区分，实现对行数据的管控。例如，连锁企业的订单，只允许员工查看本人所负责地域的数据，不能看全部区域的数据。约束和限制仅支持关系型数据库，如MySQL、PolarDB等。仅支持安全协同模式...

垃圾回收机制

当无效数据行占总数据行数的一定数值时（您可以根据需求自定义设置无效数据行数占比），PolarDB PostgreSQL版（兼容Oracle）会自动触发垃圾数据的回收动作，通过VACUUM进程对垃圾数据进行回收；您也可以手动执行 vacuum table_name 进行...

热点行优化

hotspot_lock_type 行数据分组批量更新过程中是否使用新类型的行锁，取值为ON或OFF，默认值为OFF。说明该参数打开时，对相同热点行的更新操作申请行锁时不需要等待，从而提升性能。说明 hotspot_for_autocommit、hotspot_update_max_wait_...

常见术语

DLA元数据元数据：支持库（Schema，是表的集合）、表（Table，是同构行记录的集合）、列（Column，描述一行数据的某个属性）、视图（View，将某个查询的结果抽象成一张表）等，每个库（Schema）只能对应一种数据源，元数据是Presto引擎、...

配置数据质量规则去噪

如果规则是SQL任务表行数，7天平均值波动检测，则基准值是前7天的表行数据的平均值。是否启动选择是否开启该降噪规则，开启后当任务中存在质量规则校验不通过的数据时将不阻塞任务运行。单击保存，完成去噪规则配置。管理去噪规则您可以...

查询结果不符合预期的常见原因

如果删除请求的时间戳比数据写入的时间戳/版本号小，那么这行数据不会被删除，此时查询结果中依旧会包含这行数据。如果删除请求设置的时间戳/版本号较大，删除请求提交后将持续生效，此时再写入数据，则数据写入的时间戳比删除请求设置的...

结果编辑与导出

在列模式页面可以进行上一行、下一行的切换展示，对于列数量比较多场景，列模式比较方便行数据的查看。参考步骤如下：选中需查看的数据后，单击列模式按钮；在弹出的列模式页面中，可单击左右按钮查看上下行列值；鼠标移动至某值...

表数据管理

展示数据量设置在页面中展示的行数。搜索通过关键字搜索表数据。列管理筛选在页面中展示的列。列模式以表格的形式展示当前被选中行的数据。在列模式页面可以进行上一行、下一行的切换展示，在列数量比较多的场景下，列模式便于查看...

新增消费组

通过创建多个消费组，您可以对同一个数据源的数据进行重复消费，从而降低数据订阅的使用成本，提升数据消费速度。注意事项一个数据订阅实例最多可以创建20个消费组，通过创建多个消费组可以实现数据的重复消费。一个消费组只能创建一个...

2022年

开通或关闭实例的数据共享数据共享SQL 备份恢复 AnalyticDB PostgreSQL版Serverless模式提供了备份恢复功能，可以有效防止数据的丢失。备份数据默认保留7天。备份恢复（Serverless版本）优化 Laser计算引擎 AnalyticDB PostgreSQL版...

新增消费组

通过创建多个消费组，您可以对同一个数据源的数据进行重复消费，从而降低数据订阅的使用成本。注意事项若您需要消费的单行数据超过16MB，则可能会导致消费客户端内存OOM（Out of Memory）。一个数据订阅实例最多可以创建20个消费组，通过...

配置ClickHouse输出组件

批量条数：数据同步过程中每一次写入数据的行数，默认为65536。如果您同时配置了批量插入字节大小和批量条数两个参数，则数据同步的速度取决于第一个达到预设值的参数。解析方案解析方案用于自定义数据写入至ClickHouse数据源前和数据...

冷热分离

如果一行数据已经在冷数据区域，但这一行后续有更新，更新的字段先会在热区，如果设置HOT_ONLY去查询这一行（或者设置的TimeRange只在热区），则只会返回这一行更新的字段（在热区）。只有在查询时去掉HOT_ONLY Hint，去掉TimeRange，或...

使用执行计划分析查询

算子层计划执行树算子层执行计划由多个算子组成，图中的每个矩形框代表一个算子，数据流向自下而上，扫描数据过程或接收网络数据由最上游的算子（TableScan和RemoteSource）完成，扫描到的数据和接收到的网络数据经过中间算子层层处理后，...

配置Hologres输出组件

同步其他数据源的数据至Hologres数据源的场景中，完成源数据的信息配置后，需要配置Hologres输出组件的目标数据源。本文为您介绍如何配置Hologres输出组件。前提条件已创建Hologres数据源并已申请Hologres数据源的同步写权限：如何创建...

敏感数据溯源

建议您使用数据量大于500条，并且不包含重复数据的文件进行溯源。原因二：被泄漏的数据非本租户名下的数据。解决方案：您需要确认溯源数据的来源，确保溯源的数据为本租户名下的数据。原因三：被溯源的文件中不包含水印信息。解决方案：您...

防止重复的行数据条目

新品推荐