数据节点

当核对的数据量较大时,可选择参与核对字段的某个字段,针对某几位进行散列,读取到的数据就会按照散列后的值散列到不同分片中,支持后续并发排序和核对,从而提升核对效率。说明 散列字段可以与排序字段保持一致。散列位数:自定义的散列...

RIGHT_SHIFT

通常一些业务后N位可能只是一些业务上的标志位,如果直接对键值进行取余散列,其散列效果可能会比较差。但如果通过RIGHT_SHIFT(shardKey,8)将拆分键的值进行二进制右移8位,则分别变成了0x01、0x02、0x03和0x04,这样的散列效果就会比较...

RIGHT_SHIFT

通常一些业务后N位可能只是一些业务上的标志位,如果直接对面值进行取余散列,其散列效果可能会比较差。但如果通过 RIGHT_SHIFT(shardKey,8)将拆分键的值进行二进制右移8位,则分别变成了 0x01、0x02、0x03 和 0x04,这样的散列效果就会...

分区索引

HASH分区 HASH分区将数据进行散列存储,从而避免出现数据的热点问题。在数据写入量较大的场景中可以很好地实现数据均衡。搜索索引默认按照Lindorm宽表的主键进行HASH分区,同时也支持自定义分区键。HASH分区的语法示例如下:创建搜索索引,...

自定义分区

不支持指定 partitioning_storage_clause 属性定义散列分区以及范围、散列和列表子分区指定存储特征,忽略该 option。指定 hash 一级分区数量 指定 hash 一级分区数量 hash_partitions_by_quantity 的语法如下:PARTITIONS hash_partition_...

表设计

主键设计——数据散列 为什么需要数据散列 数据散列是分布式数据系统中的通常要考虑的问题,散列的目的是让数据分布更均匀,避免热点。假设数据分布不均匀,会出现以下问题:数据写入和读取能力受限于单个分区的能力,或者是单机能力,存在...

新增脱敏算法

系统内置5种脱敏算法:哈希:MD5:一种被广泛使用的密码散列函数,可以产生出一个128位(16字节)的散列值。SHA1:一种密码散列数,可以生成一个被称为消息摘要的160位(20字节)散列值。SHA256:使用的哈希值长度是256位。HMAC:基于Hash...

HASH

LINEAR HASH与HASH的不同之处在于,LINEAR HASH使用线性二次幂算法,而HASH使用散列函数值的模数。在语法上,LINEAR HASH和HASH的唯一区别是LINEAR在PARTITION BY子句中添加了关键字。示例 HASH类型的使用示例:CREATE TABLE sales_hash(s_...

数据分布策略

语法 CREATE TABLE table_name(.)[DISTRIBUTED BY(column[,.])|DISTRIBUTED RANDOMLY|DISTRIBUTED REPLICATED]哈希分布 DISTRIBUTED BY(column,[.])数据将根据分布列的哈希值将各个行分布到指定计算节点上,相同的哈希值会始终散列到同一...

LLM-敏感词过滤

如果勾选,则在输出表中新增两列用来存储结果,否则不做存储。是否敏感词保存列名:保存是否敏感词的列名,值为bool类型,默认列名为is_sensitive。敏感词保存列名:保存敏感词的列名,默认列名为sensitive_words。无 SQL脚本 否 where语句...

LLM-文本质量打分(FastText)

如果勾选,则在输出表中新增两列用来存储计算结果;否则不做存储。质量标签保存列名:可选,保存质量标签的列名,该列的值为0或1,默认列名为 quality_label。置信度保存列名:可选,保存质量置信度的列名,该列值为0~1之间的浮点类型值,...

DBMS_UTILITY

GET_HASH_VALUE(name,base,hash_size)函数 NUMBER 计算散列值。GET_PARAMETER_VALUE(parnam,intval OUT,strval OUT)存储过程 BINARY_INTEGER 获取数据库初始化参数设置。GET_TIME 函数 NUMBER 获取当前时间。NAME_TOKENIZE(name,a OUT,b ...

数据视图

页签 参数 描述 字段设置 选择特征 用来表现训练样本数据特征的列。选择目标 用来进行训练样本数据的目标列。枚举特征 勾选的特征将被视作枚举特征处理。k:v,k:v稀疏数据格式 是否采用KV格式的稀疏数据。参数设置 连续特征离散区间数 ...

如何设计宽表主键

散列的目的是将数据分散到不同的分区,不至于产生热点使某一台服务器终止,其他服务器空闲,充分发挥分布式和并发的优势。最佳设计示例:设计md5散列算法,主键设计为[md5(userid).subStr(0,4)][userId][orderid]。设计反转,主键设计为...

玄武分析型存储

同时索引的性能主要受数据分布特征影响,包括:cardinality(散列程度),范围查询的记录数/表记录数。在某些情况下,例如 age>0 and age这种查询走索引的开销反而比扫描高。因此玄武基于CBO智能选择索引或扫描。多种索引类型多路归并查找...

分区表索引

当基础表中的分区被添加、删除、合并或拆分时,或者当散列分区或子分区被添加或合并时,PolarDB PostgreSQL版(兼容Oracle)会自动维护索引分区。如果分区列构成索引列的子集,则可以创建UNIQUE本地索引,从而保证具有相同索引键的行始终...

分区表索引

当基础表中的分区被添加、删除、合并或拆分时,或者当散列分区或子分区被添加或合并时,PolarDB PostgreSQL版 会自动维护索引分区。如果分区列构成索引列的子集,则可以创建UNIQUE本地索引,从而保证具有相同索引键的行始终映射到同一分区...

Word2Vec

页签 参数 描述 字段设置 选择单词 用来进行训练的单词列。参数设置 单词特征维度 单词的特征维度数量。取值范围为0~1000,默认值为100。语言模型 训练使用的语言模型。取值范围为 skip-gram模型 和 cbow模型,默认值为 skip-gram模型。...

如何选择二级索引和多元索引

索引表可支撑的数据规模与数据表相同,此外,二级索引的主键设计也同样需要考虑散列问题。多元索引:一个多元索引是一系列数据结构的组合,其中的每一列都支持建立倒排索引等结构。查询数据时可以按照其中任意一列进行排序。一个多元索引...

表分布定义

建表语句 CREATE TABLE 支持如下三个分布策略的子句:分布方式 说明 哈希分布 DISTRIBUTED BY(column,[.])数据将根据分布列的哈希值将各个行分布到指定计算节点上,相同的哈希值会始终散列到同一计算节点。为保障数据可以均匀分布在各个...

LLM-语种识别和过滤

如果勾选,则在输出表中新增两列用来存储计算结果;否则不做存储。语种名称保存列名:保存语种名称的列名,默认值为language_id。语种置信度保存列名:保存语种置信度的列名,默认值为language_score。无 SQL脚本 否 where语句填写,语种...

索引选择

索引表可支撑的数据规模与数据表相同,此外,二级索引的主键设计也同样需要考虑散列问题。更多信息,请参见 二级索引简介。表格存储提供了全局二级索引和本地二级索引两种类型的索引。全局二级索引以异步方式将数据表中被索引的列和主键列...

表操作篇

如果必须使用 OrderNumber 作为分区键,建议在 OrderNumber 上进行哈希散列,将哈希值作为 OrderNumber 的前缀,保证数据和访问压力的均匀。总结 可以根据需求将 CardID 和 DeviceID 作为表的分区键,而不应该使用 SellerID 和 OrderNumber...

CREATE TABLE

CREATE TABLE语法用来创建Lindorm搜索表。语法 CREATE TABLE[IF NOT EXISTS]table_name '(' column_definition(',' column_definition)*[',' PRIMARY KEY '(' primary_key ')']')'[PARTITION BY RANGE TIME '(' time_partition_key=value '...

基本概念

Sort一般用来对您的数据进行排序,而Group一般用来进行二次排序。相关的使用示例请参见 二次排序源代码。哈希 支持设置哈希(partition)及用户自定义哈希函数(partitioner)。哈希列的使用优先级高于自定义哈希函数。哈希函数用于...

CreateFileDetect-文件推送检测

2.将生成的散列值转换为 16 进制字符串形式。现有工具库包括 Java 的 Codec 工具、Python 的 hex 函数等。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。...

功能特性

数据源配置管理 您可以在产品中添加多种不同类型的数据源配置,每个数据来源配置代表一个核对系统在后续核对工作中可以用来读取数据的数据来源配置,当前支持如下类型的数据源配置:OSS:OSS 文件系统的读取配置,需要您输入访问信息,...

Doc2Vec

页签 参数 描述 字段设置 文档ID用来进行训练的文档名。文档内容 用来进行训练的词汇,以空格分隔。参数设置 单词的特征维度 单词的特征维度数量。取值范围为0~1000,默认值为100。语言模型 训练使用的语言模型。取值范围为 skip-...

Split Word

页签 参数 描述 字段设置 用来进行分词的名。参数设置 识别选项 识别内容类型。取值范围为:识别简单实体 识别人名 识别机构名 识别电话号码 识别时间 识别日期 识别数字字母 默认值为:识别简单实体、识别电话号码、识别时间、识别...

继承

州首府还有一个额外的 state 用来表示它所属的州。在本数据库中,一个表可以从 0 个或者多个其他表继承,而对一个表的查询则可以引用一个表的所有行或者该表的所有行加上它所有的后代表。默认情况是后一种行为。例如,下面的查询将查找...

唯一索引

索引也可以被用来强制值的唯一性,或者是多个组合值的唯一性。CREATE UNIQUE INDEX name ON table(column[,.]);当前,只有 B-tree 能够被声明为唯一。当一个索引被声明为唯一时,索引中不允许多个表行具有相同的索引值。空值被视为不...

存索引如何实现高效数据过滤

其中,RANGE和LIST分区会把数据表分成若干个区间或列表,HASH分区会将数据散列到不同的分区。在使用分区剪枝技术时,需要使用符合分区条件的查询语句,并将分区键作为查询条件进行查询。例如,假设有一个订单表orders,根据订单日期分为12...

BITMAP精准去重

filter_column 用来过滤的维度,即计算的Key。input_string 计算表达式字符串,用来依据Key进行Bitmap交并差集表达式计算。表达式支持的计算符:&代表交集计算,代表并集计算,-代表差集计算,^代表异或计算,\ 代表转义字符。示例 ...

PIVOT、UNPIVOT

MaxCompute支持PIVOT和UNPIVOT关键字,通过PIVOT关键字可以基于聚合将一个或者多个指定值的行转换为;通过UNPIVOT关键字可以将一个或者多个转换为行。本文为您介绍PIVOT和UNPIVOT关键字的使用和示例。PIVOT关键字 PIVOT关键字对于指定...

PIVOT、UNPIVOT

MaxCompute支持PIVOT和UNPIVOT关键字,通过PIVOT关键字可以基于聚合将一个或者多个指定值的行转换为;通过UNPIVOT关键字可以将一个或者多个转换为行。本文为您介绍PIVOT和UNPIVOT关键字的使用和示例。PIVOT关键字(灰度中)PIVOT关键字...

CREATE INDEX

Lindorm提供了 三种 高效易用的索引:二级索引、搜索索引和存索引,分别适用于非主键匹配场景、多维查询场景 和存储数据查询场景。在使用CREATE INDEX语法创建索引时,您可以指定索引类型并添加索引属性。引擎与版本 CREATE INDEX语法...

CREATE FOREIGN TABLE

关键字STORED是必须的,用来表明该将在写入时计算(计算出的值将会传递给外部数据封装器负责保存,并在读取时返回)。生成表达式可以引用表中的其他,但不能引用其他的生成。所使用的函数和操作符必须是不可变的,不能引用其他表。...

CREATE FOREIGN TABLE

关键字STORED是必须的,用来表明该将在写入时计算(计算出的值将会传递给外部数据封装器负责保存,并在读取时返回)。生成表达式可以引用表中的其他,但不能引用其他的生成。所使用的函数和操作符必须是不可变的,不能引用其他表。...

数据探索函数

用来排序的数值的序号。valueColIdx:必选。bigint类型。被排序的数值的序号。sortCol:必选。double类型。用来排序的。valueCol:必选。double类型。被排序的。OtherCol:可选。任意类型。其他需要被排序的。输出参数 sortCol:...

x13_arima

页签 参数 描述 字段设置 时序列 必选,仅用来对数值排序,具体数值与计算无关。数值 必选。分组 可选,多以半角逗号(,)分隔,例如 col0,col1,每个分组会构建一个时间序列。参数设置 格式 支持输入的格式为 p,d,q。p、d和q均为...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云数据库Cassandra版 云工作流 云数据库 ClickHouse Serverless 应用引擎 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用