潜在语义索引工作原理-潜在语义索引工作原理文档介绍内容-阿里云

使用跨机并行查询加速索引创建

本文介绍工作原理以及如何使用该功能加速索引构建。原理介绍 PolarDB PostgreSQL版（兼容Oracle）在执行索引构建时，会首先扫描待构建索引的基表构造出索引项，然后再进一步的根据索引项完成整棵索引树的构建过程。当使用跨机并行查询功能...

使用跨机并行查询加速索引创建

本文介绍工作原理以及如何使用该功能加速索引构建。原理介绍 PolarDB PostgreSQL版（兼容Oracle）在执行索引构建时，会首先扫描待构建索引的基表构造出索引项，然后再进一步的根据索引项完成整棵索引树的构建过程。当使用跨机并行查询功能...

列存索引（IMCI）

列存索引（IMCI）概述免费体验PolarDB MySQL列存索引（IMCI）使用说明添加只读列存节点列存索引语法说明 HTAP行列分流方案进阶使用列存索引列存索引配置参数说明列存索引技术白皮书列存索引原理剖析列存索引常见问题

部分索引

构建这些知识需要经验和对于本数据库中索引工作方式的理解。在大部分情况下，一个部分索引相对于一个普通索引的优势很小。在某些情况下，它们会完全相反。不要使用部分索引代替分区。你可能想尝试创建一组巨大的、不重叠的部分索引，例如：...

设置优化器的Join Reorder

本文介绍列存索引查询优化功能的工作原理、使用方法以及使用限制等内容。工作原理 SQL是声明式查询语言，不会具体的描述SQL语句的查询计划，获取一条SQL语句的正确结果时，可能存在若干个可行的查询计划。示例如下：SELECT*FROM t0,t1,t2,t...

排查MongoDB CPU使用率高的问题

db.createIndex({x:1,y:1})/效果不好，因为x相同取值太多 db.createIndex({y:1 })/效果好，因为y相同取值很少 db.createIndex({y:1,x:1 })/效果好，因为y相同取值很少说明关于{y:1}与{y:1,x:1}的区别，请参见 MongoDB索引原理及复合...

常见问题索引

移动数据分析常见问题索引统计原理常见问题 Q1:如何识别一个用户？Q2:用户在一台设备上反复卸载并重新安装启动应用，新增用户算几个？Q3:同一个用户由老渠道升级到新渠道，是否会被算到新渠道中？Q4:什么是活跃用户？哪里可以看到下载和...

MongoDB实例的CPU使用率高问题

索引优化是减少MongoDB单个查询扫描⾏数的最优⽅案，从底层设计上，MongoDB的索引设计原理⼏乎与MySQL保持⼀致（或许种类和功能更丰富⼀些），所以适⽤于MySQL的索引优化策略基本也都适⽤于 MongoDB实例。导致查询扫描行数过多的场景有以下...

语义挖掘工具

语义挖掘工具是通过对批量对话信息进行挖掘，聚类出这些对话中的意图，并将对话中的话术归入系统意图中。新建任务点击语义挖掘工具右上角的新建任务即可唤出新建语义挖掘任务的弹窗，输入任务名称并选择数据源并按照数据源类型操作完成后...

使用向量检索插件（aliyun-knn）

原理阿里云Elasticsearch向量检索功能基于Elasticsearch插件扩展机制实现，能够完全兼容原生Elasticsearch版本，您无需额外的学习成本即可使用向量检索引擎。向量索引除了支持实时增量写入、近实时（Near Real Time，简称NRT）搜索查询，...

CREATE INDEX（DRDS模式）

全局二级索引关于全局二级索引基本原理，请参见全局二级索引。语法 CREATE[UNIQUE]GLOBAL INDEX index_name[index_type]ON tbl_name(index_sharding_col_name,.)global_secondary_index_option[index_option][algorithm_option|lock_...

索引优化

使用索引也会给数据库带来一些额外的开销，比如需要更多的存储，以及数据的写放大，还有包括在进行数据update时的索引维护工作的开销。因此我们需要确保我们为表增加的索引相对于全表扫描，能够切实、有效地提高了查询效率，否则宁愿不建...

pg_index

indnkeyatts int2 索引中键列的编号，不计入任何的内含列，它们只是被存储但不参与索引的语义。indisunique bool 如为真,这是唯一索引。indisprimary bool 如为真，表示索引为表的主键（如果此列为真，indisunique 也总是为真）。...

阿里云Elasticsearch实例FAQ

新建索引时会偶现索引UUID冲突报错（index uuid conflicted），索引文档写不进去，怎么办？如何修改index.max_result_window（分页查询时查询的最大文档数量）？ES更新数据时报错：Rejecting mapping update to[]as the final mapping ...

使用说明

其他如果您对列存索引背后的原理感兴趣，您可以参考以下文档来进一步了解列存索引：PolarDB IMCI发表在 SIGMOD2023上的论文列存索引技术白皮书列存索引技术架构介绍列存索引中TopK算子的实现列存索引中HashMatch算子的实现列存索引中...

PGVector

原理介绍 PGVector的索引算法是IVFFLAT（同pase插件的向量算法）。IVFFLAT是一种基于倒排索引的近似最近邻搜索算法，可以用于高效地查询向量之间的相似度。它将向量空间分为若干个划分区域，每个区域都包含一些向量，并创建倒排索引，用于...

PGVector

原理介绍 PGVector的索引算法是IVFFLAT（同pase插件的向量算法）。IVFFLAT是一种基于倒排索引的近似最近邻搜索算法，可以用于高效地查询向量之间的相似度。它将向量空间分为若干个划分区域，每个区域都包含一些向量，并创建倒排索引，用于...

PGVector

原理介绍 PGVector的索引算法是IVFFLAT（同pase插件的向量算法）。IVFFLAT是一种基于倒排索引的近似最近邻搜索算法，可以用于高效地查询向量之间的相似度。它将向量空间分为若干个划分区域，每个区域都包含一些向量，并创建倒排索引，用于...

高维向量相似度搜索（pgvector）

索引构建支持HNSW索引、并行索引IVFFlat、向量的逐元素乘法、L1距离函数以及求和聚合。最大支持创建16000维度的向量，最大支持对2000维度的向量建立索引。相关概念及实现原理嵌入嵌入（embedding）是指将高维数据映射为低维表示的过程。...

语义检索

IMM语义检索是采用向量检索方式，根据特定内容语义对多媒体数据进行搜索的过程，本文介绍如何使用语义检索。功能简介传统的标量检索是根据文件携带的元数据信息进行检索，例如文件名称、文件创建时间、文件格式等。与标量检索不同的是，...

调优集群性能

INSERT OVERWRITE 批量写入（Batch load）的过程中需要进行数据解析、按照聚集索引字段（如果有聚集键）进行排序（Sort）、构建主键索引和普通索引等操作，上述操作都属于CPU密集型操作（每个Shard需要一个线程进行上述工作）。目前虽然有...

使用限制

2个 LITERAL字段个数（不支持创建为组合索引）256个 TEXT、SHORT_TEXT类型字段个数 32个 64个数值分析索引个数 4个 8个组合索引个数 4个 8个单个组合索引包含字段数 8个 INT类型构建数值分析索引个数 4个 8个 GEO_POINT类型构建数值分析...

概述

支持从日志服务（Log Service）流式地索引数据（类似于Kafka），并提供高可靠保证和exactly-once语义。支持将元数据存储到RDS。集成了Superset工具。方便地扩容和缩容（缩容针对Task节点）。丰富的监控指标和告警规则。故障迁移。具有高...

通过ES-Hadoop实现Hive读写阿里云Elasticsearch数据

操作流程准备工作创建同一专有网络下的阿里云Elasticsearch和E-MapReduce（以下简称EMR）实例、关闭Elasticsearch实例的自动创建索引功能并创建索引和Mapping、下载与Elasticsearch实例版本一致的ES-Hadoop安装包。步骤一：上传ES-Hadoop...

pg_opclass

每一个操作符类定义了一种特定数据类型和一种特定索引访问方法的索引列的语义。一个操作符类实际上指定了一个特定的操作符族可以用于一个特定可索引列数据类型。该族中可用于索引列的操作符能够接受该列的数据类型作为它们的左输入。列名称...

列存索引（IMCI）发布说明

技术原理列存索引特性在 PolarDB MySQL版中的功能架构图如下：从以上架构图可以看到，PolarDB MySQL版从存储引擎、执行算子、优化器三个层面设计了列存索引的特性：存储引擎：支持实时事务级别一致性的行列混合存储；执行算子：面向列存...

产品简介

优势2：灵活的智能搜索引擎支持用户灵活配置索引以及多种召回排序算法，将语义、知识融入搜索过程中，提供高效、高准确率的搜索能力。优势3：可信的答案回复内置搜索版通义千问大模型，事实性、可靠性大幅提升。结合用户本地知识库降低...

如何将一棵LSM-Tree塞进NVM

由于索引是易失的，键并不显式存储在索引中，且索引在重启时通过扫描PM中的键值对重建。批量顺序写入以降低写放大。在PM中，小的随机写会被硬件控制器转换成随机的256字节的大块写，导致写放大问题，进而消耗PM硬件的带宽资源。鉴于内存表...

概述

技术原理列存索引特性在 PolarDB MySQL版中的功能架构图如下：从以上架构图可以看到，PolarDB MySQL版从存储引擎、执行算子、优化器三个层面设计了列存索引的特性：存储引擎：支持实时事务级别一致性的行列混合存储；执行算子：面向列存...

HTAP中的行列混存查询优化

本文介绍了查询优化的作用及基本原理，以及列存索引优化器Join Reorder的实现原理。查询优化的作用及基本原理在数据库处理查询语句的过程中，优化器接收用户输入的查询语句并进行一系列的等价变换后，通过查询中的基数与代价估计，从等价...

功能概述

实现原理分析型数据库MySQL版的向量分析旨在帮助您实现非结构化数据的近似检索和分析，其实现原理是通过AI算法提取非结构化数据的特征，然后利用特征向量唯一标识非结构化数据，向量间的距离用于衡量非结构化数据之间的相似度。...

pg_depend

DEPENDENCY_AUTO_EXTENSION(x)依赖对象不是作为被引用对象的扩展的成员（因此不应该被pg_dump忽略），但是没有该扩展它又无法工作，因此如果删除了扩展，则该依赖对象应自动删除。该依赖对象也可以独立删除。功能上，该依赖关系类型与 AUTO...

列存索引行列融合基础组件介绍

本文介绍了列存索引行列融合基础组件（优化器代价模型、执行器多引擎访问、存储引擎日志回放和事务处理）以及处理长尾请求问题的HybridIndexSearch算子的相关内容。背景信息事务处理（OLTP）和分析处理（OLAP）混合工作负载在当前的业务...

概述

功能说明向量数据库实现向量分析的原理是通过AI算法提取非结构化数据的特征，然后利用特征向量作为非结构化数据的唯一标识，向量间的距离用于衡量非结构化数据之间的相似度。AnalyticDB PostgreSQL版向量检索分析基于MPP查询架构构建，...

深度解析Lindorm搜索索引（SearchIndex）特性

索引是加速数据库查询的重要手段，Lindorm除了提供高性能的二级索引外，同时支持搜索索引(SearchIndex)，主要面向复杂的多维查询场景，并能够覆盖模糊查询、聚合分析、排序、分页等场景。本文主要介绍SearchIndex的技术原理和核心能力。...

索引顾问

索引顾问（Index Advisor）可以帮助您确定应该对哪些列编制索引，以提高指定工作负载中的性能。索引顾问仅识别二叉树类型索引（单列或复合），不识别可提高性能的其他索引类型，例如GIN、GiST、Hash等。索引顾问简介索引顾问会尝试对...

工作流模板与算子

注意事项在通过绑定OSS Bucket或调用 IndexFileMeta-索引文件元信息、BatchIndexFileMeta-批量索引文件元信息接口建立元数据索引时，根据数据集和项目配置的工作流模板来决定要执行的算子操作。在数据集中建立元数据索引时，数据集的模板...

设置透明数据加密

说明加密原理请参见 TDE加密解密原理。（可选）更换密钥。在 TDE 页签单击 TDE状态右侧的更换密钥。选择使用由阿里云自动生成的密钥或使用已有自定义密钥，选择密钥，单击确定。使用TDE对表或索引进行加密或解密实例级别开启了TDE...

搜索增强

服务创建单击快速创建，选择搜索增强，进入服务创建界面，编辑服务名称并选择服务所使用的引擎及数据源，完成创建后进入索引配置界面。引擎提供检索服务的基础组建，可在资源中心进行引擎管理也可在快速创建页面直接选择或添加。更多信息...

技术原理

扩展性原理扩展性本质在于分而治之，PolarDB-X 1.0 计算资源通过水平拆分（分库分表）和垂直拆分，将数据分散到多个存储资源MySQL以实现获取数据读写并发和存储容量分散的效果。水平拆分（分库分表）PolarDB-X 1.0 具备数据水平拆分的能力...

潜在语义索引工作原理

新品推荐