个人大数据搜索引擎-个人大数据搜索引擎文档介绍内容-阿里云

DataWorks V3.0

MaxCompute：大数据计算服务MaxCompute（原ODPS）是一种快速、完全托管的EB级大数据计算引擎，是大规模离线数据仓库的核心引擎。MaxCompute是DataWorks最早支持，且最成熟完备的计算引擎，目前已基本覆盖MaxCompute的所有功能。详情请参见 ...

数据存储目录结构说明

本章介绍文件引擎...目录说明/${实例ID}-global/${实例ID}_xxx 宽表引擎数据存储目录/solr 搜索引擎数据存储目录/tsdb 时序引擎数据存储目录说明${实例ID}：lindorm实例ID。xxx：实例所在的区域，如cn-shanghai则表示为上海的实例。

数据模型概述

DDM目前支持逻辑模型和物理模型建模，其中物理模型又分为关系型数据模型和非关系型数据模型，支持的大数据引擎为MaxCompute、Hive。说明 Hadoop的MR调优参数属于底层，DDM是数据建模工具，支持设置表、字段等物理属性。

数据标准

数据是由特定的环境产生的，这些环境因素包括生产者、时间、系统等，从而造成了同一个语义的数据，有...说明目前使用DDM进行数据建模可以进行逻辑建模和物理建模，但物理建模仅支持MaxCompute和Hive两种大数据引擎，不支持自定义数据源类型。

简介

HBase Ganos是什么 HBase Ganos是阿里云推出的一款包含管理空间几何数据、时空轨迹、专题栅格、遥感影像的时空大数据引擎系统。系统兼容开源GeoMesa、GeoServer等生态，内置了高效的时空索引算法、空间拓扑几何算法、遥感影像处理算法等，...

基于Delta lake的一站式数据湖构建与分析实战

数据湖计算与分析相比于数据仓库，数据湖以更开放的方式对接多种不同的计算引擎，如传统开源大数据计算引擎Hive、Spark、Presto、Flink等，同时也支持云厂商自研的大数据引擎，如阿里云MaxCompute、Hologres等。在数据湖存储与计算引擎...

账单数据订阅及查询分析

DataWorks及MaxCompute：DataWorks基于MaxCompute等大数据引擎，支持您在线进行SQL分析、业务洞察、编辑和分享数据，以及将查询结果保存为可视化图表卡片，快速搭建可视化数据报告。订阅账单数据后，用户中心会将相关账单数据同步至指定...

JindoFS介绍和使用

JindoFS是基于阿里云对象存储OSS，为开源大数据生态构建的Hadoop兼容文件系统（Hadoop Compatible File System，HCFS）。JindoFS提供兼容对象存储的纯客户端模式（SDK）和缓存模式（Cache），以支持与优化Hadoop和Spark生态大数据计算对OSS...

DataWorks模块使用说明

使用流程概览：参考文档：DataWorks数据建模子模块：数据开发（DataStudio）功能说明：数据开发（DataStudio）是一站式大数据开发平台，支持在线开发MaxCompute、EMR、Hologres、CDP、ADB等多种大数据引擎的数据处理任务。它集成了强大的...

代码模式建模

DataWorks数据建模的设计与实现解耦，在设计过程中，您无需考虑各个大数据引擎的实现方式，建模引擎会根据FML语言定义的Schema去驱动底层各个数据引擎的执行和操作，仅在实际物化（即把设计的逻辑表转换为底层引擎的物理表）阶段，建模引擎...

逆向建模：物理表反向建模

建模流程逆向建模主要用于将大数据引擎中已经存在的物理表反向建模至DataWorks的维度建模中，其建模流程如下：配置逆向建模策略。建模范围：创建模型前，您需要根据业务需求确定需要将哪些表逆向生成模型。该过程需确定表所在的工作空间、...

Spark概述

Spark是一个通用的大数据分析引擎，具有高性能、易用性和普遍性等特点。架构 Spark架构如下图所示，基于Spark Core构建了Spark SQL、Spark Streaming、MLlib和Graphx四个主要编程库，分别用于离线ETL（Extract-Transform-Load）、在线数据...

预排序

因此，使用预排序功能够大幅度提升数据检索性能，优化搜索引擎的服务能力。本章节介绍使用预排序功能的操作步骤。操作步骤修改solrconfig.xml中的MergePolicy，具体请参见 Customizing Merge Policies。查询时，指定参数...

Delta Lake概述

背景信息通常的数据湖方案是选取大数据存储引擎构建数据湖（例如，阿里云对象存储OSS产品或云下HDFS），然后将产生的各种类型数据存储在该存储引擎中。在使用数据时，通过Spark或Presto对接数据分析引擎并进行数据解析。但该套方案存在...

东软案例

多模型数据融合分析困难，面向海量数据采集终端同时写入数据的并发能力弱，数据量大且价值密度低导致存储成本高，基于开源软件自建数据存储集群稳定性低运维成本高等问题，东软急需新型运维大数据存储引擎支撑，来对运维系统存储引擎升级...

数据湖元数据管理

横向使用多种大数据计算引擎，例如Databricks 数据洞察、MaxCompute、EMR等，元数据可以集中管理。多个Databricks 数据洞察集群，可以统一管理元数据。创建集群创建Databricks 数据洞察集群时，如图元数据选择为数据湖元数据方式，...

表引擎

Approximate Nearest Neighbor Search Indexes 用于近似最近邻搜索的索引引擎，在大规模数据集中高效地查找最接近给定查询点的数据点。Full-text Search using Inverted Indexes 使用倒排索引进行全文搜索，用于在大规模文本数据中进行全文...

创建集群

Spark：是通用的分布式大数据处理引擎，提供了ETL、离线批处理和数据建模等能力。重要创建Spark集群后，如果您需要关联集群，则所选产品版本的大版本号需要和关联的Shuffle Service集群大版本号一致。例如，EMR-5.x-ack版本的Spark集群...

增量导入

本章节介绍搜索引擎如何进行增量导入。请参见 RDS增量导入，将增量数据导入到宽表引擎中。导入宽表引擎后，后台会通过BDS服务自动将宽表引擎的增量数据同步到搜索引擎中。注意同步到搜索引擎的数据仅限于已经配置好的schema映射。

增量导入

本章节介绍搜索引擎如何进行增量导入。请参见 RDS增量导入，将增量数据导入到宽表引擎中。导入宽表引擎后，后台会通过BDS服务自动将宽表引擎的增量数据同步到搜索引擎中。重要同步到搜索引擎的数据仅限于已经配置好的schema映射。

设置冷热分离

本文介绍各数据引擎设置冷热分离的方法。引擎类型设置方法宽表引擎按自定义时间列冷热分离按时间戳冷热分离时序引擎冷数据归档 搜索引擎 配置冷存储

全量导入

本章节介绍搜索引擎如何进行全量导入。请参见 RDS全量导入将全量数据导入到宽表引擎中。将数据导入到宽表引擎后，请参见通过构建索引完成全量数据同步，将全量数据导入到搜索引擎中。

全量导入

本章节介绍搜索引擎如何进行全量导入。请参见 RDS全量导入将全量数据导入到宽表引擎中。将数据导入到宽表引擎后，请参见构建全量数据索引，将全量数据导入到搜索引擎中。

专题广场

个人数据中心：可查看并管理负责人是自己的资产，详情请参见 个人数据中心。③配置中心可创建专题分组及配置数据探查。专题分组管理：帮助您对专题分组进行统一管理，提高专题的管理效率，详情请参见新建及管理专题分组。数据探查配置：...

专题广场

个人数据中心：可查看并管理负责人是自己的资产，详情请参见 个人数据中心。③配置中心可创建专题分组及配置数据探查。专题分组管理：帮助您对专题分组进行统一管理，提高专题的管理效率，详情请参见新建及管理专题分组。数据探查配置：...

TSDB全量迁移至时序引擎

本文介绍时间序列数据库（Time Series Database，简称TSDB）全量迁移至云原生多模数据库 Lindorm 时序引擎的方法。前提条件已安装Linux或者macOS操作系统，并且安装以下环境。已安装Java环境，版本为JDK 1.8及以上。已安装Python环境，...

开通指南（Elasticsearch兼容版本）

本文介绍如何开通云原生多模数据库 Lindorm 搜索引擎Elasticsearch兼容版本以及如何查看连接地址。前提条件云原生多模数据库 Lindorm 搜索引擎Elasticsearch兼容版本目前处于公测阶段，如需使用，请您提交工单进行申请，工单中需提供...

搜索索引介绍

数据同步服务LTS实时监听宽表WAL，筛选出宽表WAL中带有SearchIndex的表，并将筛选的数据写入至搜索引擎。搜索引擎收到数据后实时构建倒排索引。数据查询的流程如下：查询操作发送至Lindorm宽表引擎，计算层自动进行查询编译，基于优化器...

Java API访问

云数据库HBase增强版全文索引服务支持多语言访问，并且完全...使用Solr Java API访问云数据库HBase增强版全文索引服务的操作和使用Solr Java API访问云原生多模数据库Lindorm搜索引擎的操作相同，具体请参见通过开源Solr API访问搜索引擎。

通过Reindex API迁移自建Elasticsearch数据

如果您需要迁移数据，且源索引的数据不需要进行复杂的转换和处理，您可以按照本文提供的步骤，使用Reindex API将数据从自建Elasticsearch集群迁移至Lindorm搜索引擎。前提条件自建Elasticsearch（简称ES）集群为7.0.0~7.10.1版本。已开通...

常见问题

分词查询：数据查询时，搜索引擎会先对原始字符串进行分词，再对分词字段执行关键词匹配操作，例如在通用搜索引擎产品中进行关键词检索。这种查询方式通常无法保证每次检索都一定能匹配到数据，即使原始写入的数据中包含检索内容，但这些...

概述

本文介绍云原生多模数据库 Lindorm 搜索引擎（Elasticsearch兼容版本）支持的Java客户端以及Client兼容性说明。客户端简介 Lindorm搜索引擎支持使用以下两种Java客户端访问：Java High Level REST Client（推荐）：Elasticsearch官方于...

配置冷存储

云原生多模数据库 Lindorm 搜索引擎支持配置表级别的冷存储功能，可以将表数据存储至冷存储介质中，从而降低存储成本。本文介绍搜索引擎配置冷存储的具体操作。前提条件已下载并安装Search Shell，具体操作请参见通过Search Shell连接并...

支持的云服务

开放搜索OpenSearch 开放搜索OpenSearch是一款阿里云自主研发的大规模分布式搜索引擎平台。您通过MaxCompute对数据进行计算处理后，可以在OpenSearch平台上通过添加数据源的方式将MaxCompute数据接入，详情请参见 MaxCompute数据源配置。更...

如何选择文件引擎规格

Lindorm文件引擎（LindormDFS）是面向海量非结构化数据的分布式文件存储服务，与多模引擎共享存储底座，提供数据库级的安全可靠性。LindormDFS与开源HDFS保持100%通信协议兼容，使用开源客户端可直接访问，无缝接入所有开源大数据生态与云...

创建实例

选择商品类型云原生多模数据库 Lindorm针对不同的使用场景，提供了Lindorm、Lindorm轻量版、Lindorm通道服务（LTS）、Lindorm AIGC体验版 Lindorm：独立集群的标准化部署方式，提供宽表、时序、搜索、文件、计算和流引擎。可用于大中型...

概述

数据同步，比如更新cache，同步到搜索引擎、数仓、冷存储等。LindormStreams支持实时获取HBase表的数据变更，您可以基于LindormStreams的这个功能构建自己的数据应用。说明该功能只支持云数据库HBase增强版、云原生多模数据库Lindorm。

基于向量检索版+LLM构建对话式搜索

行业算法版与高性能检索版的区别：产品概述:OpenSearch简介 OpenSearch是基于阿里巴巴自主研发的大规模分布式搜索引擎搭建的一站式智能搜索业务开发平台，在大数据场景下实现千亿数据毫秒级响应，提供订单、物流、保单等场景检索方案。...

基于向量检索版+LLM构建对话式搜索

行业算法版与高性能检索版的区别：产品概述:OpenSearch简介 OpenSearch是基于阿里巴巴自主研发的大规模分布式搜索引擎搭建的一站式智能搜索业务开发平台，在大数据场景下实现千亿数据毫秒级响应，提供订单、物流、保单等场景检索方案。...

Java Low Level REST Client

默认用户名和密码的获取方式：在控制台的左侧导航栏，选择数据库连接，单击 搜索引擎 页签，在 搜索引擎 页签可获取。password 使用Java Low Level REST Client对象访问搜索引擎。示例代码分为以下几部分：创建搜索索引：创建搜索索引...

个人大数据搜索引擎

新品推荐