大数据检索有哪些技术-大数据检索有哪些技术文档介绍内容-阿里云

实验介绍

数据采集数据加工配置数据质量监控数据可视化展现目标人群开发工程师、数据分析师、产品运营等存在数仓数据获取与数据分析洞察人员。涉及产品本案例涉及以下产品：一站式大数据开发治理DataWorks 本案例通过DataWorks实现数据采集，...

数据集成支持的数据源

离线集成支持的数据源数据源读取写入 大数据存储型数据源 MaxCompute 支持支持 Hive 支持支持 Hologres 支持支持 IMPALA 支持支持 TDH Inceptor 支持支持 Kudu 支持支持 StarRocks 支持支持 Hudi 支持支持 Doris 支持支持 ...

创建GreenPlum数据源

通过创建GreenPlum数据源能够实现Dataphin读取GreenPlum的业务数据或向GreenPlum写入数据。本文为您介绍如何创建GreenPlum数据源。背景信息 Greenplum是一款大数据分析引擎，作用于分析、机器学习和AI等领域。其架构主要针对管理大规模分析...

创建GreenPlum数据源

通过创建GreenPlum数据源能够实现Dataphin读取GreenPlum的业务数据或向GreenPlum写入数据。本文为您介绍如何创建GreenPlum数据源。背景信息 Greenplum是一款大数据分析引擎，作用于分析、机器学习和AI等领域。其架构主要针对管理大规模分析...

创建MaxCompute数据源

背景信息 MaxCompute即阿里云大数据计算服务，适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化...

快速体验

数据采集数据加工配置数据质量监控数据可视化展现目标人群开发工程师、数据分析师、产品运营等存在数仓数据获取与数据分析洞察人员。涉及产品本案例涉及以下产品：一站式大数据开发治理DataWorks 本案例通过DataWorks实现数据采集、...

创建MaxCompute数据源

背景信息 MaxCompute即阿里云大数据计算服务，适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化...

用户价值

数据资源平台为用户提供了一站式数据资产定义、生产、管理与服务平台，提供企业级数据资产构建能力和一致性使用体验，助力客户快速构建数据智能平台，实现数据资源统一管理，挖掘潜在规律，优化业务决策，让大数据真正的驱动客户业务。...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。权限说明仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据...

Delta Lake概述

Delta Lake以数据为中心，围绕数据流走向（数据从流入数据湖、数据组织管理和数据查询到流出数据湖）推出了一系列功能特性，协助您搭配第三方上下游工具，搭建快捷、易用和安全的数据湖。背景信息通常的数据湖方案是选取大数据存储引擎...

JindoFS实战演示

使用Checksum迁移HDFS数据到OSS 使用Checksum迁移HDFS数据到OSS 2021-05-11 通过Checksum算法，你可以在大数据迁移场景中校验数据的完整性、对比数据差异并实现增量迁移。本视频为您介绍如何使用Jindo Distcp迁移HDFS数据到OSS，以及在迁移...

数据迁移

本文为您介绍数据迁移的最佳实践，包含将其他业务平台的业务数据或日志数据迁移至MaxCompute，或将...MaxCompute处理业务数据和日志数据后，可以通过Quick BI快速地以可视化方式展现数据处理结果，详情请参见基于MaxCompute的大数据BI分析。

方案背景

数据检索：根据多个车辆参数查找车辆的轨迹数据，例如查询某台车辆的最近行驶状态（车辆当前的位置、车辆剩余电量等），需要支持时间线检索。数据分析：对车辆历史数据进行聚合分析，例如分析全市所有车辆一年内的平均排放值、分析某厂商...

高维向量检索（PASE）

数据被嵌入至高维度向量，然后通过向量检索技术来查找相关的项目。PASE（PostgreSQL ANN search extension）是一款为PostgreSQL数据库研发的高性能向量检索索引插件，使用业界中成熟稳定且高效的ANN（Approximate nearest neighbor）检索...

高维向量检索（PASE）

数据被嵌入至高维度向量，然后通过向量检索技术来查找相关的项目。PASE（PostgreSQL ANN search extension）是一款为PostgreSQL数据库研发的高性能向量检索索引插件，使用业界中成熟稳定且高效的ANN（Approximate nearest neighbor）检索...

什么是MaxCompute

MaxCompute是适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，使您可以经济并高效...

新建TDengine数据源

在新建数据源对话框的 大数据存储区域，选择 TDengine。如果您最近使用过TDengine，也可以在最近使用区域选择TDengine。同时，您也可以在搜索框中，输入TDengine的关键词，快速搜索。在新建TDengine数据源对话框中，配置数据源的...

高效向量检索（PASE）

数据被嵌入至高维度向量，然后通过向量检索技术来查找相关的项目。PASE（PostgreSQL ANN search extension）是一款为PostgreSQL数据库研发的高性能向量检索索引插件，使用业界中成熟稳定且高效的ANN（Approximate nearest neighbor）检索...

新建Doris数据源

数据源配置基于业务数据源是否区分生产数据源和开发数据源：如果业务数据源区分生产数据源和开发数据源，则选择生产+开发数据源。如果业务数据源不区分生产数据源和开发数据源，则选择生产数据源。标签您可根据标签给数据源进行分类...

外部表概述

但这两种方法都有不足之处：第一种方法需要在MaxCompute系统外部做一次中转，如果OSS数据量太大，还需要考虑如何并发来加速，无法充分利用MaxCompute的大规模计算能力。第二种方法通常需要申请UDF网络访问权限，还需要开发者自己控制作业...

新建Doris数据源

数据源配置基于业务数据源是否区分生产数据源和开发数据源：如果业务数据源区分生产数据源和开发数据源，则选择生产+开发数据源。如果业务数据源不区分生产数据源和开发数据源，则选择生产数据源。标签您可根据标签给数据源进行分类...

数据分析概述

功能概述 SQL查询 SQL查询是使用标准的SQL语句，来查询和分析存储在MaxCompute中的大数据，详情请参见 SQL查询。您可以通过编写SQL语句，对有查询权限的数据源进行快速的数据查询与分析操作，详情请参见功能概览。DataWorks SQL查询提供了...

创建Hologres数据源

在新建数据源对话框的 大数据存储区域，选择 Hologres。如果您最近使用过Hologres，也可以在最近使用区域选择Hologres。同时，您也可以在搜索框中，输入Hologres的关键词，快速筛选。在新建Hologres数据源对话框中，配置连接数据源...

概述

AnalyticDB PostgreSQL版向量分析可以通过AI算法提取非结构化数据的特征，并利用特征向量作为非结构化数据的唯一标识，帮您快速且低成本地实现对非结构化数据检索和对结构化数据关联分析。向量数据库简介在现实世界中，绝大多数的数据都...

数据集成

数据源支持情况数据集成目前支持40种以上的数据源类型（包括关系型数据库、非结构化存储、大数据存储、消息队列等），通过定义来源与去向数据源，并使用数据集成提供的数据抽取插件（Reader）、数据写入插件（Writer），实现任意结构化、...

数据重排

在MaxCompute的使用过程中，如果已经积累了大量数据占用了大量存储资源，且已经通过削减数据存储生命周期和删除非必要数据等方式进行了治理，在您的存储预算有限，计算资源还有冗余的情况下，可以考虑使用数据重排方式对存储空间进行优化。...

数据上传

DataWorks的数据上传功能，支持将多种来源（例如，本地文件、OSS文件）的数据上传至MaxCompute大数据引擎进行分析处理及相关管理操作，致力于为您提供高效、便捷的数据传输服务，助力您快速实现数据驱动业务。使用限制目前仅支持基于本地...

使用MaxCompute控制台（离线）

查看上传记录提交上传后，若数据量较大，需要耗费一些时间，您无需在提交页面一直等待，可后续通过单击数据上传页面右上角的查看上传记录查看通过该功能上传数据的详情记录。说明通过该页面的查看上传记录查询到的记录详情也包含...

函数操作

功能是否支持函数操作是 MAX_PT 是支持使用Dataphin项目名称进行检索数据。例如，Dataphin的项目英文名称为biz_cdm，该项目下有分区表biz_order、分区键为ds。则您可以执行以下语句查询数据。select*from biz_cdm.biz_order where ds=...

东软案例

在运维过程中，用户通过实时监控仪表盘、统计分析报表或风险定位、检测工具对接Lindorm多模引擎海量数据检索、分析能力，来满足不同应用场景的运维大数据信息提取需要。图 3.东软新型IT智能运维系统部署方案适用场景实时状态大屏展现。...

函数操作

功能是否支持函数操作是 MAX_PT 是支持使用Dataphin项目名称进行检索数据。例如，Dataphin的项目英文名称为biz_cdm，该项目下有分区表biz_order、分区键为ds。则您可以执行以下语句查询数据。select*from biz_cdm.biz_order where ds=...

数据质量概述

数据质量帮助您第一时间感知源端数据的变更与ETL（Extract Transformation Load）中产生的脏数据，自动拦截问题任务，有效阻断脏数据向下游蔓延。避免任务产出不符合预期的问题数据，影响正常使用和业务决策。同时也能显著降低问题处理的...

DataWorks On MaxCompute使用说明

DataWorks基于云原生大数据计算服务MaxCompute 轻松构建离线数仓分析系统。MaxCompute可通过DataWorks提供的可视化方式配置任务工作流、周期性调度执行任务及元数据管理，保障数据生产及管理的高效稳定。本文为您介绍在DataWorks上开发...

产品概述

高效的数据检索：基于元数据及业务数据构建数据图谱，实现快速、智能检索数据表及数据。可视化的数据资产：系统化构建业务数据资产大图，从数据视角还原业务系统、提取业务数据，快速感知业务关键环节及数据。数据使用简单可依赖：通过主题...

基本概念

Elasticsearch与关系型数据库的映射关系如下表所示：Elasticsearch 关系型数据库索引（index）数据库（Database）文档类型（type）表（Table）文档（document）一行数据（Row）字段（field）一列数据（Column）映射（mapping）数据库的...

DataWorks On Hologres使用说明

数据地图概述安全中心数据保护伞审批中心安全中心是集数据资产分级分类、敏感数据识别、数据授权管理、敏感数据脱敏、敏感数据访问审计、风险识别与响应于一体的一站式数据安全治理界面，帮助用户落地数据安全治理事项。安全中心概述 ...

支持的云服务

数据集成 MaxCompute可以通过数据集成功能加载不同数据源（例如MySQL数据库）的数据，也可以通过数据集成把MaxCompute的数据导出到各种业务数据库。数据集成功能已集成在DataWorks上，您可以直接在DataWorks上配置MaxCompute数据源并读写...

语义检索

多媒体社交场景在多媒体社交场景中，您可以利用IMM语义检索能力，为您的用户提供特定内容和多媒体数据检索功能。例如，在某款社交应用程序中，用户上传了大量图片数据。通过语义检索，用户可以直接根据内容进行图片搜索，比如直接搜索内容...

基于向量检索版+LLM构建对话式搜索

大数据检索，较之行业算法版，高性能检索版取消了繁重的行业算法能力，在支持搜索通用能力（分析器、排序）的基础上，重点关注业务查询和写入的吞吐，为开发者提供了大数据集检索场景下，秒级响应、实时查询的能力。产品特性高吞吐，单表...

基于向量检索版+LLM构建对话式搜索

大数据检索，较之行业算法版，高性能检索版取消了繁重的行业算法能力，在支持搜索通用能力（分析器、排序）的基础上，重点关注业务查询和写入的吞吐，为开发者提供了大数据集检索场景下，秒级响应、实时查询的能力。产品特性高吞吐，单表...

大数据检索有哪些技术

新品推荐