开源大数据搜索引擎-开源大数据搜索引擎文档介绍内容-阿里云

DataWorks V3.0

DataWorks V3.0核心特性支持多种计算引擎 DataWorks V3.0全新升级了多引擎插件化架构，在DataWorks V2.0版本仅支持MaxCompute计算引擎的基础上，新增开源大数据引擎E-MapReduce、交互式分析和图计算服务（Graph Compute）等引擎服务。...

支持倚天云服务器

阿里云E-MapReduce支持使用倚天云服务器构建开源大数据集群。适用客户全网用户新增功能/规格阿里云E-MapReduce（简称EMR）支持使用倚天云服务器构建开源大数据集群。与现有X86架构实例体验完全相同的情况下，具有更高的性价比，帮助用户...

EMR Serverless StarRocks服务等级协议更新

《开源大数据平台E-MapReduce Serverless服务等级协议》已于2024年02月02日修订，并将于2024年03月01日生效。当前服务等级协议详情，请在服务等级协议中查看。变更生效时间 2024年03年01日变更范围 EMR Serverless StarRocks（标准版）...

E-MapReduce Serverless服务等级协议（SLA）

2023年6月1日起，E-MapReduce Serverless服务等级协议（SLA）生效。详情请参见 开源大数据平台E-MapReduce Serverless服务等级协议。

授权信息

本文为您介绍 开源大数据平台 E-MapReduce（EMR）为RAM权限策略定义的操作（Action）、资源（Resource）和条件（Condition）。开源大数据平台 E-MapReduce（EMR）的RAM代码（RamCode）为 emr,emr-apm-server,ecm,emr-serverless-spark,dls...

什么是EMR on ECS

产品优势 EMR为您提供了相对方便可控的企业级开源大数据服务。您可以快速搭建开源大数据服务，例如Hadoop、Spark、Flink、Kafka和HBase服务。100%采用社区开源组件，适配并优化开源组件，性能远高于开源版本。基于时间的弹性伸缩能力，抢占...

EMR Doctor概述

E-MapReduce Doctor（简称EMR Doctor）是E-MapReduce产品自研的面向开源大数据集群的智能运维诊断系统。通过EMR Doctor（即集群管理页面的“健康检查”功能）可以全局了解集群的健康状况和动态走势，为运维决策和资源优化提供有力的信息...

查看账单

在明细账单页签中，设置查询账期，并在列表中筛选产品为 开源大数据平台E-MapReduce，产品明细为 EMR StarRocks Serverless按量或 EMR StarRocks Serverless包年包月。您还可以通过统计项和统计周期选择账单的展示内容。账单详细...

什么是EMR on ACK

您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注大数据任务本身。形态对比阿里云EMR提供on ECS和on ACK两种方式，以...

使用OpenAPI

本文为您介绍使用开源大数据平台E-MapReduce OpenAPI的基本信息。关于使用阿里云OpenAPI的详细介绍，请参见使用OpenAPI。基本信息版本说明版本号说明 2021-03-20 推荐使用。接入点说明根据实例所在的地域，选择对应的服务接入点地址，...

EMR on ACK商业化公告

您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注大数据任务本身。收费标准阿里云EMR on ACK正式商业化后，将根据集群...

OSS/OSS-HDFS概述

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件，面向大数据和AI生态，为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现，主要包括 JindoFS 存储系统（原JindoFS Block模式）...

E-MapReduce支持倚天云服务器

阿里云E-MapReduce（简称EMR）支持使用倚天云服务器构建开源大数据集群。与现有X86架构实例体验完全相同的情况下，具有更高的性价比，帮助您降低成本并提高效率。本文为您介绍倚天云服务器的特性、优势，以及在E-Mapreduce上倚天云服务器的...

功能特性

EMR on ECS 功能集功能功能描述参考文档集群管理创建集群您可以轻松构建和运行Hadoop、Spark、Hive、Presto等开源大数据框架，以进行大规模数据处理和分析等操作。创建集群释放集群在完成EMR集群任务后及时释放集群，可以释放资源...

使用独立的Trino集群

背景信息在使用开源大数据平台E-MapReduce控制台时，您可以在创建DataLake集群、自定义集群或Hadoop集群时选择Trino服务，或者创建独立的Trino集群使用Trino服务。Trino集群具备以下特点：Trino独享集群资源，受其他组件干扰少。支持弹性...

创建EMR Studio集群

数据开发存储 EMR Studio集群的数据都会存在OSS上，即使您的EMR Studio集群销毁了，您可以通过重新创建集群来恢复原有集群的状态（包括您的Notebook以及Airflow调度的作业），并且代码和配置都不会丢失。EMR Studio集群会在您所选OSS路径下...

JindoFS实战演示

Impala如何高效查询OSS数据 Impala如何高效查询OSS数据 2021-06-08 Apache Impala是一个开源的大数据查询分析引擎，能够快速查询分析存储在Hadoop集群的PB级数据。如果您已将HDFS数据迁移至OSS中，可通过在Impala中使用JindoFS SDK，高效...

Paimon概述

目前阿里云开源大数据平台E-MapReduce常见的计算引擎（例如Flink、Spark、Hive或Trino）都与Paimon有着较为完善的集成度。您可以借助Apache Paimon快速地在HDFS或者云端OSS上构建自己的数据湖存储服务，并接入上述计算引擎实现数据湖的分析...

Spark概述

Spark是一个通用的大数据分析引擎，具有高性能、易用性和普遍性等特点。架构 Spark架构如下图所示，基于Spark Core构建了Spark SQL、Spark Streaming、MLlib和Graphx四个主要编程库，分别用于离线ETL（Extract-Transform-Load）、在线数据...

产品优势

特性 Lindorm搜索引擎开源ElasticSearch 开源Solr 核心功能数据模型支持宽表、时序、搜索、文件等多种，并且搜索可以无缝作为其他引擎的索引存储。仅搜索仅搜索访问API 包括Cassandra CQL、Phoenix SQL、Solr API。ES API Solr API ...

为Spark集群设置元数据

横向使用多种大数据计算引擎时，元数据可以集中管理。例如，MaxCompute、Hologres和人工智能平台 PAI 等。多个EMR集群时，可以统一管理元数据。前提条件已在E-MapReduce on ACK控制台创建Spark集群，详情请参见步骤一：创建集群。使用...

创建集群

Spark：是通用的分布式大数据处理引擎，提供了ETL、离线批处理和数据建模等能力。重要创建Spark集群后，如果您需要关联集群，则所选产品版本的大版本号需要和关联的Shuffle Service集群大版本号一致。例如，EMR-5.x-ack版本的Spark集群...

搜索引擎版本说明

为提升用户体验，云原生多模数据库 Lindorm 搜索引擎会不定期地发布版本，用于丰富云产品功能或修复已知缺陷。您可以参阅本文了解Lindorm搜索引擎的版本更新说明，选择在业务低峰期升级实例的搜索引擎版本。如何查看或升级实例的搜索引擎...

Java API访问

云数据库HBase增强版全文索引服务支持多语言访问，并且完全...使用Solr Java API访问云数据库HBase增强版全文索引服务的操作和使用Solr Java API访问云原生多模数据库Lindorm搜索引擎的操作相同，具体请参见通过开源Solr API访问搜索引擎。

低成本历史库

支持一键开启搜索引擎（兼容开源Solr标准接口），具备全文检索、聚合计算、复杂多维查询等能力，帮助加速检索查询，满足用户实时复杂分析需求。大数据生态无缝对接Spark、Hive、Flink、Presto等开源大数据生态产品，支持API访问和文件读取...

低成本RDS历史库

支持一键开启搜索引擎（兼容开源Solr标准接口），具备全文检索、聚合计算、复杂多维查询等能力，帮助加速检索查询，满足用户实时复杂分析需求。大数据生态无缝对接Spark、Hive、Flink、Presto等开源大数据生态产品，支持API访问和文件读取...

应用场景：低成本历史库

支持一键开启搜索引擎（兼容开源Solr标准接口），具备全文检索、聚合计算、复杂多维查询等能力，帮助加速检索查询，满足用户实时复杂分析需求。大数据生态无缝对接Spark、Hive、Flink、Presto等开源大数据生态产品，支持API访问和文件读取...

基于向量检索版+LLM构建对话式搜索

方案优势优势一：高性能：自研的高性能向量检索引擎 OpenSearch向量检索版支持千亿数据毫秒级响应，实时数据更新秒级可见 OpenSearch向量检索版的检索性能优于开源向量搜索引擎数倍，在高QPS场景下召回率明显优于开源向量搜索引擎 ...

基于向量检索版+LLM构建对话式搜索

方案优势优势一：高性能：自研的高性能向量检索引擎 OpenSearch向量检索版支持千亿数据毫秒级响应，实时数据更新秒级可见 OpenSearch向量检索版的检索性能优于开源向量搜索引擎数倍，在高QPS场景下召回率明显优于开源向量搜索引擎 ...

表引擎

Approximate Nearest Neighbor Search Indexes 用于近似最近邻搜索的索引引擎，在大规模数据集中高效地查找最接近给定查询点的数据点。Full-text Search using Inverted Indexes 使用倒排索引进行全文搜索，用于在大规模文本数据中进行全文...

增量导入

本章节介绍搜索引擎如何进行增量导入。请参见 RDS增量导入，将增量数据导入到宽表引擎中。导入宽表引擎后，后台会通过BDS服务自动将宽表引擎的增量数据同步到搜索引擎中。注意同步到搜索引擎的数据仅限于已经配置好的schema映射。

增量导入

本章节介绍搜索引擎如何进行增量导入。请参见 RDS增量导入，将增量数据导入到宽表引擎中。导入宽表引擎后，后台会通过BDS服务自动将宽表引擎的增量数据同步到搜索引擎中。重要同步到搜索引擎的数据仅限于已经配置好的schema映射。

全量导入

本章节介绍搜索引擎如何进行全量导入。请参见 RDS全量导入将全量数据导入到宽表引擎中。将数据导入到宽表引擎后，请参见通过构建索引完成全量数据同步，将全量数据导入到搜索引擎中。

什么是阿里云Elasticsearch

开源Elasticsearch是一个基于Lucene的实时分布式的搜索与分析引擎，是遵从Apache开源条款的一款开源产品，是当前主流的企业级搜索引擎。作为一款基于RESTful API的分布式服务，Elasticsearch可以快速地、近乎于准实时地存储、查询和分析...

EMR Studio概述

能够无缝关联EMR集群（EMR on ECS和EMR on ACK）的计算引擎提交任务，并提供了交互式开发、任务调度和任务监控等开源大数据开发使用体验。覆盖了大数据处理ETL、交互式数据分析、机器学习和实时计算等多种应用场景。EMR Studio核心优势 ...

搜索索引介绍

数据同步服务LTS实时监听宽表WAL，筛选出宽表WAL中带有SearchIndex的表，并将筛选的数据写入至搜索引擎。搜索引擎收到数据后实时构建倒排索引。数据查询的流程如下：查询操作发送至Lindorm宽表引擎，计算层自动进行查询编译，基于优化器...

技术支持的范围和方式

阿里云E-MapReduce（简称EMR）是云原生开源大数据平台，能够为用户提供简单易集成的开源大数据解决方案。EMR on ECS集群主要构建于ECS之上，集群资源归属于用户，EMR提供基于该资源的半托管云服务能力，用户对集群拥有完全的管理操作权限，...

通过Kafka写入数据

共支持以下两种写入方式：通过开源Kafka客户端写入Lindorm流引擎数据 通过开源Kafka脚本工具连接Lindorm流引擎以通过开源Kafka脚本工具写入数据为例。创建Topic./kafka-topics.sh-bootstrap-server地址>-topic log_topic-create#写入数据....

概述

Flink（VVR）完全兼容开源Flink，相关内容请参见如下文档：DataStream API Table API&SQL Python API 使用场景 Flink广泛应用于大数据实时化的场景，本文从技术领域和企业应用场景进行介绍。技术领域从技术领域的角度，Flink主要用于以下...

开源大数据搜索引擎

新品推荐