解决方案介绍

开放搜索教育搜题能力和实践
讲师:阿里云达摩院算法专家-徐光伟(昆卡)
开放搜索(Opensearch)是一站式智能搜索业务开发平台。结合达摩院先进的NLP技术,打造定制化的行业全链路搜索解决方案。本视频将分享如何通过行业搜索能力和算法工程提升高校教育搜索准确率及多路召回技术的应用实践,帮助企业技术提升核心竞争力。

方案优势

高校教育全链路解决方案,提高搜索性能及准确性
满足引擎索引多路召回结果
支持文本索引、图片向量索引、公式索引多路召回结果,降低无结果率
达摩院NLP技术加持,定制教育搜索能力
教育查询分析全套能力,解决准确率较低问题,可定制排序脚本,深度优化召回结果排序效果
向量召回
用户灵活配置的向量+文本召回,快速提升搜索系统效果
排序插件开发-Cava语言
更强的定制能力,更易于维护,轻松实现业务排序需求
弹性扩缩容
按量付费,即时生效,保障高峰期搜索稳定同时,不需要提前购买大量资源,无成本负担
数据秒级更新
支持千亿体量数据搜索的毫秒级响应,实时数据更新秒级可见

行业能力

查询语义理解

分词是影响搜索效果的最基础的模块。开放搜索集成了教育搜题行业专属的教育分词器,同时在此基础之上用户还可上传自己的分词词条定制个性化的分词器。

类目预测

搜题应用:
1.结合输⼊的图⽚信息和OCR识别之后的结果预测输⼊题⽬的学科类别、题目类型;
2.预测各⽂本⽚段的字段类型(题干描述、选项等);

排序定制

系统开放了两阶段排序过程:基础排序和业务排序,即粗排和精排;
基础排序即是海选,从检索结果中快速找到质量高的文档,取出TOP N个结果再按照精排进行精细算分,最终返回最优的结果给用户。为了实现更细粒度的排序效果,结合排序表达式(Ranking Formula)可以为应用自定义搜索结果排序方式

多路搜索

开放搜索的多路搜索功能结合了文本搜索和向量搜索,做到了搜索延迟和计算消耗低于OR逻辑情况下更高的准确性,并在搜题场景已经得到有效验证。多路召回架构还可以使用到:图片向量召回、公式召回、个性化召回等场景中。

查询语义理解

分词是影响搜索效果的最基础的模块。开放搜索集成了教育搜题行业专属的教育分词器,同时在此基础之上用户还可上传自己的分词词条定制个性化的分词器。

类目预测

搜题应用:
1.结合输⼊的图⽚信息和OCR识别之后的结果预测输⼊题⽬的学科类别、题目类型;
2.预测各⽂本⽚段的字段类型(题干描述、选项等);

排序定制

系统开放了两阶段排序过程:基础排序和业务排序,即粗排和精排;
基础排序即是海选,从检索结果中快速找到质量高的文档,取出TOP N个结果再按照精排进行精细算分,最终返回最优的结果给用户。为了实现更细粒度的排序效果,结合排序表达式(Ranking Formula)可以为应用自定义搜索结果排序方式

多路搜索

开放搜索的多路搜索功能结合了文本搜索和向量搜索,做到了搜索延迟和计算消耗低于OR逻辑情况下更高的准确性,并在搜题场景已经得到有效验证。多路召回架构还可以使用到:图片向量召回、公式召回、个性化召回等场景中。