近期传来喜讯,我所吴垠鋆老师团队文章《POQD: 高性能多向量检索查询分解器》在ICML2025获得发表。国际机器学习大会(ICML,International Conference on Machine Learning)是全球机器学习领域的顶级会议之一。



POQD: 高性能多向量检索查询分解器

文章简介:

针对非结构化数据的密集检索(dense retrieval)问题,传统的向量数据库(vector database)的运行机制是将查询和数据库中的非结构化数据分别编码为一个向量,然后再进行余弦相似度的计算,最后确定和查询最相似的Top-k个数据作为查询结果。但是该机制在处理复杂查询(如长度较长的查询)和复杂的非结构化数据(如包含多个实体的图片)时的性能往往不及预期,这主要是因为单个向量往往无法表示复杂查询和数据中的复杂语义。近年来,相关工作提出一套密集检索的新思路,该思路将查询和数据进行分解,然后根据分解后的结果编码为多个向量,最后通过两组多向量之间的相似度比较确定和查询最相近的数据。该种机制被称为多向量检索(multi-vector retrieval),相比于传统的密集检索机制,其检索准确率在典型的基准数据集有很明显的提升。

然而已有的主流多向量检索算法仍然存在较为明显的局限性,具体表现为其在进行查询和数据分解时,往往在细粒度进行token级别的分解。但是这样的分解方式忽略了token之间的语义关系,从而导致其在处理包含复杂语义的查询和数据时仍然面临着挑战。为了解决这一问题,论文提出了自动优化分解查询的机制,该机制可以自动地选择重要的token集合并自动选择合适的粒度进行分解,从而最优化下游的检索性能或者基于查询的RAG性能。考虑到查询分解过程的不可导性,论文提出了一套基于大模型优化器的优化机制,通过提示词学习的方式来实现查询分解和下游模型(如RAG中的生成模型)的联合优化。通过在几个典型的多模态检索和RAG的基准数据集的实验,论文证明了该方法的优越性。同时相比于传统的微调RAG生成器的方法,该机制中的生成器和查询分解的联合优化过程仅仅带来了很少的额外开销,这通过理论分析和实验进行了验证。

该论文第一作者为刘耀阳(人民大学,吴垠鋆老师课题组实习生),合作作者为李俊霖(人民大学,已保研至北京大学),吴垠鋆助理教授(北京大学,通讯作者),陈震(清华大学)。