信息检索(informaticaretrieval)是指用户根据 需求从信息集合中查询、获取相关信息的方法[1617].通常被分为广义信息检索和狭义信息检索.常用的 信息检索模型有向量空间模型、概率检索模型和主 题模型.
向量空间模型是由 Salton等[16]于20世纪70年代提出,并且首次在SMART 文本检索系统中成 功应用.作为经典的相似度计算模型,通过特征选 取和权重计算将文档表示为文档空间的向量,再通 过计算向量间的相似性来度量文档间的相似性.在 处理文本时最常用的向量空间相似性度量方式是余弦距离.
主题模 型 是 一 种 用 无监 督 学 习 的 方 式 对 文 档隐含语 义 结 构 进 行 聚 类 的 统 计 模 型[18],主 要 应用于语义分析和文本挖掘问题中,同时还在生 物信息学 研 究 中得 以 应 用[19].主 题 模 型 是 一 种 典型的词袋模型,如图1所示[20],它认为一篇文档是由好多个主题构成,而每个主题是一组词组 成的集合,词与词之间没有顺序关系.常见的主 题 模 型 为 隐 含 Dirichlet 分 布 (latent Dirichlet allocation,LDA).
概率检索模型在当前信息检索领域中被认为是效果最好的模型之一.该模型与 Bayes分类的思想 相近,但本质上有所区别,其根本目的不在于对查 询结果进行分类,而是根据相关度得分对与查询内 容相关的文档进行排序.
BM25 [21]作为一种经典的用于结构化文档检索 的概率模型计算公式,在商业搜索引擎领域已获得 广 泛 应 用.BM25 在 TFGIDF (term frequencyG inversedocumentfrequency)的基础上增加了2个 可调参数k1和b,分别代表“词语频率饱和度”和 “字段长度规约”,用于调节词频和文档长度在权重计算中起到的作用,实验证明当k1=1.2,b=0.75 时,BM25算法得出的结果是最合理的.