ISO9001认证
认证
热线
0571-85800212
186 5718 6548
加入收藏 网站地图
联系我们 投诉受理
认证常识 其它类认证 | 体系认证咨询 | 精选认证文章
您当前位置:网站首页 >> 认证常识 >> 其它类认证 >> 阅读文章

信息检索模型

来源:ISO9001认证 作者:ISO9001认证 发布时间:2022-05-11 查看次数:759

信息检索(informaticaretrieval)是指用户根据 需求从信息集合中查询、获取相关信息的方法[1617].通常被分为广义信息检索和狭义信息检索.常用的 信息检索模型有向量空间模型、概率检索模型和主 题模型.

向量空间模型是由 Salton等[16]于20世纪70年代提出,并且首次在SMART 文本检索系统中成 功应用.作为经典的相似度计算模型,通过特征选 取和权重计算将文档表示为文档空间的向量,再通 过计算向量间的相似性来度量文档间的相似性.在 处理文本时最常用的向量空间相似性度量方式是余弦距离.

主题模 型 是 一 种 用 无监 督 学 习 的 方 式 对 文 档隐含语 义 结 构 进 行 聚 类 的 统 计 模 型[18],主 要 应用于语义分析和文本挖掘问题中,同时还在生 物信息学 研 究 中得 以 应 用[19].主 题 模 型 是 一 种 典型的词袋模型,如图1所示[20],它认为一篇文档是由好多个主题构成,而每个主题是一组词组 成的集合,词与词之间没有顺序关系.常见的主 题 模 型 为 隐 含 Dirichlet 分 布 (latent Dirichlet allocation,LDA).

概率检索模型在当前信息检索领域中被认为是效果最好的模型之一.该模型与 Bayes分类的思想 相近,但本质上有所区别,其根本目的不在于对查 询结果进行分类,而是根据相关度得分对与查询内 容相关的文档进行排序.

BM25 [21]作为一种经典的用于结构化文档检索 的概率模型计算公式,在商业搜索引擎领域已获得 广 泛 应 用.BM25 在 TFGIDF (term frequencyG inversedocumentfrequency)的基础上增加了2个 可调参数k1和b,分别代表“词语频率饱和度”和 “字段长度规约”,用于调节词频和文档长度在权重计算中起到的作用,实验证明当k1=1.2,b=0.75 时,BM25算法得出的结果是最合理的.

相关文章
危险源辨识及风险防控
最新更新  
·基于声发射监测的滑坡过程预警模型
·火灾现场视频采集
·火灾现场光路分析与亮度分析
·国外现行相关标准
·国内现行相关标准
·附属设施对燃气爆炸特性的影响
·放射性排放(归一化集体剂量)
·单目视觉定位原理
·大气污染物排放
·乘客对站台噪声的主观感受
·城市综合管廊燃气爆炸传播特性实验研究
·城市能源系统碳达峰路径最优化
·城市轨道交通地下车站站台噪声评价方法
·案例 某市碳达峰及“十五五”、 “十六五”
·安标和职安体系整合的具体步骤(8)
站内搜索:
GJB9001C-2017标准学习与理解
阅读排行  
·各级审核员的年度确认要求是什么?
·关于食品安全、食品卫生、食品质量的概念以
·HACCP如何确定关键控制点(CCP)
·HACCP食品安全管理体系认证实施规则
·实施HACCP计划七个步骤
·体系审核的目的和意义
·车间行车操作的相关规范
·审核员的再注册要求是什么?
·国家标准《能源管理体系 要求》简介
·企业社会责任的产生背景
·ISO 20000 IT服务管理体系认证(一)
·HACCP、GMP和SSOP三者之间的关系
·BS7799、ISO17799与ISO27001的关系
·服务接触理论和服务接触点
·CUSUM(累积和)控制图和EWMA(指数加权滑动
网站地图 | 关于我们 | 联系我们 | 友情链接 | 浙ICP备12024011号/浙ICP备12024011号-1
Copyright © 2003-2024 HZBH.COM All Rights Reserved Powered by Ok3w
杭州北航企业管理服务有限公司 版权所有
地址:浙江省杭州市文晖路108号浙江出版物资大厦A座1516室 认证热线:0571-85800972