近年来,问题报告的研究热点主要集中在重复 问题报告的检测上.Runeson 等[6]首次对重复问题 报告检测进行了研究,他们将索尼爱立信移动通信公司的问题报告库作为其实验数据集,首先对问题 报告的文本信息进行向量化及归一化等预处理,然 后计算问题报告间的相似度,实验结果的准确率可 达到 30% 左 右.在 Runeson 等 的 研 究 基 础 上, Wang等[7]结合软件的执行信息,给出了问题报告 相似度的2种定义:自然语言相似度以及执行信息 相似度.实验结果在查全率和查准率方面都取得了 不错的效果,分别为93%和67%.
Kaushik等[8]比较了基于向量空间模型和主题 模型的检测重复问题报告的性能,选取了3种主题 模型:LSI [910]、LDA [11]和 RandomProjections [12].对 于向量空间模型,选用了余弦距离计算相似度,并 尝试了多种方法计算词项权重,实验结果表明基于 向量空间模型的方法效果更好.
Sun等[13]针对 BM25不适用于有重复词和长文本查询的特点,提出了 BM25Ext(即扩展 BM25) 方法计算问题报告间的相似度,还计算了报告中模 块和产品等元数据的相似度,计算结果线性结合得 出总的相似度值.在3个大型软件上的实验结果证 明了该方法与作者之前提出的模型相比召回率提高 了10% ~27%,平均准确度提高了 17% ~23%. Nguyen等[14]提出将 BM25Ext和 LDA2种模型相结合,并且最后的总相似度值也是由2个模型得到 的相似度值线性结合而成,实验结果表明该方法与文[13]的方法相比较,性能有所提升.
Wang等[15]认为众包测试下跨领域的数据差 异会对跨领域问题报告分类模型产生影响,不同于 其他方法利用历史数据训练分类器,该文提出了一 个跨领域分类模型,利用堆栈去噪自编码器从原始 的文本中自动学习高级特性,并以此为依据对问题报告进行分类.该方法对百度众包测试平台上的10 个领域的58个项目进行了实验,结果表明了该方法具有实用性和有效性.