发明名称 类似文件检索辅助装置以及类似文件检索辅助方法
摘要 本发明提供一种类似文件检索辅助方法及装置,通过向利用者示出影响类似文件检索精度的要因对检索精度的影响程度和关于面向检索精度提高的对策的信息,使利用者的检索作业处理的循环高效地运转,并使检索作业的效率和质量提高。针对过去的输入文件与正确解答文件的对的集合,进行关于上述要因的解析,使要因的值范围与检索精度建立对应并存储于表中。通过计算机处理,对新输入文件进行相同的要因解析,与上述表对照来计算与符合新输入文件的要因值的值范围相应的检索精度。之后,通过计算机处理,向利用者示出检索精度以及/或者相对于过去的输入文件整体的检索精度平均的偏离值。更理想的情况下,也向利用者示出用于提高检索精度的对策信息。
申请公布号 CN103294741B 申请公布日期 2016.12.21
申请号 CN201210539130.3 申请日期 2012.12.13
申请人 株式会社日立制作所 发明人 间赖久雄;藤稿航平
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 永新专利商标代理有限公司 72002 代理人 杨谦;房永峰
主权项 一种类似文件检索辅助方法,包括:特征词提取处理步骤,对存储于文件数据库的检索对象文件进行解析,提取特征词以及表示其重要度的权重,并存储于检索目录;类似文件检索处理步骤,从通过对输入装置的操作输入而被指定的输入文件提取对应的加权特征词,与存储于上述检索目录的加权特征词进行对照,并计算上述输入文件与上述检索对象文件之间的类似度,从类似度高的检索对象文件开始依次决定为检索结果文件集合;以及检索结果输出处理步骤,向利用者告知上述检索结果文件集合,在该类似文件检索辅助方法中,具有:特征词收集处理步骤,通过上述特征词提取处理步骤,从教师输入文件内的文本提取或者从上述检索目录收集与构成教师文件表的各教师输入文件对应的加权特征词,并存储于特征词表,该教师文件表中具有多个对,所述对是正确解答文件为已知的教师输入文件和与上述教师输入文件对应的上述正确解答文件的对;要因数据提取处理步骤,基于针对各上述教师输入文件由上述类似文件检索处理步骤决定的检索结果文件集合,确定与各教师输入文件对应的上述正确解答文件的检索顺位,并且通过参照与上述各教师输入文件对应的上述特征词表、上述检索结果文件集合、著录信息以及上述检索目录中的一个以上,提取上述各教师输入文件的要因值,并存储于要因表,上述各教师输入文件的要因值与作为影响类似文件检索精度的要因而被预先定义的各要因相对应;检索精度解析处理步骤,针对存储于上述要因表的、与上述教师文件表内的教师输入文件集合对应的上述要因值,基于与一个要因有关的要因值的分布或与多个要因有关的要因值的分布的组合,将上述教师输入文件集合分割成要因组,根据与属于一个要因组的上述教师输入文件对应的上述正确解答文件的检索顺位计算与该要因组对应的检索精度,并计算上述计算出的检索精度相对于针对上述教师输入文件的整体所计算出的检索精度平均值之差来作为偏离值,将上述要因组、符合该要因组的上述要因值所能取的范围、上述检索精度、和上述偏离值存储于检索精度表;以及影响度计算处理步骤,将针对上述正确解答文件为未知的新输入文件所获得的上述要因值与存储于上述检索精度表的各要因组的值范围进行对照,由此,提取与满足上述值范围的要因组对应的上述检索精度以及偏离值,并与该新输入文件的上述要因值一同存储于影响度表,在上述检索结果输出处理步骤中,向利用者示出存储在上述影响度表中的与新输入文件对应的上述要因值、以及上述检索精度和/或上述偏离值。
地址 日本东京都