发明名称 信息生成程序、装置、方法以及信息检索程序、装置、方法
摘要 本发明涉及信息生成程序、装置、方法以及信息检索程序、装置、方法,执行(A)从对象文件组(F)的合计,(B)以出现频率的降序的排序,(C)到目标出现率的次序为止的提取,(D)映射生成,这样的4个阶段。(A1)首先,信息生成装置读取对象文件组(F),对基础单词的出现频率进行计数。(B1)若在对象文件组F中基础单词的合计结束,则信息生成装置将基础单词出现频率表(101)以出现频率的降序排序。即,按出现频率从高到低的顺序排列,从出现频率最高的基础单词开始定序。(C1)接下来,信息生成装置参照(B1)排序后的基础单词出现频率表(101),提取到目标出现率Pw为止的次序的基础单词。(D1)最后,信息生成装置对于特定基础单词群生成特定基础单词出现映射(M1)。
申请公布号 CN102918524B 申请公布日期 2016.06.01
申请号 CN201080067094.4 申请日期 2010.05.28
申请人 富士通株式会社 发明人 片冈正弘
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京集佳知识产权代理有限公司 11227 代理人 王轶;李洋
主权项 一种信息生成方法,其特征在于,由计算机执行:合计步骤,从记述有字符串的对象文件组中合计每个指定单词的出现频率;次序确定步骤,基于通过上述合计步骤合计出的每个指定单词的出现频率,来确定与上述指定单词有关的出现率的累计成为目标出现率的降序的次序;检测步骤,从在上述对象文件组中选择的对象文件中,检测到通过上述次序确定步骤确定出的降序的次序为止的特定的指定单词;和生成步骤,生成针对通过上述检测步骤检测出的每个特定的指定单词,按每个上述对象文件表示该特定的指定单词的有无的索引信息,上述合计步骤从上述对象文件组中合计单一字符的出现频率,上述次序确定步骤根据通过上述合计步骤合计出的单一字符的出现频率,来确定与上述单一字符有关的出现率的累计成为目标出现率的降序的次序,上述检测步骤从在上述文件组中选择的对象文件中,检测到通过上述次序确定步骤确定出的降序的次序为止的特定的单一字符,上述生成步骤生成针对到通过上述次序确定步骤确定出的降序的次序为止的每个特定的单一字符,按每个上述对象文件表示该特定的单一字符的有无的索引信息。
地址 日本神奈川县