发明名称 话题提取装置和程序
摘要 根据实施方式,话题提取装置具备话题提取单元、话题提示单元。上述话题提取单元具备单词提取单元和话题词提取单元。上述单词提取单元从对象文书集合中提取各单词,计算该各单词的出现频度和该各单词出现的文书频度。上述话题词提取单元针对上述提取的各单词,取得上述对象期间中的出现文书的文书集合,计算表示与话题词的接近性的尺度即话题度,提取上述话题度为预定值以上的单词作为话题词,并且针对该提取的话题词,根据该对象期间中的出现日期时间计算新鲜度。上述话题提示单元按照上述新鲜度的顺序提示上述提取的话题词,并且针对该提示的各话题词提示每个单位期间的出现文书数。
申请公布号 CN103282903A 申请公布日期 2013.09.04
申请号 CN201280004293.X 申请日期 2012.03.08
申请人 株式会社东芝;东芝解决方案株式会社 发明人 岩崎秀树;后藤和之;松本茂;宫部泰成;小林干门
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京银龙知识产权代理有限公司 11243 代理人 曾贤伟;曹鑫
主权项 一种话题提取装置,具备:文书存储单元,其存储由具有文本信息和日期时间信息的多个文书构成的对象文书集合;期间指定单元,其接受成为话题提取的对象的对象期间的指定;话题提取单元,其从存储在上述文书存储单元中的对象文书集合中,提取表示接受了上述指定的对象期间中的话题的单词即话题词,并且针对各话题词计算表示时事性的尺度即新鲜度;话题提示单元,其按照上述新鲜度的顺序提示通过上述话题提取单元提取的话题词,并且针对该提示的各话题词提示每个单位期间的出现文书数,该话题提取装置的特征在于,上述话题提取单元具备:单词提取单元,其从存储在上述文书存储单元中的对象文书集合中提取各单词,分别计算该各单词的出现频度和表示该各单词出现的文书数的文书频度;以及话题词提取单元,其针对通过上述单词提取单元提取的各单词,取得上述对象期间中的该单词出现的出现文书的文书集合,根据表示该出现文书的出现频度的显著性的值、基于上述单词的出现频度和上述文书频度的该单词的加权值,计算表示与话题词的接近性的尺度即话题度,提取上述话题度为预定值以上的单词作为话题词,并且针对该提取的话题词,根据该对象期间中的出现日期时间计算新鲜度。
地址 日本东京都