发明名称 | 数据处理装置、数据处理方法和程序 | ||
摘要 | 本发明公开了一种数据处理装置,包括:链接结构生成单元,被配置为创建基于检索词搜索到的文档中的候选词之间的链接关系,以生成链接结构;潜在主题划分单元,被配置为计算每一个文档中的语句之间的依赖度信息,基于该依赖度信息对每一个文档进行主题划分并获得主题划分在该文档中的权重,其中,所述语句分别包括检索词和/或候选词;词评分单元,被配置为基于链接结构和主题划分对候选词以及候选词的对进行评分,并且将评分提供给潜在主题划分单元以用于计算依赖度信息和进行主题划分;以及控制单元,被配置为控制潜在主题划分单元和词评分单元,使其基于主题划分和评分的相互影响循环迭代操作,直到满足预定条件为止。 | ||
申请公布号 | CN103870458A | 申请公布日期 | 2014.06.18 |
申请号 | CN201210526451.X | 申请日期 | 2012.12.07 |
申请人 | 富士通株式会社 | 发明人 | 孙健;夏迎炬;杨宇航;张明明;李中华;王云芝 |
分类号 | G06F17/30(2006.01)I | 主分类号 | G06F17/30(2006.01)I |
代理机构 | 北京集佳知识产权代理有限公司 11227 | 代理人 | 李春晖;李德山 |
主权项 | 一种数据处理装置,包括:链接结构生成单元,被配置为创建基于检索词搜索到的文档中的候选词之间的链接关系,以生成链接结构,其中,如果以第一候选词作为检索词能够搜索到第二候选词,则存在从第一候选词到第二候选词的链接关系;潜在主题划分单元,被配置为计算所述文档的每一个文档中的语句之间的依赖度信息,基于该依赖度信息对所述每一个文档进行主题划分并获得主题划分在该文档中的权重,其中,所述语句分别包括检索词和/或候选词;词评分单元,被配置为基于所述链接结构和所述主题划分对所述候选词以及候选词的对进行评分,并且将所述评分提供给所述潜在主题划分单元以用于计算所述依赖度信息和进行主题划分;以及控制单元,被配置为控制所述潜在主题划分单元和所述词评分单元,使其基于所述主题划分和所述评分的相互影响循环迭代操作,直到满足预定条件为止,其中,所述潜在主题划分单元在首次计算中使用预定的评分值作为所述评分的初值。 | ||
地址 | 日本神奈川县 |