发明名称 |
文本挖掘装置和其方法以及程序 |
摘要 |
语言解析单元(21)解析从文本DB(11)读入的各个文本,并作为分析结果而生成句子结构。相似结构生成调整单元(25)生成根据来自输入装置的输入而对句子结构间每种类型的差异指定是否判定为同一结构的指定项。相似结构判定调整单元(26)生成根据来自输入装置(6)的输入而对属性值的每种类型指定是否忽略属性值间差异的指定项。相似结构生成单元(22)根据来自相似结构生成调整单元(25)的指定项,生成构成由语言解析单元(21)获得的句子结构的部分结构的相似结构,并将生成的各个相似结构设为各个生成源的部分结构的等价类。频繁相似模式检测单元(24)根据由相似结构判定调整单元(26)给出的指定项而忽略属性值,从来自相似结构生成单元(22)的等价类的集合中检测频繁模式并输出给输出装置(3)。 |
申请公布号 |
CN1934570A |
申请公布日期 |
2007.03.21 |
申请号 |
CN200580008562.X |
申请日期 |
2005.03.17 |
申请人 |
日本电气株式会社 |
发明人 |
坂尾要祐;佐藤研治;赤峰享 |
分类号 |
G06F17/30(2006.01);G06F17/27(2006.01);G06F19/00(2006.01) |
主分类号 |
G06F17/30(2006.01) |
代理机构 |
北京东方亿思知识产权代理有限责任公司 |
代理人 |
王怡 |
主权项 |
1.一种文本挖掘装置,其特征在于,包括:从输入的文档生成句子结构的单元;通过对所述句子结构的部分结构进行预先设定的规定的变换操作,来生成与所述部分结构意思相似的模式的相似结构的单元;以及将所述意思相似的模式判定为同一模式来进行模式检测的单元。 |
地址 |
日本东京都 |