发明名称 一种使用本体进行文本文档自动分类的方法
摘要 本发明涉及一种使用本体进行文本文档自动分类的方法,该方法包括:首先,使用带权重的关键词集合表示文本文档的特征信息;然后,使用经过本体消歧和本体扩展处理后的本体来表示分类目录的特征信息,并通过分析本体结构特征将本体被转化为带权重的词义集合;最后,使用Earth Mover’s Distance方法计算文本文档的关键词集合和本体权重词义集合之间的语义相似值,并进一步计算文本文档和分类目录之间的相似值,根据文本文档和分类目录之间的相似值来进行文本文档的分类和排序。使用本发明方法能够进行文本文档的自动分类,并提高文本文档分类的准确率。
申请公布号 CN101944099A 申请公布日期 2011.01.12
申请号 CN201010210107.0 申请日期 2010.06.24
申请人 西北工业大学 发明人 郭雷;方俊
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 西北工业大学专利中心 61204 代理人 王鲜凯
主权项 1.一种使用本体进行文本文档自动分类的方法,其特征在于步骤如下:(1)用KEA算法抽取待分类文本文档集合中每篇文本文档的关键词集合,得到该文本文档的带权重的关键词集合;在Swoogle本体搜索引擎中以给定的目录集合中的每个分类目录名为检索词进行检索,得到的检索结果中排序第一的本体作为表示该分类目录的本体,对表示每个分类目录的本体进行本体消岐和本体扩展,得到表示该分类目录的新的本体;所述的本体消岐过程为:首先,选择本体中距离每个概念词L范围内的词作为该概念词的上下文;所述的L的取值范围为[3,5];然后,按语义相关度计算公式<img file="FSA00000175171000011.GIF" wi="1560" he="134" />计算每个概念词的第i个可能词义s<sub>i</sub>与该概念词的第j个上下文con<sub>j</sub>的语义相关度relateness(s<sub>i</sub>,con<sub>j</sub>),并按<img file="FSA00000175171000012.GIF" wi="675" he="186" />计算每个概念词的第i个可能词义s<sub>i</sub>的平均语义相关度Rel(s<sub>i</sub>);其中,i=1,2,…,I,I表示概念词的可能词义的个数,j=1,2,…,J,J表示概念词的上下文的个数;wordNumInGlossOfs<sub>i</sub>表示s<sub>i</sub>的WordNet释义包含的单词个数,wordNumInGlossOfcon<sub>j</sub>表示con<sub>j</sub>的WordNet释义包含的单词个数,NumOfOverlaps_s<sub>i</sub>con<sub>j</sub>表示s<sub>i</sub>的WordNet释义和con<sub>j</sub>的WordNet释义所包含的单词中相同单词的个数;所述的可能词义为定义在词法数据库WordNet中的词义;最后,选择具有最大平均语义相关度Rel值的可能词义作为概念词的概念词义;所述的本体扩展过程为:利用语义相关度计算公式<img file="FSA00000175171000021.GIF" wi="1525" he="134" />计算经过本体消岐处理后的本体的每个概念词义在WordNet中的上位关系词义集合和下位关系词义集合中的每个词义与该概念词义之间的语义相关度,并进行判断:对于上位关系词义集合中的每个词义,如果它与该概念词义之间的语义相关度大于给定阈值一,则将该词义加入到该概念词义的父类集合;对于下位关系词义集合中的每个词义,如果它与该概念词义之间的语义相关度大于给定阈值二,则将该词义加入到该概念词义的子类集合;将每个概念词义在WordNet中的同义关系词义集合中的所有词义均加入到该概念词义的同类集合;其中,<img file="FSA00000175171000022.GIF" wi="41" he="59" />表示经过本体消岐处理后的本体的第p个概念词义,p=1,2,…,P,P表示经过本体消岐处理后的本体的概念词义的个数;s′<sub>pq</sub>表示<img file="FSA00000175171000023.GIF" wi="40" he="59" />的上位关系词义集合/下位关系词义集合中的第q个词义,q=1,2,…,Q,Q表示上位关系词义集合/下位关系词义集合中的词义的个数;<img file="FSA00000175171000024.GIF" wi="450" he="59" />表示<img file="FSA00000175171000025.GIF" wi="41" he="58" />的WordNet释义包含的单词个数,<img file="FSA00000175171000026.GIF" wi="477" he="57" />表示s′<sub>pq</sub>的WordNet释义包含的单词个数,<img file="FSA00000175171000027.GIF" wi="485" he="59" />表示<img file="FSA00000175171000028.GIF" wi="40" he="59" />的WordNet释义和s′<sub>pq</sub>的WordNet释义所包含的单词中相同单词的个数;所述的给定的阈值一和阈值二的取值范围均为[0.6,1];(2)计算表示每个分类目录的新的本体的权重词义集合,具体为:首先,将本体转化成由顶点集合和有向边集合组成的有向图:有向图的每一个顶点为本体中的一个概念词义,有向图的每一条有向边为两个概念词义间的包含关系,有向边的方向由子概念词义指向父概念词义;然后,按<img file="FSA00000175171000031.GIF" wi="397" he="120" />计算得到每个概念词义的权重;其中,weight表示概念词义的权重,layer表示该概念词义对应的顶点的层数;所述的顶点的层数为顶点对应的概念词义距离本体根部的最短路径距离;(3)按Sim(d,o)=1-EMD(d,o)计算文本文档和分类目录之间的相似值Sim(d,o),如果文本文档和分类目录间的相似值Sim(d,o)大于给定阈值δ,则将文本文档分类到该分类目录,否则不将文本文档分类到该分类目录;其中,d为文本文档的带权重的关键词集合,o为本体的权重词义集合;EMD(d,o)为利用Earth Mover’s Distance方法计算得到的文本文档和本体之间的语义相似值;所述的给定阈值δ的取值范围为[0.5,0.6];(4)对分类后的分类目录下的所有文本文档按照相似值Sim(d,o)由大到小进行排序。
地址 710072 陕西省西安市友谊西路127号