发明名称 一种基于百度百科的网络文本语义的分类方法
摘要 本发明一种基于百度百科的网络文本语义的分类方法,利用百度百科把一段文本从外延词条集合映射到能体现内涵的语义主题空间中,再通过对文本语义主题的统计规律性来计算文本与文本、文本与类别之间的相似度,进而完成文本分类,避开通过穷举词条的统计方式,解决了传统文本分类算法需要大量训练数据和无法应对网络词汇和新生词汇的难题。
申请公布号 CN102662987A 申请公布日期 2012.09.12
申请号 CN201210066606.6 申请日期 2012.03.14
申请人 华侨大学 发明人 陈叶旺
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 泉州市文华专利代理有限公司 35205 代理人 廖仲禧
主权项 一种基于百度百科的网络文本语义的分类方法,其特征在于主要包括如下步骤:步骤1、建立一个百度百科词库前缀关系;步骤2、对于一段文本T,利用百度百科词库前缀关系,进行快速词条发现,找出所有可能涉及的词条,形成候选词条集合;步骤3、把所有候选词条对应的百度百科的开放分类作为文本T的候选语义主题,并统计形成候选语义主题的权重向量;步骤4、对训练数据中的每一个类别,分别计算该类别的主题权重向量,相互之间进行正交化;步骤5、按向量相似度算法计算文本T与已知类别的相似度和文本T的语义离散度值,并根据语义离散度值选取相似度最高的前N个分类作为文本T的分类集合。
地址 362000 福建省泉州市丰泽区城东华侨大学