发明名称 藏文网页分类方法和装置
摘要 本发明涉及一种藏文网页分类方法和装置,所述方法包括:提取待分类藏文网页的页面信息;对所述页面信息进行分词处理,得到所述待分类藏文网页的词项向量;利用藏文类别主题词表中各类别的主题词向量,计算所述词项向量与所述各类别的主题词向量的文本相似度;将所述文本相似度满足要求的所述主题词向量的类别确定为所述待分类藏文网页的类别。本发明提供的藏文网页分类方法及装置,通过对网页的文本内容进行分析,提高了分类的准确性,从而可以提高搜索引擎的返回结果及藏文语料库的准确性。
申请公布号 CN102831246B 申请公布日期 2014.09.24
申请号 CN201210345230.2 申请日期 2012.09.17
申请人 中央民族大学 发明人 胥桂仙
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京亿腾知识产权代理事务所 11309 代理人 陈霁
主权项 一种藏文网页分类方法,其特征在于,所述方法包括: 提取待分类藏文网页的页面信息; 对所述页面信息进行分词处理,得到所述待分类藏文网页的词项向量; 利用藏文类别主题词表中各类别的主题词向量,计算所述词项向量与所述各类别的主题词向量的文本相似度; 从所述页面信息中获取网页栏目词条,利用藏文类别特征词表,查找出所述网页栏目词条所在的类别; 根据所述网页栏目词条的类别和所述文本相似度,确定所述待分类藏文网页属于各个类别的可信度; 将可信度满足要求的类别确定为所述待分类藏文网页的类别; 其中,对所述页面信息进行分词得到各个词项,统计所述各个词项的词频,并为各个词项赋予权重; 所述各个词项及各个词项的权重构成所述待分类藏文网页的词项向量; 所述利用藏文类别主题词表中各类别的主题词向量,计算所述词项向量与所述各类别的主题词向量的文本相似度,具体为: 所述藏文类别主题词表中包括n个类别Dic=(C<sub>1</sub>,C<sub>2</sub>,…,C<sub>i</sub>,…,C<sub>n</sub>),其中,C<sub>i</sub>表示第i个类别,C<sub>i</sub>=(l<sub>1</sub>,l<sub>2</sub>,…,l<sub>m</sub>)表示第i个类别C<sub>i</sub>中包含m个主题词,C<sub>i</sub>对应的权重向量为:W<sub>i</sub>=(w<sub>1</sub>,w<sub>2</sub>,…,w<sub>m</sub>),w<sub>m</sub>表示第m个主题词的权重; 所述待分类藏文网页的所述词项向量中包含k个词项T=(t<sub>1</sub>,t<sub>2</sub>,…,t<sub>k</sub>),各个词项对应的词频为F=(f<sub>1</sub>,f<sub>2</sub>,…,f<sub>k</sub>),各个词项对应的权重为V=(v<sub>1</sub>,v<sub>2</sub>,…,v<sub>k</sub>); 根据相似度计算公式Sim&lt;C<sub>i</sub>,T&gt;=W<sub>i</sub>*V/sqrt(|W<sub>i</sub>|*|V|),计算得到所述第i个主题类别的主题词向量与所述词项向量的文本相似度,其中i∈(1,n),W<sub>i</sub>=length(C<sub>i</sub>);V=F*W<sub>i</sub>。 
地址 100081 北京市海淀区中关村南大街27号中央民族大学