主权项 |
一种藏文网页分类方法,其特征在于,所述方法包括: 提取待分类藏文网页的页面信息; 对所述页面信息进行分词处理,得到所述待分类藏文网页的词项向量; 利用藏文类别主题词表中各类别的主题词向量,计算所述词项向量与所述各类别的主题词向量的文本相似度; 从所述页面信息中获取网页栏目词条,利用藏文类别特征词表,查找出所述网页栏目词条所在的类别; 根据所述网页栏目词条的类别和所述文本相似度,确定所述待分类藏文网页属于各个类别的可信度; 将可信度满足要求的类别确定为所述待分类藏文网页的类别; 其中,对所述页面信息进行分词得到各个词项,统计所述各个词项的词频,并为各个词项赋予权重; 所述各个词项及各个词项的权重构成所述待分类藏文网页的词项向量; 所述利用藏文类别主题词表中各类别的主题词向量,计算所述词项向量与所述各类别的主题词向量的文本相似度,具体为: 所述藏文类别主题词表中包括n个类别Dic=(C<sub>1</sub>,C<sub>2</sub>,…,C<sub>i</sub>,…,C<sub>n</sub>),其中,C<sub>i</sub>表示第i个类别,C<sub>i</sub>=(l<sub>1</sub>,l<sub>2</sub>,…,l<sub>m</sub>)表示第i个类别C<sub>i</sub>中包含m个主题词,C<sub>i</sub>对应的权重向量为:W<sub>i</sub>=(w<sub>1</sub>,w<sub>2</sub>,…,w<sub>m</sub>),w<sub>m</sub>表示第m个主题词的权重; 所述待分类藏文网页的所述词项向量中包含k个词项T=(t<sub>1</sub>,t<sub>2</sub>,…,t<sub>k</sub>),各个词项对应的词频为F=(f<sub>1</sub>,f<sub>2</sub>,…,f<sub>k</sub>),各个词项对应的权重为V=(v<sub>1</sub>,v<sub>2</sub>,…,v<sub>k</sub>); 根据相似度计算公式Sim<C<sub>i</sub>,T>=W<sub>i</sub>*V/sqrt(|W<sub>i</sub>|*|V|),计算得到所述第i个主题类别的主题词向量与所述词项向量的文本相似度,其中i∈(1,n),W<sub>i</sub>=length(C<sub>i</sub>);V=F*W<sub>i</sub>。 |