发明名称 一种针对互联网涉税数据的文本分类方法
摘要 本发明提出了一种针对互联网涉税数据的文本分类方法,可以有效的组织、管理、挖掘文本信息,伴随着互联网的快速发展,网络上的多媒体信息快速的增长,我们如何从浩瀚的网络资源中,高效地挖掘出有用信息,是文本分类中一项非常艰巨的任务,本发明可以通过文本分类技术,使网页自动的按照类别的方式进行组织和管理,满足税务人员方便快捷的信息处理需求,准确定位所需信息资源减少和避免税款流失,成为优化税收征管方式的现实问题。同时,文本分类技术作为信息过滤、信息检索、搜索引擎等领域的技术基础,有着广泛的应用前景,可产生巨大的社会效益和经济效益。
申请公布号 CN104199959A 申请公布日期 2014.12.10
申请号 CN201410477312.1 申请日期 2014.09.18
申请人 浪潮软件集团有限公司 发明人 刘丽娜;徐宏伟;黄兴柱
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 济南信达专利事务所有限公司 37100 代理人 姜明
主权项 一种针对互联网涉税数据的文本分类方法, 其特征在于步骤包括(1)对文本进行特征提取,(2) 对文中词语的特征进行降维处理,(3)针对基于语义的文本信息进行分类,其中:(1)对文本进行特征提取,文本分类存在的特点是训练集较大,并且向量空间的维数较高,高维度的特征数据会加剧机器学习的负担,在不影响分类准确度的情况下,减少文本描述空间的高维特征数量是很有必要的,这个过程就是特征提取;(2) 对文中词语的特征进行降维处理,依据特征的分类能力,采用AdaBoost算法同时进行特征选择和分类器增强;(3)针对基于语义的文本信息进行分类,根据概念之间的语义关系,提出了如何计算两个词语之间相似度的公式如下:Sim(A,B)= log p(common( A,B))/log p(description(A,B))    (1.1)其中,分子部分是描述A、B共性所需要的信息量的大小,分母部分是完整的描述出A、B所需要的信息量大小,算法过程如下:1) 计算两个义原间的相似度义原是最基本的不可分割的最小单位,常用的义原之间的关系有上下位关系,反 义关系,同义关系等,计算义原之间的相似度采用了义原之间的主要关系即上下位关系,利用层次结构树中各个义原之间的一些关系来得到词语的相似度,两个义原间的相似度公式如式(1.2)所示:<img file="2014104773121100001dest_path_image001.GIF" wi="226" he="49" />(1.2)其中,上式中的α表示一个可以改变的参数,代表了相似度为0.5时的路径的长度,依据义原树的深度通常取α= 1.6,dist(s<sub>1</sub>,s<sub>2</sub>)代表两个义原在义原树中的距离,在研究中发现,义原之间的距离并不代表义原之间的相互关系,其实,义原之间的相对位置对他们之间的相互关系也产生较大的影响;2) 计算出两个义项的相似度现实生活中面对的文本不仅包含实词还有虚词,基于实词和虚词在现实中是不可以相互替换的,这里将实词和虚词之间的相似度记为零,结合虚词的概念均用句法义原或关系义原方式简单描述,仅仅计算其对应的句法义原或关系义原之间的相似度即可,两个义项的整体相似度表达式如式(1.3)所示:<img file="236523dest_path_image002.GIF" wi="288" he="54" />(1.3)其中β<sub>i</sub>(1≤i≤4) 是可变化的,一般根据经验指定,且有β<sub>1</sub>≥β<sub>2</sub>≥β<sub>3</sub>≥β<sub>4</sub>,β<sub>1</sub>+β<sub>2</sub>+β<sub>3</sub>+β<sub>4</sub>=1,因为一个概念的最主要的特征由第一义原描述式所反映的,所以其取值一般要大于0.5,当我们在实例验证时候发现,当sim<sub>1</sub>非常小,但是sim<sub>3</sub>或sim<sub>4</sub>比较大时,由表达式(1.3)将得出的整体的相似度仍然较大此现象是不合理的,将表达式(1.3)进行了修改,给出如式(1.4)所示:<img file="2014104773121100001dest_path_image003.GIF" wi="321" he="52" />(1.4)至此,比较精确的表达出义项的相似度,但当考虑第一独立义原在整个概念描述中起至关重要的作用,同时该部分与其余部分是相互独立的,当第一义原部分的相似度比较低时,其余次要的三部分相似度对于整体相似度所起的作用也会降低,因此,对公式(1.4)进行修改为(1.5):<img file="91346dest_path_image004.GIF" wi="431" he="54" />(1.5)至此,比较精确的表达出义项的相似度;3) 得出词语的相似度假设有两个词语W<sub>1</sub>和W<sub>2</sub>,其中W<sub>1</sub>是由m个义项所组成,W<sub>2</sub>是由n个义项所组成,C<sub>1i </sub>( i=1,…, m )和C<sub>2j </sub>( j=1,…, n )分别代表每个词语的义项,W<sub>1 </sub>= { C<sub>11</sub>, C <sub>12</sub>,…, C <sub>1m</sub>},W<sub>2</sub> = { C<sub>21</sub>, C <sub>22</sub>,…,C<sub>2n </sub>},两个词语的相似度为义项C<sub>1i</sub>和C<sub>2j</sub>所有组合中相似度的最大值,如式(1.6)所示:即词语的相似度为所有义项相似度的加权平均值,<img file="2014104773121100001dest_path_image005.GIF" wi="352" he="43" />(1.6)。
地址 250100 山东省济南市高新区科航路2877号