发明名称 一种基于方差的文档分类方法
摘要 本发明的基于方差的文档分类方法,包括:a).采集足够数量的、已明确类别的科技文献、小说和散文,作为训练样本;b).采用现有的分词方法进行分词,并计算词频;c).对词频做归一化处理;d).计算每篇文档词频的方差;e).归纳词频方差区间;f).待分类文档的处理;g).判断方差的落入区间;h).根据落入的区间获取文档分类。本发明的基于方差的文档分类方法,根据科技文献、小说和散文的用词特点所造成的词频方差的不同,可将待分类文档合理、科学地自动区分开来,在保证了分类准确率的同时,具有很高的效率,为对现有文献进行科技文献、小说和散文分类奠定了理论基础,并提供了完整、科学的理论方法。
申请公布号 CN104123272B 申请公布日期 2017.02.15
申请号 CN201410215035.7 申请日期 2014.05.21
申请人 山东省科学院情报研究所 发明人 赵燕清;魏墨济;朱世伟;于俊凤;李晨;蔡斌雷;王蕾;冯海洲;王爱萍
分类号 G06F17/27(2006.01)I;G06F17/30(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 济南泉城专利商标事务所 37218 代理人 褚庆森
主权项 一种基于方差的文档分类方法,包括样本训练阶段和文档分类阶段,其特征在于,所述样本训练阶段通过以下步骤来实现:a).样本采集,从现有多类文档库中采集足够数量的、已明确类别的科技文献、小说和散文,作为训练样本;并获取样本的文本内容;b).分词并统计词频,首先采用现有的分词方法,对步骤a)中获取的文档样本进行分词处理;然后对每篇文档中每个词出现的次数进行统计,获取文档中词汇的词频,将词汇的词频作为文档的特征集合;c).词频量级归一化处理,为避免词频数量级不同对方差造成的影响,采用公式(1)对每篇文档中每个词汇的词频做归一化处理:<maths num="0001"><math><![CDATA[<mrow><msub><mi>x</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub><mo>=</mo><mfrac><mrow><msub><mi>X</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub><mo>-</mo><msub><mi>min</mi><mi>i</mi></msub></mrow><mrow><msub><mi>max</mi><mi>i</mi></msub><mo>-</mo><msub><mi>min</mi><mi>i</mi></msub></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0001111281290000011.GIF" wi="646" he="135" /></maths>其中,i表示样本文档的编号,其取值范围是:i∈[1,样本文档的总量];j表示第i篇文本文档中词汇的编号,其取值范围是:j∈[1,样本文档中词汇的总量];X<sub>ij</sub>表示归一化前第i篇文档中第j个词汇的词频,x<sub>ij</sub>表示归一化后第i篇文档中第j个词汇的词频;max<sub>i</sub>表示第i篇文档中出现次数最多的词的词频,min<sub>i</sub>表示第i篇文档中出现次数最少的词的词频;d).计算词频方差,按照公式(2)计算每篇文档词频的方差:<maths num="0002"><math><![CDATA[<mrow><msubsup><mi>S</mi><mi>i</mi><mn>2</mn></msubsup><mo>=</mo><mfrac><mrow><munderover><mo>&Sigma;</mo><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>n</mi><mi>i</mi></msub></munderover><msup><mrow><mo>(</mo><msub><mi>x</mi><mi>j</mi></msub><mo>-</mo><msub><mover><mi>X</mi><mo>&OverBar;</mo></mover><mi>i</mi></msub><mo>)</mo></mrow><mn>2</mn></msup></mrow><msub><mi>n</mi><mi>i</mi></msub></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0001111281290000012.GIF" wi="614" he="199" /></maths><img file="FDA0001111281290000013.GIF" wi="52" he="57" />表示第i篇样本文档中词汇词频的平均值,其通过公式(3)进行求取:<maths num="0003"><math><![CDATA[<mrow><msub><mover><mi>X</mi><mo>&OverBar;</mo></mover><mi>i</mi></msub><mo>=</mo><mfrac><mn>1</mn><msub><mi>n</mi><mi>i</mi></msub></mfrac><munderover><mo>&Sigma;</mo><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>n</mi><mi>i</mi></msub></munderover><msub><mi>x</mi><mi>j</mi></msub><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>3</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0001111281290000014.GIF" wi="507" he="124" /></maths>其中,i表示样本文档的编号,j表示第i篇文本文档中词汇的编号,n<sub>i</sub>表示第i篇文本文档中词汇的总量;<img file="FDA0001111281290000015.GIF" wi="53" he="57" />表示第i篇样本文档词汇词频的方差;e).归纳词频方差区间,根据步骤d)计算所有样本文档的方差,按照科技文献、小说、散文对这些文档的方差进行归类,统计每类文档方差的取值范围,归纳得到每类文档词频方差的取值区间;设归纳后的小说、科技文献、散文的词频方差区间分别为[0,S<sub>1</sub>)、[S<sub>1</sub>,S<sub>2</sub>)、[S<sub>2</sub>,+∞),将其作为文档分类标准;所述文档分类阶段通过以下步骤来实现:f).待分类文档的处理,获取待分类的电子文档,并按照步骤b)至步骤e)中的方法对待分类的文档进行处理,求取待分类电子文档的方差,记为S′;g).判断方差的落入区间,将步骤f)中求出的待分类文档的方差S′与科技文献、小说、散文的分类标准进行比较,判断S′落入方差区间[S<sub>1</sub>,S<sub>2</sub>)、[0,S<sub>1</sub>)、[S<sub>2</sub>,+∞)中的哪一个;h).获取文档分类,如果S′落入区间[S<sub>1</sub>,S<sub>2</sub>),则表明该文档属于科技文献;如果S′落入区间[0,S<sub>1</sub>),则表明该文档属于小说;如果S′落入区间[S<sub>2</sub>,+∞),则表明该文档属于散文。
地址 250014 山东省济南市历下区科院路19号山东省科学院情报研究所