一种基于方差的文档分类方法,申请号CN201410215035.7-传众专利搜索

发明名称	一种基于方差的文档分类方法
摘要	本发明的基于方差的文档分类方法，包括：a).采集足够数量的、已明确类别的科技文献、小说和散文，作为训练样本；b).采用现有的分词方法进行分词，并计算词频；c).对词频做归一化处理；d).计算每篇文档词频的方差；e).归纳词频方差区间；f).待分类文档的处理；g).判断方差的落入区间；h).根据落入的区间获取文档分类。本发明的基于方差的文档分类方法，根据科技文献、小说和散文的用词特点所造成的词频方差的不同，可将待分类文档合理、科学地自动区分开来，在保证了分类准确率的同时，具有很高的效率，为对现有文献进行科技文献、小说和散文分类奠定了理论基础，并提供了完整、科学的理论方法。
申请公布号	CN104123272A	申请公布日期	2014.10.29
申请号	CN201410215035.7	申请日期	2014.05.21
申请人	山东省科学院情报研究所	发明人	赵燕清;魏墨济;朱世伟;于俊凤;李晨;蔡斌雷;王蕾;冯海洲;王爱萍
分类号	G06F17/27(2006.01)I;G06F17/30(2006.01)I	主分类号	G06F17/27(2006.01)I
代理机构	济南泉城专利商标事务所 37218	代理人	褚庆森
主权项	一种基于方差的文档分类方法，包括样本训练阶段和文档分类阶段，其特征在于，所述样本训练阶段通过以下步骤来实现：a).样本采集，从现有多类文档库中采集足够数量的、已明确类别的科技文献、小说和散文，作为训练样本；并获取样本的文本内容；b).分词并统计词频，首先采用现有的分词方法，对步骤a)中获取的文档样本进行分词处理；然后对每篇文档中每个词出现的次数进行统计，获取文档中词汇的词频，将词汇的词频作为文档的特征集合；c).词频量级归一化处理，为避免词频数量级不同对方差造成的影响，采用公式（1）对每篇文档中每个词汇的词频做归一化处理：<img file="2014102150357100001dest_path_image002.GIF" wi="116" he="49" />（1）其中，<img file="2014102150357100001dest_path_image004.GIF" wi="10" he="18" />表示样本文档的编号，其取值范围是：<img file="dest_path_image006.GIF" wi="165" he="24" />；<img file="dest_path_image008.GIF" wi="14" he="21" />表示第<img file="753338dest_path_image004.GIF" wi="10" he="18" />篇文本文档中词汇的编号，其取值范围是：<img file="dest_path_image010.GIF" wi="216" he="24" />；<img file="dest_path_image012.GIF" wi="25" he="26" />表示归一化前第<img file="732795dest_path_image004.GIF" wi="10" he="18" />篇文档中第<img file="512533dest_path_image008.GIF" wi="14" he="21" />个词汇的词频，<img file="dest_path_image014.GIF" wi="20" he="26" />表示归一化后第<img file="970059dest_path_image004.GIF" wi="10" he="18" />篇文档中第<img file="846748dest_path_image008.GIF" wi="14" he="21" />个词汇的词频；<img file="dest_path_image016.GIF" wi="37" he="25" />表示第<img file="731527dest_path_image004.GIF" wi="10" he="18" />篇文档中出现次数最多的词的词频，<img file="dest_path_image018.GIF" wi="36" he="25" />表示第<img file="63807dest_path_image004.GIF" wi="10" he="18" />篇文档中出现次数最少的词的词频；d).计算词频方差，按照公式（2）计算每篇文档词频的方差：<img file="dest_path_image020.GIF" wi="122" he="72" />（2）<img file="dest_path_image022.GIF" wi="22" he="26" />表示第<img file="325024dest_path_image004.GIF" wi="10" he="18" />篇样本文档中词汇词频的平均值，其通过公式（3）进行求取：<img file="dest_path_image024.GIF" wi="90" he="49" />（3）其中，<img file="56220dest_path_image004.GIF" wi="10" he="18" />表示样本文档的编号，<img file="111900dest_path_image008.GIF" wi="14" he="21" />表示第<img file="866230dest_path_image004.GIF" wi="10" he="18" />篇文本文档中词汇的编号，<img file="dest_path_image026.GIF" wi="17" he="25" />表示第<img file="665559dest_path_image004.GIF" wi="10" he="18" />篇文本文档中词汇的总量；<img file="dest_path_image028.GIF" wi="21" he="26" />表示第<img file="251261dest_path_image004.GIF" wi="10" he="18" />篇样本文档词汇词频的方差；e).归纳词频方差区间，根据步骤d)计算所有样本文档的方差，按照科技文献、小说、散文对这些文档的方差进行归类，统计每类文档方差的取值范围，归纳得到每类文档词频方差的取值区间；设归纳后的小说、科技文献、散文的词频方差区间分别为<img file="dest_path_image030.GIF" wi="41" he="24" />、<img file="dest_path_image032.GIF" wi="49" he="24" />、<img file="dest_path_image034.GIF" wi="54" he="24" />，将其作为文档分类标准；所述文档分类阶段通过以下步骤来实现：f).待分类文档的处理，获取待分类的电子文档，并按照步骤b)至步骤e)中的方法对待分类的文档进行处理，求取待分类电子文档的方差，记为<img file="dest_path_image036.GIF" wi="20" he="20" />;g).判断方差的落入区间，将步骤f)中求出的待分类文档的方差<img file="870985dest_path_image036.GIF" wi="20" he="20" />与科技文献、小说、散文的分类标准进行比较，判断<img file="112611dest_path_image036.GIF" wi="20" he="20" />落入方差区间<img file="dest_path_image038.GIF" wi="49" he="24" />、<img file="450051dest_path_image030.GIF" wi="41" he="24" />、<img file="93522dest_path_image034.GIF" wi="54" he="24" />中的哪一个；h).获取文档分类，如果<img file="491006dest_path_image036.GIF" wi="20" he="20" />落入区间<img file="219927dest_path_image038.GIF" wi="49" he="24" />，则表明该文档属于科技文献；如果<img file="361058dest_path_image036.GIF" wi="20" he="20" />落入区间<img file="859036dest_path_image030.GIF" wi="41" he="24" />，则表明该文档属于小说；如果<img file="693000dest_path_image036.GIF" wi="20" he="20" />落入区间<img file="643638dest_path_image038.GIF" wi="49" he="24" />，则表明该文档属于散文。
地址	250014 山东省济南市历下区科院路19号山东省科学院情报研究所