发明名称 一种科技新闻的增量学多层次二分类方法
摘要 本发明公开了一种科技新闻的增量学多层次二分类方法,本发明利用新闻属性中的文章标题、文章内容、关键词,结合向量空间模型下的文本加权方法和文本间相似度计算方法,先对标记新闻文档集中的标记信息和全文信息进行预处理和特征加权,存储计算中间结果,之后从特征信息和全文文本两个层次,使用余弦相似度计算新文本与科技新闻分类和非科技新闻分类间的相似度,以此依据判定新文本的分类,多层次判断方法和增量学方法提高了对科技词汇的敏感度,二分类方法能够减少与科技新闻无关新闻的文本数量,进而提高文本多分类准确性。本发明用于改善从Web网页中抽取新闻信息的使用价值,提高科技新闻的分类准确率。
申请公布号 CN105205163A 申请公布日期 2015.12.30
申请号 CN201510642902.X 申请日期 2015.10.08
申请人 淮阴工学院 发明人 朱全银;潘禄;刘文儒;李翔;周泓;胡荣林;丁瑾;金鹰;邵武杰;唐海波
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 一种科技新闻的增量学习多层次二分类方法,其特征在于,利用新闻属性中的文章标题、文章内容、关键词,结合向量空间模型下的文本加权方法和文本间相似度计算方法,先对标记新闻文档集中的标记信息和全文信息进行预处理和特征加权,存储计算中间结果,之后从特征信息和全文文本两个层次,使用余弦相似度计算新文本与科技新闻分类和非科技新闻分类间的相似度,以此依据判定新文本的分类,多层次判断方法和增量学习方法提高了对科技词汇的敏感度,二分类方法能够减少与科技新闻无关新闻的文本数量,进而提高文本多分类准确性;包括模型初始化训练流程步骤A和新文本处理流程步骤B:模型初始化训练流程步骤A从步骤A1到步骤A14:步骤A1、从Web网页上收集的新闻文本作为训练集,设训练集为<img file="683409dest_path_image001.GIF" wi="268" he="28" />,<img file="522052dest_path_image002.GIF" wi="300" he="19" />由<i>title</i>、<i>keys</i>、<i>content</i>三维组成,<i>title</i>表示新闻标题,<i>keys</i>表示新闻关键词,<i>content</i>表示新闻内容;步骤A2、设参与模型训练总文本数<i>H</i>、科技新闻文本数<i>M</i>、非科技新闻文本数<i>N</i>,其中<i>H</i>=<i>M</i>+<i>N</i>;人工对训练集中文本进行评价,将训练集分为科技新闻<img file="412647dest_path_image003.GIF" wi="417" he="28" />和非科技新闻<img file="429276dest_path_image004.GIF" wi="432" he="28" />两类,其中<img file="506953dest_path_image005.GIF" wi="298" he="19" />;并统计相似度阈值<i>T</i>,阈值<i>T</i>的统计方法是随机从科技新闻中抽取一定量的新闻,根据特征信息中特征词汇的占比确定,特征信息是指新闻标题和关键词的组合;步骤A3、设中文分词词典为<img file="680446dest_path_image006.GIF" wi="316" he="19" />、停用词表<img file="159969dest_path_image007.GIF" wi="290" he="19" />,停用词表由网上下载的停用词表和新闻库统计词项共同组成;设模型特征信息科技新闻词频集<i>DFYT</i>、模型特征信息非科技新闻词频集<i>DFNT</i>、模型特征信息词文档数集<i>WCT</i>;设模型全文文本词文档数集<i>WCA</i>、模型全文文本科技新闻词频集<i>DFYA</i>、模型全文文本非科技新闻词频集<i>DFNA</i>、模型全文文本非科技新闻局部系数<i>SLNA</i>和模型全文文本权重<i>SLGNA</i>、模型全文文本科技新闻局部系数<i>SLYA</i>和模型全文文本权重<i>SLGYA</i>、模型全文文本全局系数<i>SGA</i>;步骤A4、设循环变量<i>i</i>,取步骤A1的<i>DSET</i>中元素<img file="127925dest_path_image008.GIF" wi="56" he="15" />,其中<i>i</i>&lt;=<i>df</i>;步骤A5、设步骤A4的<i>DSET<sub>i</sub></i>的特征信息分词集<img file="224057dest_path_image009.GIF" wi="41" he="22" />、<i>DSET<sub>i</sub></i>的全文文本分词集<img file="404502dest_path_image010.GIF" wi="41" he="22" />、<i>DSET<sub>i</sub></i>的特征信息词出现文档数<i>WCTS</i>和<i>DSET<sub>i</sub></i>的全文文本词出现文档数<i>WCAS</i>;利用分词软件对步骤A2的<i>DSET<sub>i</sub></i>的特征信息和全文文本进行分词和停用词处理,软件所用分词词典是步骤A3的分词词典<i>Words</i>、停用词表是步骤A3停用词表<i>stopwords</i>,特征信息是由<i>DSET<sub>i</sub></i>中元素标题<i>title</i>和关键词<i>keys</i>组成的字符串,全文文本是在特征信息基础上加上内容<i>content</i>组成的字符串,得到<i>DSET<sub>i</sub></i>的特征信息分词结果<img file="269690dest_path_image011.GIF" wi="308" he="27" />和<i>DSET<sub>i</sub></i>的全文文本分词结果<img file="408547dest_path_image012.GIF" wi="315" he="28" />;步骤A6、对步骤A5中分词结果<i>DSET<sub>i</sub></i>的特征信息分词集<img file="710084dest_path_image009.GIF" wi="41" he="22" />和<i>DSET<sub>i</sub></i>的全文文本分词集<img file="959800dest_path_image010.GIF" wi="41" he="22" />分别进行词频统计和去重,得到步骤A5中<i>DSET<sub>i</sub></i>的特征信息词频统计结果<img file="413915dest_path_image013.GIF" wi="388" he="24" />、<i>DSET<sub>i</sub></i>的全文文本词频统计结果<img file="723674dest_path_image014.GIF" wi="389" he="24" />、<i>DSET<sub>i</sub></i>的特征信息去重结果集<img file="263240dest_path_image015.GIF" wi="447" he="20" />和<i>DSET<sub>i</sub></i>的全文文本去重结果集<img file="316646dest_path_image016.GIF" wi="460" he="19" />;步骤A7、根据步骤A6的<i>DSET<sub>i</sub></i>特征信息去重集<i>WCTS</i>和<i>DSET<sub>i</sub></i>的全文文本去重集<i>WCAS</i>统计步骤A3中训练集<i>DSET</i>的模型特征信息词出现文档数集<i>WCT</i>和训练集<i>DSET</i>的全文文本词出现文档数集<i>WCA</i>,具体做法为如果去重集中词项出现在词出现档次数集中,则词项出现文档次数集中该词项值+1,否则,添加为新词项,值为1,得到训练集<i>DSET</i>的特征信息词出现文档数集<img file="156426dest_path_image017.GIF" wi="413" he="24" />和训练集<i>DSET</i>的全文文本词出现文档数集<img file="105928dest_path_image018.GIF" wi="415" he="24" />;步骤A8、如果步骤A4中文本<i>DSET<sub>i</sub></i>在步骤A2人工评价中被分类为非科技新闻的类别,则将步骤A6的<i>DSET<sub>i</sub></i>的特征信息词频集<i>DFTS</i>和<i>DSET<sub>i</sub></i>的全文文本词频集<i>DFAS</i>合并到科技新闻分类词频集上,统计步骤A3中训练集<i>DSET</i>的模型科技新闻分类特征信息词频<img file="398369dest_path_image019.GIF" wi="216" he="13" />和训练集<i>DSET</i>的模型全文文本词频<img file="472111dest_path_image020.GIF" wi="217" he="13" />;否则,步骤A6的<i>DSET<sub>i</sub></i>的特征信息词频集<i>DFTS</i>和<i>DSET<sub>i</sub></i>的全文文本词频集<i>DFAS</i>合并到非科技新闻分类词频集上,统计步骤A3中训练集<i>DSET</i>的非科技新闻特征信息词频集<img file="166397dest_path_image021.GIF" wi="212" he="13" />和训练集<i>DSET</i>的全文文本词频<img file="224483dest_path_image022.GIF" wi="213" he="13" />;步骤A9、若步骤A4中循环变量<i>i</i>小于步骤A2中科技新闻数<i>M</i>和非科技新闻数<i>N</i>的和,满足<i>i</i>&lt;=<i>M</i>+<i>N</i>,表示文本集<i>DSET</i>未遍历完,使循环变量<i>i</i>自增1,使<i>i</i>=<i>i</i>+1,跳转步骤A4,否则,执行步骤A10;步骤A10、遍历步骤A1的训练集<i>DSET</i>中每一个元素得到模型中间结果,得到步骤A3的模型非科技新闻特征信息词频集<img file="269800dest_path_image023.GIF" wi="506" he="19" />、训练集<i>DSET</i>的模型全文文本词频集<img file="665009dest_path_image024.GIF" wi="481" he="19" />、训练集<i>DSET</i>的模型科技新闻特征信息词频集<img file="931911dest_path_image025.GIF" wi="500" he="19" />、训练集<i>DSET</i>的模型全文文本词频集<img file="488794dest_path_image026.GIF" wi="488" he="20" />、训练集<i>DSET</i>的模型特征信息词出现文档数<img file="755827dest_path_image027.GIF" wi="477" he="20" />和训练集<i>DSET</i>的模型全文文本词出现文档数<img file="954728dest_path_image028.GIF" wi="495" he="19" />;步骤A11、根据局部系数计算公式<img file="826869dest_path_image029.GIF" wi="200" he="67" />和步骤A10中数据集<i>DSET</i>的模型全文文本非科技新闻集<i>DFNT</i>、训练集<i>DSET</i>的模型全文文本科技新闻集<i>DFYA</i>计算步骤A3中训练集<i>DSET</i>的模型全文文本非科技新闻局部系数集<img file="85812dest_path_image030.GIF" wi="410" he="20" />和训练集<i>DSET</i>的模型全文文本科技新闻局部系数集<img file="308983dest_path_image031.GIF" wi="407" he="19" />;步骤A12、根据全局系数计算公式<img file="45995dest_path_image032.GIF" wi="155" he="57" />和步骤A10中数据集<i>DSET</i>的模型全文文本词出现文档数<i>WCA</i>计算步骤A3中模型全文文本全局系数<img file="569380dest_path_image033.GIF" wi="414" he="19" />;步骤A13、根据步骤A11中数据集<i>DSET</i>的全文文本局部系数集<i>SLNA</i>和步骤A12数据集<i>DSET</i>的模型全文文本全局系数集<i>SGA</i>计算步骤A3的数据集<i>DSET</i>的模型全文文本非科技新闻权重<i>SLGNA</i>和数据集<i>DSET</i>的模型全文文本科技新闻权重<i>SLGYA</i>,对应特征词局部系数和全局系数的乘积为该特征词的权重,得到数据集<i>DSET</i>的模型全文文本科技新闻分类权重<img file="218798dest_path_image034.GIF" wi="464" he="19" />和数据集<i>DSET</i>的模型非科技新闻分类权重<img file="194844dest_path_image035.GIF" wi="467" he="20" />;步骤A14、存储模型训练生成的参数,存储A10中数据集<i>DSET</i>的模型非科技新闻特征信息词频集<img file="735547dest_path_image036.GIF" wi="432" he="19" />、数据集<i>DSET</i>的模型全文文本词频集<img file="847860dest_path_image037.GIF" wi="418" he="19" />,步骤A11中数据集<i>DSET</i>的模型非科技新闻全文文本局部系数<img file="183026dest_path_image031.GIF" wi="407" he="19" />,步骤A13中数据集<i>DSET</i>的模型非科技新闻全文文本权重<img file="380789dest_path_image034.GIF" wi="464" he="19" />;步骤A10数据集<i>DSET</i>的模型科技新闻特征信息词频集<img file="928445dest_path_image038.GIF" wi="428" he="19" />、数据集<i>DSET</i>的模型全文文本词频集<img file="426423dest_path_image039.GIF" wi="421" he="20" />,步骤A11数据集<i>DSET</i>的模型科技新闻全文文本局部系数<img file="650599dest_path_image030.GIF" wi="410" he="20" />,步骤A13中数据集<i>DSET</i>的模型科技新闻全文文本权重<img file="866817dest_path_image035.GIF" wi="467" he="20" />;步骤A10中数据集<i>DSET</i>的模型特征信息词出现文档数和全文文本词出现文档数<img file="218164dest_path_image040.GIF" wi="411" he="20" />;步骤A3中分词词典<img file="570648dest_path_image041.GIF" wi="252" he="19" />和停用词表<img file="982038dest_path_image042.GIF" wi="226" he="19" />;步骤A12中数据集<i>DSET</i>的模型全文文本全局系数<img file="419972dest_path_image033.GIF" wi="414" he="19" />;步骤A2中阈值<i>T</i>,科技新闻数<i>M</i>,非科技新闻数<i>N</i>,训练文本数<i>H</i>;新文本处理流程步骤B从步骤B1到步骤B25:步骤B1、从Web网页上收集一篇新闻文本,设新文本<img file="309431dest_path_image043.GIF" wi="239" he="27" />,<img file="782000dest_path_image044.GIF" wi="30" he="22" />包括三维:<i>stitle</i>是新闻标题,<i>skeys</i>是新闻关键词,<i>scontent</i>表示新闻内容;步骤B2、载入模型参数(S1),载入步骤A14存储模型参数中的非科技新闻特征信息词频集<i>DFNT</i>、全文文本词频集<i>DFNA</i>、全文文本局部系数<i>SLNA</i>、全文文本全局系数<i>SLGNA</i>;载入步骤A14存储模型参数中的科技新闻特征信息词频集<i>DFYT</i>、模型全文文本词频集<i>DFYA</i>、模型全文文本局部系数<i>SLYA</i>、模型全文文本全局系数<i>SLGYA</i>;载入步骤A14存储模型参数中的模型特征信息词出现文档数集<i>WCT</i>、模型全文文本词出现文档数集<i>WCA</i>、分词词典<i>Words</i>、停用词表<i>stopwords</i><i>、</i>模型全文文本全局系数<i>SGA</i><i>、</i>相似度阈值<i>T</i><i>、</i>模型训练文本数<i>H</i><i>、</i>库中科技新闻文本数<i>M</i>和非科技新闻文本数<i>N</i>;步骤B3、设步骤B1的新文本<img file="629871dest_path_image044.GIF" wi="30" he="22" />的特征信息分词结果集<img file="771746dest_path_image045.GIF" wi="62" he="22" />、新文本<img file="996054dest_path_image044.GIF" wi="30" he="22" />的全文文本分词结果集<img file="791971dest_path_image046.GIF" wi="62" he="22" />、新文本<img file="76322dest_path_image044.GIF" wi="30" he="22" />的特征信息词频集<i>DRFT</i>、新文本<img file="488849dest_path_image044.GIF" wi="30" he="22" />的全文文本词频集<i>DRFA</i>、新文本<img file="720110dest_path_image044.GIF" wi="30" he="22" />的特征信息局部系数<i>DRLT</i>、新文本<img file="901693dest_path_image044.GIF" wi="30" he="22" />的特征信息全局系数<i>DRGT</i>、新文本<img file="356945dest_path_image044.GIF" wi="30" he="22" />的特征信息权重<i>DRLGT</i>、新文本<img file="725609dest_path_image044.GIF" wi="30" he="22" />的特征信息局部系数<i>DRLA</i>、新文本<img file="291720dest_path_image044.GIF" wi="30" he="22" />的特征信息全局系数<i>DRGA</i>、新文本<img file="327809dest_path_image044.GIF" wi="30" he="22" />的特征信息权重<i>DRLGA</i>;设模型特征信息科技新闻局部系数<i>SLYT</i>和权重<i>SLGYT</i>、非科技新闻局部系数集<i>SLNT</i>和权重<i>SLGNT</i>、全局系数集<i>SGT</i>;设新文本<img file="672072dest_path_image044.GIF" wi="30" he="22" />模型科技新闻分类特征信息相似度<i>SIMYT</i>和科技新闻分类全文文本相似度<i>SIMYA</i>;新文本<img file="59191dest_path_image044.GIF" wi="30" he="22" />模型非科技新闻分类特征信息相似度<i>SIMNT</i>和科技新闻分类全文文本相似度<i>SIMNA</i>;设新文本<img file="163413dest_path_image044.GIF" wi="30" he="22" />全文文本去重结果集<i>WCAH</i>和特征信息去重结果集<i>WCTH</i>;步骤B4、根据载入的步骤A14存储模型参数中的分词词典<i>Words</i>和停用词表<i>stopwords</i>对步骤B1的新文本<img file="319588dest_path_image044.GIF" wi="30" he="22" />的特征信息和全文文本进行分词处理,特征信息指步骤B1的新闻标题<i>stitle</i>和新闻关键词<i>skeys</i>的并集,全文文本是指步骤B1的新闻标题<i>stitle</i>、新闻关键词<i>skeys</i>和新闻内容<i>scontent</i>的并集,计算结果得到步骤B3的新文本<img file="585484dest_path_image044.GIF" wi="30" he="22" />的特征信息分词集<img file="194320dest_path_image047.GIF" wi="371" he="27" />和新文本<img file="367812dest_path_image044.GIF" wi="30" he="22" />的全文文本分词集<img file="847335dest_path_image048.GIF" wi="383" he="27" />;步骤B5、对步骤B4的新文本<img file="815291dest_path_image044.GIF" wi="30" he="22" />分词结果特征信息分词集<img file="599839dest_path_image045.GIF" wi="62" he="22" />和新文本<img file="514705dest_path_image044.GIF" wi="30" he="22" />的全文文本分词集<img file="645472dest_path_image046.GIF" wi="62" he="22" />进行词频统计,得到步骤B3的新文本<img file="784329dest_path_image044.GIF" wi="30" he="22" />特征信息词频统计结果<img file="836599dest_path_image049.GIF" wi="488" he="20" />和新文本<img file="86315dest_path_image044.GIF" wi="30" he="22" />全文文本词频统计结果<img file="71588dest_path_image050.GIF" wi="512" he="20" />;步骤B6、判断步骤B5的新文本<img file="850188dest_path_image044.GIF" wi="30" he="22" />特征信息词频集<i>DRFT</i>中词项是否都存在于载入步骤A14存储模型参数中的科技新闻分类词频<i>DFYT</i>和载入步骤A14存储模型参数中的非科技新闻分类词频<i>DFNT</i>中,具体做法是遍历特征信息词频集中每一个词项是否存在与分类词频中,若两个分类词频集中都至少有一个词存在于特征信息词频集中,则执行步骤B7;否则,执行步骤B15;步骤B7、根据局部系数计算公式<img file="920913dest_path_image029.GIF" wi="200" he="67" />和步骤B5的新文本<img file="974319dest_path_image044.GIF" wi="30" he="22" />特征信息词频集<i>DRFT</i>计算步骤B3的新文本<img file="532208dest_path_image044.GIF" wi="30" he="22" />特征信息局部系数<img file="12868dest_path_image051.GIF" wi="408" he="20" />;步骤B8、根据全局系数计算公式<img file="305309dest_path_image029.GIF" wi="200" he="67" />和载入的步骤A14存储模型参数中的模型非科技新闻词频集<i>DFNT</i>、载入的步骤A14存储模型参数中的模型科技新闻词频集<i>DFYT</i>,计算步骤B3的模型特征信息非科技新闻局部系数<img file="631248dest_path_image052.GIF" wi="422" he="19" />、模型科技新闻局部系数集<img file="325535dest_path_image053.GIF" wi="418" he="19" />;步骤B9、根据全局系数计算公式<img file="977096dest_path_image032.GIF" wi="155" he="57" />和载入的步骤A14存储模型参数中的特征信息词出现文档数集<i>WCT</i>,计算步骤B3的模型特征信息全局系数<img file="960096dest_path_image054.GIF" wi="403" he="20" />;步骤B10、根据步骤B8的模型非科技新闻分类局部系数<i>SLNT</i>、模型科技新闻分类局部系数<i>SLYT</i>和步骤B9的模型全局系数<i>SGT</i>,计算步骤B3的模型权重,具体做法是词项的权重是全局系数与局部系数的乘积,得到步骤B3的模型非科技新闻特征信息权重<img file="355305dest_path_image055.GIF" wi="478" he="19" />、科技新闻特征信息权重<img file="904098dest_path_image056.GIF" wi="474" he="19" />;步骤B11、根据步骤B7的新文本<img file="220503dest_path_image044.GIF" wi="30" he="22" />特征信息局部系数<i>DRLT</i>和步骤B8的模型全局系数<i>SGT</i>计算步骤B3的特征信息权重<img file="487536dest_path_image057.GIF" wi="464" he="20" />;步骤B12、根据步骤B11的新文本<img file="420857dest_path_image044.GIF" wi="30" he="22" />特征信息权重<i>DRLGT</i>及步骤B10的模型特征信息非科技新闻权重<i>SLGNT</i>和模型特征信息科技新闻权重<i>SLGYT</i>计算步骤B3的模型特征信息非科技新闻相似度<img file="558577dest_path_image058.GIF" wi="287" he="18" />和新文本<img file="817520dest_path_image044.GIF" wi="30" he="22" />模型科技新闻相似度<img file="306270dest_path_image059.GIF" wi="283" he="18" />,其中计算相似度公式为余弦相似度;步骤B13、如果步骤B12的新文本<img file="777703dest_path_image044.GIF" wi="30" he="22" />中特征信息分类相似度<i>SIMNT</i>和<i>SIMYT</i>至少存在一项大于载入的步骤A14存储模型参数中的阈值<i>T</i>,满足条件<img file="301088dest_path_image060.GIF" wi="250" he="19" />,则执行步骤B14,否则跳转步骤B15;步骤B14、步骤B12新文本<img file="465353dest_path_image044.GIF" wi="30" he="22" />模型非科技新闻分类相似度<i>SIMNT</i>大于新文本<img file="175820dest_path_image044.GIF" wi="30" he="22" />模型科技新闻分类相似度<i>SIMYT</i>,即<img file="716523dest_path_image061.GIF" wi="162" he="12" />,标记步骤B1中新文本<img file="94415dest_path_image044.GIF" wi="30" he="22" />为非科技新闻分类,否则,标记步骤B1中新文本<img file="413270dest_path_image044.GIF" wi="30" he="22" />为科技新闻分类;步骤B15、根据公式<img file="876612dest_path_image029.GIF" wi="200" he="67" />和步骤B4的新文本<img file="221006dest_path_image044.GIF" wi="30" he="22" />全文文本词频集<i>DRFA</i>计算步骤B3的新文本<img file="187825dest_path_image044.GIF" wi="30" he="22" />全文文本局部系数<img file="693892dest_path_image062.GIF" wi="415" he="20" />;步骤B16、根据步骤B15的新文本<img file="910110dest_path_image044.GIF" wi="30" he="22" />全文文本局部系数<i>DRLA</i>和步骤A14存储模型参数中的全局系数<i>SGA</i>计算步骤B3的新文本<img file="261457dest_path_image044.GIF" wi="30" he="22" />特征全文文本权重<img file="613941dest_path_image063.GIF" wi="472" he="20" />;步骤B17、根据步骤B16的<img file="290910dest_path_image044.GIF" wi="30" he="22" />全文文本权重<i>DRLGA</i>以及载入的步骤A14存储模型参数中的模型全文文本非科技新闻分类权重<i>SLGNA</i>和模型科技新闻分类权重<i>SLGYA</i>,计算步骤B3的新文本<img file="197686dest_path_image044.GIF" wi="30" he="22" />全文文本非科技新闻相似度<img file="883882dest_path_image064.GIF" wi="289" he="18" />和新文本<img file="90873dest_path_image044.GIF" wi="30" he="22" />科技新闻相似度<img file="423896dest_path_image065.GIF" wi="285" he="18" />,其中计算相似度公式为余弦相似度;步骤B18、如果步骤B17中新文本<img file="349127dest_path_image044.GIF" wi="30" he="22" />全文文本非科技新闻分类相似度大于新文本全文文本科技新闻分类相似度,满足<img file="42276dest_path_image066.GIF" wi="162" he="12" />,标记步骤B1的新文本<img file="369353dest_path_image044.GIF" wi="30" he="22" />为非科技新闻分类;否则,标记步骤B1的新文本<img file="653703dest_path_image044.GIF" wi="30" he="22" />为科技新闻分类;步骤B19、对步骤B4的新文本<img file="269492dest_path_image044.GIF" wi="30" he="22" />分词结果特征信息词频集<img file="297491dest_path_image045.GIF" wi="62" he="22" />、新文本<img file="479074dest_path_image044.GIF" wi="30" he="22" />全文文本词频集<img file="934326dest_path_image046.GIF" wi="62" he="22" />去重操作,计算结果为步骤B3的新文本<img file="302990dest_path_image044.GIF" wi="30" he="22" />特征信息去重结果<img file="869101dest_path_image067.GIF" wi="470" he="19" />和新文本<img file="905190dest_path_image044.GIF" wi="30" he="22" />全文文本去重结果<img file="249453dest_path_image068.GIF" wi="476" he="20" />;步骤B20、如果步骤B1的新文本<img file="370992dest_path_image044.GIF" wi="30" he="22" />标记为科技新闻,合并步骤B5的新文本<img file="209635dest_path_image044.GIF" wi="30" he="22" />特征信息词频集<i>DRFT</i>和全文文本词频集<i>DRFA</i>到载入的步骤A14存储模型参数中的科技新闻特征信息词频集<i>DFYT</i>、全文文本词频集<i>DFYA</i>,得到合并后结果为载入的步骤A14存储模型参数中的模型科技新闻特征信息词频集<img file="365810dest_path_image069.GIF" wi="214" he="13" />和全文文本词频集<img file="162865dest_path_image070.GIF" wi="215" he="13" />,载入的步骤A14存储模型参数中的科技新闻文本数自增1,<i>M</i>=<i>M</i>+1;否则,合并步骤B5的新文本<img file="240542dest_path_image044.GIF" wi="30" he="22" />特征信息词频集<i>DRFT</i>和全文文本词频集<i>DRFA</i>到载入的步骤A14存储模型参数中的模型非科技新闻特征信息词频集<i>DFNT</i>、全文文本词频集<i>DFNA</i>,得到合并后结果为步骤B2中载入模型参数的科技新闻特征信息词频集<img file="148456dest_path_image071.GIF" wi="218" he="13" />和全文文本词频集<img file="159137dest_path_image072.GIF" wi="219" he="13" />,载入的步骤A14存储模型参数中的非科技新闻文本数自增1,<i>N</i>=<i>N</i>+1;步骤B21、更新载入的步骤A14存储模型参数中的特征信息词文档出现集<img file="595935dest_path_image073.GIF" wi="200" he="13" />和载入的步骤A14存储模型参数中的全文文本词文档出现集<img file="692066dest_path_image074.GIF" wi="201" he="13" />;步骤B22、当库中新增加的文本数量达到训练样本数1%时,满足载入的步骤A14存储模型参数中的非科技新闻文本数<i>N</i>与科技新闻数<i>M</i>比模型训练总数<i>H</i>多1%时,也就是((<i>M</i>+<i>N</i>‑<i>H</i>)/<i>H</i>)&gt;0.01时,模型部分训练,执行步骤B23;否则,跳转步骤B25;步骤B23、得到更新后的模型参数,载入的步骤A14存储模型参数中非科技新闻特征信息词频集更新为步骤B20的非科技新闻特征信息词频集<img file="403671dest_path_image075.GIF" wi="535" he="19" />和载入的步骤A14存储模型参数中非科技新闻全文文本词频集更新为步骤B20的非科技新闻全文文本词频集<img file="751082dest_path_image076.GIF" wi="525" he="20" />;载入的步骤A14存储模型参数中科技新闻特征信息词频集更新为步骤B20的科技新闻特征信息词频集<img file="889939dest_path_image077.GIF" wi="514" he="19" />和载入的步骤A14存储模型参数中科技新闻全文文本词频集更新为步骤B20的科技新闻全文文本词频集<img file="207788dest_path_image078.GIF" wi="512" he="20" />;载入的步骤A14存储模型参数中特征信息词出现文档数集更新为步骤B21的特征信息词出现文档数集<img file="191925dest_path_image079.GIF" wi="499" he="19" />和载入的步骤A14存储模型参数中全文文本词出现文档数集更新为步骤B21的全文文本词出现文档数<img file="177198dest_path_image080.GIF" wi="505" he="19" />;步骤B24、根据步骤B23的全文文本科技新闻词频集<i>DFYA</i>和非科技新闻词频集<i>DFNA</i>重新计算载入的步骤A14存储模型参数中的全文文本科技新闻分类局部系数<img file="486957dest_path_image081.GIF" wi="412" he="20" />和非科技新闻分类局部系数<img file="760943dest_path_image082.GIF" wi="423" he="20" />;重新计算载入的步骤A14存储模型参数中的全文文本全局系数<img file="814350dest_path_image083.GIF" wi="403" he="19" />;重新计算载入的步骤A14存储模型参数中的全文文本科技新闻分类权重<img file="122971dest_path_image084.GIF" wi="469" he="20" />和非科技新闻分类权重<img file="603631dest_path_image085.GIF" wi="480" he="20" />;重新计算载入的步骤A14存储模型参数中的模型训练文本数<i>H</i>=<i>M</i>+<i>N</i>;步骤B25、增量存储载入的步骤A14存储模型参数中的模型参数<i>DFNT</i>、<i>DFYT</i>、<i>DFNA</i>、<i>DFYA</i>、<i>WCT</i>、<i>WCA</i>、<i>SLNA</i>、<i>SLYA</i>、<i>SLGNA</i>、<i>SLGYA</i>、<i>Words</i>、<i>stopwords</i><i>、SGA</i><i>、T</i><i>、H</i><i>、M</i><i>、N</i>,载入的步骤A14存储模型参数中的模型参数经过步骤B1到步骤B25,如果存在模型参数中值发生改变,则重新存储对应的模型参数,流程结束。
地址 223005 江苏省淮安市高教园区枚乘东路1号