一种基于文本分类和图像深度挖掘的科技情报获取与推送方法,申请号CN201410260379.X-传众专利搜索

发明名称	一种基于文本分类和图像深度挖掘的科技情报获取与推送方法
摘要	本发明公开了一种基于文本分类和图像深度挖掘的科技情报获取与推送方法，其特征在于：根据用户的定制，获取用户关注的科技领域的关键词，利用Python语言编写网络爬虫，通过HTTP协议获取网页中与用户关注的科技领域的关键词相关的论文、新闻、专利，利用支持向量机分类算法在Weka平台上对获取的网页科技情报内容进行分类，并使用分割线算法对科技情报内容文档中图像的信息进行提取并保存，最终通过微信公众号对获取的科技情报内容数据进行推送。
申请公布号	CN104035997A	申请公布日期	2014.09.10
申请号	CN201410260379.X	申请日期	2014.06.13
申请人	淮阴工学院	发明人	朱全银;严云洋;李翔;张永军;陈孚;尹永华;孙佩佩;黄丽民;费飞;周泓
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构		代理人
主权项	一种基于文本分类和图像深度挖掘的科技情报获取与推送方法，其特征在于：根据用户的定制，获取用户关注的科技领域的关键词，利用Python语言编写网络爬虫，通过HTTP协议获取网页中与用户关注的科技领域的关键词相关的论文、新闻、专利，利用支持向量机分类算法在Weka平台上对获取的网页科技情报内容进行分类，并使用分割线算法对科技情报内容文档中图像的信息进行提取并保存，最终通过微信公众号对获取的科技情报内容数据进行推送，具体包括以下步骤：步骤1、企业定制研究方向信息；步骤2、网络爬虫读取步骤1中企业定制的研究方向信息；步骤3、网络爬虫根据步骤2中读取的相关信息，基于广度优先搜索策略，使用HTTP协议访问互联网并获取网页信息；步骤4、读取步骤3中的网页信息文本，并将其转换成ARFF格式文件text.arff；步骤5、判断训练完成的支持向量机分类器模型SMO.model是否存在，存在执行步骤13，不存在执行步骤6；步骤6、读取训练集，并将其转换成ARFF格式的文件train.arff；步骤7、对文件train.arff进行预处理，包括：文本格式转换、分词、停用词去除；步骤8、将步骤7中预处理后的train.arff文件转换成行为文本名，列为特征词的向量空间模型，该模型表示特征词在每个文本中出现的频度，同时将转换过程中得到的词频和文档频度加入集合wordset中；步骤9、根据公式<img file="FSA0000105076110000011.GIF" wi="850" he="129" />计算集合wordset中每个特征词在每个分类中的卡方权重，并将该值赋给该词在该分类中的卡方统计量，其中χ<sup>2</sup>(t，c)表示特征词t在类别c中的卡方权重，N表示统计样本集中文档总数，A表示每个词的正文档出现频率、B表示负文档出现频率、C表示正文档不出现频率、D表示负文档不出现频率；步骤10、读取裁剪阈值，表示为threshold，threshold可以是比例，也可以是特定值；步骤11、阈值为全局，执行步骤12到步骤15，阈值为局部的，执行步骤16到步骤18；步骤12、阈值是比例类型，执行步骤13到步骤14，阈值是特定值类型，执行步骤15；步骤13、从wordset中获取每个特征词的最大值，得到集合W，将W中的值按从小到大的顺序排列得到W’；步骤14、根据公式pos＝len*threshold计算阈值的索引值，其中，len表示W’的长度，pos表示数组的索引值，并在W’中读取索引为pos的卡方值，即新的阈值threshold’；步骤15、遍历步骤9获得的集合wordset中所有特征词，特征词在所有分类中的权重最大值不大于threshold’，则将该特征词从集合wordset中移除，得到并保存新的特征词集word.arff，执行步骤19；步骤16、局部阈值是比例类型，执行步骤17，阈值是特定值类型，执行步骤18；步骤17、计算阈值threshold在每个类别中对应的阈值特定值，得到集合T，T表示每个分类特征裁剪的阈值；步骤18、遍历步骤9获得的wordset中所有特征词和集合T，特征词在所有分类的卡方值都不大于当前分类的阈值，则将特征词移除。步骤19、训练支持向量机分类器模型，训练数据为特征选择后的训练集；步骤20、保存步骤19所得的分类器模型；步骤21、对文件text.arff进行预处理，包括：文本格式转换、分词、停用词去除；步骤22、读取训练阶段保存的特征词集word.arff，并根据特征词集对待分类文本进行文本表示；步骤23、对执行步骤21后的文本进行分类，并返回类别标签C<sub>i</sub>；步骤24、获取文档图像；步骤25、判断文档图像的排版方式，文档图像的排版方式为单栏，执行步骤26；文档图像的排版方式为多栏，执行步骤27；步骤26、对文档进行图像提取，执行步骤28；步骤27、将文档分为宽度相等的左右两部分，左右两部分分开进行图像提取，执行步骤28；步骤28、横向扫描文档图像，将相邻的白色像素点连接起来，填充成黑色像素点，构成横向分割线，并记录分割线在图像中的位置；步骤29、遍历步骤28中记录的分割线，两条间隔的分割线间的间距小于设定的阀值240，将分割线间的像素点都填充为黑色；两条间隔的分割线间的间距大于设定的阀值240，记录两条分割线的位置；步骤30、遍历步骤29中记录的分割线对，从左边界纵向扫描分割线对间的区域，将相邻的白色像素点连接起来，填充成黑色像素点，直到扫描遇到黑色像素点或已扫描至右边界，则停止扫描，并记录分割线位置；步骤31、遍历步骤29中记录的分割线对，从右边界纵向扫描分割线对间的区域，将相邻的白色像素点连接起来，填充成黑色像素点，直到扫描到黑色像素点或已扫描至左边界则停止扫描，并记录分割线位置；步骤32、遍历步骤29、30、31中记录的分割线对，分割线对形成的区域即被视为文档中的图像区域，从文档中提取图像；步骤33、根据步骤23中获得的分类标签，将步骤32中的图片保存在获得的分类中；步骤34、通过HTTP协议连接微信服务器，获取登录token；步骤35、将步骤34中的token，以及步骤33中保存的图像及分类标签，转换成XML格式数据；步骤36、将步骤35中生成的XML，通过HTTP请求发送给微信服务器，完成科技情报的推送。
地址	223005 江苏省淮安市高教园区枚乘东路1号