发明名称 面向Web的VSM分类器训练、OSSP页面识别及OSS资源提取方法
摘要 本发明提供了面向Web的VSM分类器训练、OSSP页面识别及OSS资源提取方法。其中,VSM分类器训练方法包括:基于OSSP页面识别特征向量,用初始样本集训练VSM分类器;所述OSSP页面识别特征向量是:在软件版本控制管理关键词、邮件列表关键词、Bug跟踪关键词、开发者列表关键词、证书关键词、修改日志关键词、任务列表关键词,以及软件控制管理命令中选取其中7项或选择全部8项作为分量而组成的VSM分类器特征向量。OSSP页面识别方法则是根据所训练出的VSM分类器识别出Web页面是否为OSSP页面。OSS资源提取方法则是在所识别出的OSSP页面中查找OSS资源并将其下载到本地。本发明能够显著提高面向Web的OSSP页面识别的精确度;够提高OSS资源搜索和下载的完备性;能够更准确地获取OSS资源。
申请公布号 CN102541913A 申请公布日期 2012.07.04
申请号 CN201010609743.0 申请日期 2010.12.15
申请人 中国人民解放军国防科学技术大学 发明人 王怀民;朱沿旭;尹刚;袁霖;史殿;米海波;滕猛;刘惠;刘波
分类号 G06F17/30(2006.01)I;H04L29/08(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京泛华伟业知识产权代理有限公司 11280 代理人 王勇
主权项 一种面向Web的VSM分类器训练方法,包括:基于OSSP页面识别特征向量,用初始样本集训练VSM分类器;所述OSSP页面识别特征向量是:在软件版本控制管理关键词、邮件列表关键词、Bug跟踪关键词、开发者列表关键词、证书关键词、修改日志关键词、任务列表关键词,以及软件控制管理命令中选取其中7项或选择全部8项作为分量而组成的VSM分类器特征向量。
地址 410073 湖南省长沙市开福区德雅路109号国防科学技术大学