发明名称 一种基于IDC有害信息监测系统的样本训练系统
摘要 本发明公开了一种基于IDC有害信息监测系统的样本训练系统,爬虫样本训练单元中,主题相关度计算模块将爬虫系统抓取的网页信息结合爬虫样本数据库计算网页的主题相关度,并根据该主题相关度调整URL队列,过滤掉低于预设阈值的URL,并把计算得到的主题相关度值反馈给爬虫样本训练模块,爬虫样本训练模块进行训练学后,更新爬虫样本数据库;有害监测样本训练单元中,关键字近似词汇训练模块,有害信息监测系统根据近似匹配算法所生成的与输入字符串相关的近似词汇进行有害检测,关键字近似词汇训练模块根据搜索结果拟合度计算模块来确定搜索结果的准确性,判断近似词汇的相似度,并将有效的近似词汇更新到有害监测样本数据库中。
申请公布号 CN104899324A 申请公布日期 2015.09.09
申请号 CN201510343176.1 申请日期 2015.06.19
申请人 成都国腾实业集团有限公司 发明人 彭光辉;屈立笳;陶磊;苏礼刚;林伟
分类号 G06F17/30(2006.01)I;G06K9/66(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 成都金英专利代理事务所(普通合伙) 51218 代理人 袁英
主权项 一种基于IDC有害信息监测系统的样本训练系统,它包括爬虫系统和有害信息监测系统,有害信息监测系统通过爬虫系统获取互联网数据中心中的网页数据,并对其进行有害分析,其特征在于:所述样本训练系统包括设置在爬虫系统中的爬虫样本训练单元和设置在有害信息监测系统中的有害监测样本训练单元;所述爬虫样本训练单元包括爬虫样本训练模块、爬虫样本数据库和主题相关度计算模块,主题相关度计算模块将爬虫系统抓取的网页信息结合爬虫样本数据库计算网页的主题相关度,并根据该主题相关度调整URL队列,过滤掉低于预设阈值的URL,并把计算得到的主题相关度值反馈给爬虫样本训练模块,爬虫样本训练模块进行训练学习后,更新爬虫样本数据库;所述有害监测样本训练单元包括关键字近似词汇训练模块、搜索结果拟合度计算模块和有害监测样本数据库;关键字近似词汇训练模块,有害信息监测系统根据近似匹配算法所生成的与输入字符串相关的近似词汇进行有害检测,关键字近似词汇训练模块根据搜索结果拟合度计算模块来确定搜索结果的准确性,判断近似词汇的相似度,并将有效的近似词汇更新到有害监测样本数据库中。
地址 610041 四川省成都市高新技术开发区西部园区西芯大道3号