发明名称 基于用户关注度的网络敏感信息监控系统及方法
摘要 本发明涉及一种基于用户关注度的网络敏感信息监控方法,包括以下步骤:获取用户提供的种子词;关键词扩展步骤;搜索步骤;标注步骤;学步骤;监控步骤;分析步骤。该基于用户关注度的网络敏感信息监控方法,首先获取用户提供的种子词并将其扩展得到正相关关键词和反相关关键词,其次搜索得到待标注网页,通过对网页进行分类挑选和标注,得到用户标注数据集,最后基于用户标注数据集,对用户的需求进行学,并得到用户的需求模型;经过过滤步骤和分析步骤得到聚类网页提供给用户,同时提供了一种基于用户关注度的网络敏感信息监控系统,解决了目前网络敏感信息监控系统及方法难以形成满足用户需要的网络敏感信息报告以供及时预警问题。
申请公布号 CN103853720B 申请公布日期 2017.04.26
申请号 CN201210496914.2 申请日期 2012.11.28
申请人 苏州信颐系统集成有限公司 发明人 朱利民;丁慧洁
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 广州华进联合专利商标代理有限公司 44224 代理人 何平
主权项 一种基于用户关注度的网络敏感信息监控方法,其特征在于,包括以下步骤:获取用户提供的种子词;关键词扩展步骤,将用户提供的种子词扩展为正相关关键词以及反相关关键词;搜索步骤,根据所述正相关关键词以及反相关关键词,基于互联网进行匹配搜索,得到待标注网页,待标注网页包括候选正例和候选反例,候选正例和候选反例分别由正相关关键词和反相关关键词搜索得到;网页挑选步骤,分析待标注网页,根据其内容将待标注网页分为两类,然后从每类网页中分别选出一个样本网页供用户标注,样本网页包含的网页数量由用户指定;标注步骤,集合用户对待标注网页标注后得到的正例和反例,得到用户标注数据集;评价步骤,采用SVM分类器训练法,将从候选正例和候选反例中选出的所有样本网页作为测试集,将所有非样本网页作为训练集,对待标注网页分类的准确性进行测试,得到分类的准确率,预先设定阈值,当分类的准确率达到阈值时,评价步骤完成,当分类的准确率未达到阈值时,返回网页挑选步骤,调整需要标注的正例和反例的数量,重复标注步骤和评价步骤,直至分类的准确率达到阈值,此时集合正例和反例得到用户标注数据集,其中,如果分类的准确率未达到阈值,进入下一轮评价步骤时,正例和反例在下一轮评价步骤中的数量根据如下计算方法调整:正例的数量=用户标注网页的总数*(当前反例的比例+当前分类错误中反例的比例)/2;反例的数量=用户标准网页的总数*(当前正例的比例+当前分类错误中正例的比例)/2;学习步骤,基于所述用户标注数据集,学习用户需求,得到用户的需求模型;监控步骤,依据所述用户的需求模型,对通过用户提供的种子词搜索得到的网页进行过滤,保留满足用户需求的网页;分析步骤,对所述满足用户需求的网页进行分析,按照网页所属类别进行聚类,形成满足用户需要的网络敏感信息报告。
地址 215001 江苏省苏州市姑苏区娄门路266号