基于专家系统URL清洗知识库的“垃圾”内容过滤方法,申请号CN201410127394.7-传众专利搜索

发明名称	基于专家系统URL清洗知识库的“垃圾”内容过滤方法
摘要	基于专家系统URL清洗知识库的“垃圾”内容过滤方法，属于海量大数据清洗、数据顾虑领域。本发明采用人工智能专家系统的方法，通过“完全URL”、“含一级域名”、“不含一级域名”、“完整域名”和“不完整域名”等分类规则的推理，以及与其List下的“左侧”、“左右”、“包含”和“右侧”等分类知识的匹配；若数据清洗推理匹配成功，则对“URL清洗知识库”实时进行更新，将该访问记录页面从原始的“移动互联网访问记录”中清洗掉，即删除，数据清洗结束。若推理匹配失败，则数据清洗失败。对URL清洗知识库的更新，使系统变得越来聪明，不仅提高了清洗过滤的效率，更重要是提高了内容分类的覆盖面和准确程度。
申请公布号	CN103902707A	申请公布日期	2014.07.02
申请号	CN201410127394.7	申请日期	2014.03.31
申请人	辽宁四维科技发展有限公司	发明人	孙宏;赵晓波;季海东;董童霖;赵宇龙
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	沈阳杰克知识产权代理有限公司 21207	代理人	罗莹
主权项	基于专家系统URL清洗知识库的“垃圾”内容过滤方法，其特征在于，包括：（1）格式验证：完整性验证，即访问记录的核心字段是否包括用户ID，URL格式，访问时间，只要不包括其中一个字段，即为数据不完整，则清洗掉该条记录；一致性验证是验证用户ID、URL和访问时间格式是否规范，若不规范，则清洗掉该条记录；（2）“完全URL”垃圾清洗推理：从“URL清洗知识库”读取清洗知识，在完全URL特征的Hash散列表中，推理在原始的访问记录页面URL中是否存在“完全URL”为“垃圾”页面特征若存在，执行步骤（7）推理；若不存在，则进行步骤（3）推理；（3）“含一级域名”垃圾清洗推理；从原始URL中截取“一级域名”，构造为特征容器包装类TSDL，在“一级域名”特征的Hash散列表中，推理是否存在TSDL为“垃圾”页面的特征。若存在“一级域名”，则进行步骤（5）推理；若不存在，则执行步骤（4）推理；（4）“不含一级域名”垃圾清洗推理：若不存在“一级域名”，则获取不含一级域名“垃圾”页面特征知识的List，在List中包括后缀、左侧、左右和包含四类匹配知识，按照知识特征的置信度降幂顺序进行匹配推理；若匹配成功，则执行步骤（7）推理；若匹配失败，则数据清洗结束；（5）“完整域名”垃圾清洗推理：从原始URL中截取“完整域名”，构造为特征容器包装类DOMAIN，在完整域名特征的Hash散列表中，推理是否存在DOMAIN为“垃圾”页面的特征；若存在“完整域名”，则获取完整域名“垃圾”页面特征知识的List，在List中有右侧匹配知识和包含匹配知识，如果匹配成功，执行步骤（7）推理，如果匹配失败，执行步骤（6）推理；（6）“不完整域名”垃圾清洗推理：若在Hash散列表中不存在“完整域名”，则获取不完整域名“垃圾”特征的知识List，在List中包括左侧、左右和包含三类匹配知识，按照“不完整域名”知识特征的置信度降幂顺序进行匹配推理。若匹配成功，则执行步骤（7）推理。若匹配失败，则执行步骤（4）推理；（7）若清洗推理匹配成功，则对“URL清洗知识库”进行更新，同时在原始“移动互联网访问记录”中删除“垃圾”数据，数据清洗结束。
地址	110043 辽宁省沈阳市大东区大东路134号二门二层