发明名称 基于中文标点符号的三重网页文本内容识别及过滤方法
摘要 一种基于中文标点符号的三重网页文本内容识别及过滤方法。该方法针对现有的基于URL、基于关键字的网页信息过滤方法中存在的滤准率和滤全率低的问题,提出了一种复合型的基于URL、基于关键字、以及基于文本向量空间知识表示方法的网页文本内容过滤方法。采用基于黑白名单的URL地址过滤方法;采用中文标点符号的统计特征来有效地去除导航信息、相关链接信息、广告链接信息、版权信息等网页内容噪声信息,提取文本内容;采用向量空间模型进行文本知识表示,通过计算文本向量与不良信息模版中特征向量间的夹角余弦,与设定的阈值相比较,确定文本所属类别。该发明可广泛地应用于网络不良信息的过滤及网页个性化信息服务领域。
申请公布号 CN101035128B 申请公布日期 2010.04.21
申请号 CN200710011057.1 申请日期 2007.04.18
申请人 大连理工大学 发明人 宋明秋;吴新涛
分类号 H04L29/06(2006.01)I;G06F17/30(2006.01)I;G06F17/27(2006.01)I;H04L12/24(2006.01)I 主分类号 H04L29/06(2006.01)I
代理机构 大连理工大学专利中心 21200 代理人 侯明远;李宝元
主权项 一种基于中文标点符号的三重网页文本内容识别及过滤方法,提供了一种基于URL地址、关键字和内容相结合的三重网页信息过滤系统体系结构,其特征在于,采用Winsock 2SPI函数直接在应用层截获HTTP数据包;采用基于中文标点符号统计值的通用中文网页噪声去除及正文获取方法;建立中文网页不良信息文本分类语料库,作为网页文本内容的样本训练模版;具体步骤如下:(1)当用户发出链接请求时,将请求URL地址与黑白名单中的地址列表相比较,并进行相应的处理;对于既不属于黑名单也不属于白名单的请求URL地址,标记为可疑请求;(2)截获可疑请求的响应,即服务器端返回的HTTP数据包;由于Winsock 2SPI在应用层进行截获,所以省去了在底层截获数据包时要进行数据包重组和协议解析的麻烦,效率高,CPU占用率低;(3)从截获的HTTP数据包中提取HTML文件,从中提取链接信息,并采用基于中文标点符号统计值的网页正文内容识别方法获取网页正文文本内容;(4)采用基于关键字的过滤方法,检查链接信息,如果为非合法链接,返回警告信息,否则转内容过滤模块;(5)建立中文网页不良信息文本分类语料库,作为网页文本内容的样本训练模版;对网页正文实施内容过滤,检查其合法性,对于合法的文本内容返回给用户,非法的文本内容直接屏蔽,并更新URL列表;所述的内容过滤是指对含有合法链接的可疑网页正文进行分词、去除停用词、计算权重和特征提取,之后表示成向量空间模型,并与训练好的特征向量相匹配,判断其内容是否合法。
地址 116024 辽宁省大连市甘井子区凌工路2号