一种基于主题的Web页面清洗方法,申请号CN201310378986.1-传众专利搜索

发明名称	一种基于主题的Web页面清洗方法
摘要	本发明属于计算机科学与技术领域，涉及一种基于主题的Web页面清洗方法，包括：确定主题领域；采集样本页面，并对样本页面的网页结构进行分析，确定页面元素树形结构；确定抽取内容标签边界；根据标签边界定义正则表达式匹配规则，利用多个抽取规则组成抽取规则模板；对待清洗页面进行清洗预处理，剔除容易分辨的“噪音”内容；利用已生成的抽取规则模板进行页面清洗，得到清洗后的页面。本发明直接在页面中抽取有用信息，大大降低了页面清洗的复杂度和困难度。针对Web页面标签的复杂多样性和局部固定性，采用正则表达式直接匹配和抽取需要的标签，保留有用信息并自动剔除掉无用信息，可有效地实现页面清洗的目的。
申请公布号	CN103440315A	申请公布日期	2013.12.11
申请号	CN201310378986.1	申请日期	2013.08.27
申请人	北京工业大学	发明人	沈琦;宋清明;张猛;汤艳
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	北京思海天达知识产权代理有限公司 11203	代理人	张慧
主权项	一种基于主题的Web页面清洗方法，其特征在于，直接在页面中抽取有用信息，针对Web页面标签的复杂多样性和局部固定性，采用正则表达式直接匹配和抽取需要的标签，保留有用信息并自动剔除掉无用信息；包括以下步骤：步骤一，确定主题领域：人工采集和选取多个样本页面进行分析，提取出关键词，由关键词确定页面内容的主题范围，最终确定主题领域；步骤二，采集样本页面，并对样本页面的网页结构进行分析，确定页面元素树形结构；步骤三，确定包含即将抽取的主题内容的抽取内容标签边界<ul>；步骤四，根据标签边界定义正则表达式匹配规则，利用多个抽取规则组成抽取规则模板；步骤五，对待清洗页面进行清洗预处理，剔除容易分辨的“噪音”内容；步骤六，利用已生成的抽取规则模板进行页面清洗，得到清洗后的页面。
地址	100124 北京市朝阳区平乐园100号