发明名称 基于云平台的消除近似重复网页方法
摘要 本发明公开一种基于云平台的消除近似重复网页的实现方法,该方法包括以下步骤:网页预处理,提取网页正文;在正文中提取特征项用于表征正文内容;计算特征项的指纹,对特征项进行压缩或降维处理以方便存储和检索;基于特征指纹计算相似度,判定原始网页是否近似。本发明具有能够极大程度地减少遗漏近似重复网页重复,能较好地支持多种网页结构下的相似度计算等优点。
申请公布号 CN103559259A 申请公布日期 2014.02.05
申请号 CN201310537406.9 申请日期 2013.11.04
申请人 同济大学 发明人 向阳;陈佑雄;张依杨;平宇;张波;袁书寒
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 上海东亚专利商标代理有限公司 31208 代理人 陈树德;刘莹
主权项 一种基于云平台的消除近似重复网页方法,其特征在于:该方法包括以下步骤:⑴网页预处理,提取网页正文;⑵在正文中提取特征项用于表征正文内容;⑶计算特征项的指纹,对特征项进行压缩或降维处理以方便存储和检索;⑷基于特征指纹计算相似度,判定原始网页是否近似。
地址 200092 上海市杨浦区四平路1239号