发明名称 | 基于云平台的消除近似重复网页方法 | ||
摘要 | 本发明公开一种基于云平台的消除近似重复网页的实现方法,该方法包括以下步骤:网页预处理,提取网页正文;在正文中提取特征项用于表征正文内容;计算特征项的指纹,对特征项进行压缩或降维处理以方便存储和检索;基于特征指纹计算相似度,判定原始网页是否近似。本发明具有能够极大程度地减少遗漏近似重复网页重复,能较好地支持多种网页结构下的相似度计算等优点。 | ||
申请公布号 | CN103559259A | 申请公布日期 | 2014.02.05 |
申请号 | CN201310537406.9 | 申请日期 | 2013.11.04 |
申请人 | 同济大学 | 发明人 | 向阳;陈佑雄;张依杨;平宇;张波;袁书寒 |
分类号 | G06F17/30(2006.01)I | 主分类号 | G06F17/30(2006.01)I |
代理机构 | 上海东亚专利商标代理有限公司 31208 | 代理人 | 陈树德;刘莹 |
主权项 | 一种基于云平台的消除近似重复网页方法,其特征在于:该方法包括以下步骤:⑴网页预处理,提取网页正文;⑵在正文中提取特征项用于表征正文内容;⑶计算特征项的指纹,对特征项进行压缩或降维处理以方便存储和检索;⑷基于特征指纹计算相似度,判定原始网页是否近似。 | ||
地址 | 200092 上海市杨浦区四平路1239号 |