发明名称 |
一种站内信息的筛选方法和装置 |
摘要 |
本发明公开了一种站内信息的筛选方法和装置,通过文本挖掘的技术手段,筛选出站内信息之间类别属性和差异属性,利用同类站内信息匹配度的识别算法,将具有较高匹配度的同类站内信息筛选出来,通过差异属性对同类站内信息进行对比。本发明能够筛选到更精确的相关站内信息,降低了网页客户端与网站服务器之间交互的接口压力,而且方便用户对查询到的相关站内信息进行对比。 |
申请公布号 |
CN102722567B |
申请公布日期 |
2016.08.03 |
申请号 |
CN201210179843.3 |
申请日期 |
2012.05.30 |
申请人 |
杭州遥指科技有限公司 |
发明人 |
苏宁军;杨志雄;张旭;何勇 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京品源专利代理有限公司 11332 |
代理人 |
胡彬 |
主权项 |
一种站内信息的筛选方法,其特征在于,包括以下步骤:A、根据输入的特征标识获取具备所述特征标识的站内信息,从获取的站内信息中解析出关键词并填写到结构化存储表格的属性字段中;B、对所述结构化存储表格各个属性字段中的关键词进行词频分析,确定类别属性和差异属性;C、根据类别属性计算所述获取的站内信息中当前被访问的站内信息与其他站内信息之间的匹配度,筛选出匹配度高于预设匹配度阈值的同类匹配站内信息;D、对所述同类匹配站内信息中的预设属性进行判定,过滤掉所述预设属性异常的同类匹配站内信息;E、生成同类匹配站内信息表并显示表中站内信息的差异属性;其中,步骤B中,将各个属性字段中出现次数大于第一预设阈值的关键词作为该属性的高频关键词,将所述高频关键词出现比例大于第二预设阈值的属性确定为类别属性,所述类别属性之外的其他属性为差异属性。 |
地址 |
310052 浙江省杭州市滨江区长河路滨康路交叉口拓森科技园3号楼C617 |