发明名称 | 一种针对海量数据中查询词的搜索维度挖掘方法 | ||
摘要 | 本发明公开了一种针对海量数据中查询词的搜索维度挖掘方法,其该方法包括如下步骤:1)基于文本、HTML标签和重复区域等模式,从抓取到的数据集中的每一个网页中抽取Lists;2)增加抽取机制,以实现对步骤1)中抽取到的Lists进行有效性扩充;3)评估抽取出来的每一个List的重要性;4)词项列表聚类:将相似的词项列表进行合并形成一个查询维度;5)查询维度及词项列表的排序:计算不同的查询分面、词项的重要性。本发明可以获得更多有效的词项列表,在得到补充后的词项列表之后,对新的词项列表进行打分,将相似的词项列表进行合并分类,计算不同的查询分面、词项列表的重要性,最终使得挖掘出的查询维度更加完善,使得用户可以获得更为完整的信息。 | ||
申请公布号 | CN105528421A | 申请公布日期 | 2016.04.27 |
申请号 | CN201510890422.5 | 申请日期 | 2015.12.07 |
申请人 | 中国人民大学 | 发明人 | 窦志成;文继荣;李谨秀 |
分类号 | G06F17/30(2006.01)I | 主分类号 | G06F17/30(2006.01)I |
代理机构 | 北京中创阳光知识产权代理有限责任公司 11003 | 代理人 | 尹振启 |
主权项 | 一种针对海量数据中查询词的搜索维度挖掘方法,其特征在于,所述方法包括如下步骤:1)词项列表抽取:基于文本、HTML标签和重复区域模式,从抓取到的数据集中的每一个网页中抽取Lists;2)增加抽取机制,以实现对步骤1)中抽取到的Lists进行有效性扩充;3)词项列表打分:评估抽取出来的每一个List的重要性;4)词项列表聚类:将相似的词项列表进行合并形成一个查询维度;5)查询维度及词项列表的排序:计算不同的查询分面、词项的重要性。 | ||
地址 | 100872 北京市海淀区中关村大街59号 |