发明名称 一种针对海量数据中查询词的搜索维度挖掘方法
摘要 本发明公开了一种针对海量数据中查询词的搜索维度挖掘方法,其该方法包括如下步骤:1)基于文本、HTML标签和重复区域等模式,从抓取到的数据集中的每一个网页中抽取Lists;2)增加抽取机制,以实现对步骤1)中抽取到的Lists进行有效性扩充;3)评估抽取出来的每一个List的重要性;4)词项列表聚类:将相似的词项列表进行合并形成一个查询维度;5)查询维度及词项列表的排序:计算不同的查询分面、词项的重要性。本发明可以获得更多有效的词项列表,在得到补充后的词项列表之后,对新的词项列表进行打分,将相似的词项列表进行合并分类,计算不同的查询分面、词项列表的重要性,最终使得挖掘出的查询维度更加完善,使得用户可以获得更为完整的信息。
申请公布号 CN105528421A 申请公布日期 2016.04.27
申请号 CN201510890422.5 申请日期 2015.12.07
申请人 中国人民大学 发明人 窦志成;文继荣;李谨秀
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京中创阳光知识产权代理有限责任公司 11003 代理人 尹振启
主权项 一种针对海量数据中查询词的搜索维度挖掘方法,其特征在于,所述方法包括如下步骤:1)词项列表抽取:基于文本、HTML标签和重复区域模式,从抓取到的数据集中的每一个网页中抽取Lists;2)增加抽取机制,以实现对步骤1)中抽取到的Lists进行有效性扩充;3)词项列表打分:评估抽取出来的每一个List的重要性;4)词项列表聚类:将相似的词项列表进行合并形成一个查询维度;5)查询维度及词项列表的排序:计算不同的查询分面、词项的重要性。
地址 100872 北京市海淀区中关村大街59号