一种针对海量数据中查询词的搜索维度挖掘方法,申请号CN201510890422.5-传众专利搜索

首页产品黄页商标征信

会员服务注册登录

法人/股东/高管

发明名称	一种针对海量数据中查询词的搜索维度挖掘方法
摘要	本发明公开了一种针对海量数据中查询词的搜索维度挖掘方法，其该方法包括如下步骤：1)基于文本、HTML标签和重复区域等模式，从抓取到的数据集中的每一个网页中抽取Lists；2)增加抽取机制，以实现对步骤1)中抽取到的Lists进行有效性扩充；3)评估抽取出来的每一个List的重要性；4)词项列表聚类：将相似的词项列表进行合并形成一个查询维度；5)查询维度及词项列表的排序：计算不同的查询分面、词项的重要性。本发明可以获得更多有效的词项列表，在得到补充后的词项列表之后，对新的词项列表进行打分，将相似的词项列表进行合并分类，计算不同的查询分面、词项列表的重要性，最终使得挖掘出的查询维度更加完善，使得用户可以获得更为完整的信息。
申请公布号	CN105528421A	申请公布日期	2016.04.27
申请号	CN201510890422.5	申请日期	2015.12.07
申请人	中国人民大学	发明人	窦志成;文继荣;李谨秀
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	北京中创阳光知识产权代理有限责任公司 11003	代理人	尹振启
主权项	一种针对海量数据中查询词的搜索维度挖掘方法，其特征在于，所述方法包括如下步骤：1)词项列表抽取：基于文本、HTML标签和重复区域模式，从抓取到的数据集中的每一个网页中抽取Lists；2)增加抽取机制，以实现对步骤1)中抽取到的Lists进行有效性扩充；3)词项列表打分：评估抽取出来的每一个List的重要性；4)词项列表聚类：将相似的词项列表进行合并形成一个查询维度；5)查询维度及词项列表的排序：计算不同的查询分面、词项的重要性。
地址	100872 北京市海淀区中关村大街59号

您可能感兴趣的专利

MELTTPLATING METHOD OF ALUMINUMMZING ALLOY

METHOD OF AND DEVICE FOR REGENERATING CLEANING SOLUTION IN CLEANING LINE

PROCESS FOR PRODUCTION OF WATCH CASES BY SINTERING AND FORGING

MANUFACTURING METHOD OF SEMICONDUCTOR ELEMENT

METHOD OF PHOTOETCHING

STORAGE CONTROL UNIT

CENTER REST IN SLIDING SHUTTER

AFFORESTATION APPARATUS FOR VERTICAL WALL

SURFING POOL WITH THROTTOLE PART

PROCESS FOR PRODUCING POLYAMIDES

PROCESS FOR PRODUCING NOVEL RESINS

MELTED SLAG TREATMENT APPARATUS

AMPLIFIER CIRCUIT

CHARACTER DISPLAY

THERMOPLASTIC RESIN COMPOSITION

HEATTSTABLE HALOGEN CONTAINING RESIN COMPOSITION

WERKWIJZE EN INRICHTING VOOR HET INLIJSTEN VAN STUKKEN FILM IN DIAPOSITIEF RAMEN.

WERKWIJZE VOOR HET AUTOMATISCH JUSTEREN VAN HALFGELEIDERSCHIJVEN.

COMPOSITE WIRE MATERIAL FOR METALLIZING AND ITS PRODUCTION METHOD