发明名称 |
一种标签挖掘方法及装置 |
摘要 |
一种标签挖掘方法及装置,该方法包括:从结构化数据中挖掘第n种子集合,该第n种子集合中的种子为APP名称与标签构成的二元组,并利用该第n种子集合中的种子在非结构化数据中进行搜索,获取第n句子集合,该第n句子集合中的句子包含该第n种子集合中的任意一个种子的APP名称与标签,且利用该第n句子集合中的任意两个句子进行匹配,得到第n泛化模板集合,根据该第n泛化模板集合中的泛化模板在该非结构化数据中进行标签挖掘,将挖掘得到的符合预先设置条件的APP名称与标签的二元组保存到语义标签库中。通过生成能够在非结构化数据中进行标签挖掘的泛化模板集合,能够有效的实现在非结构化数据中的标签挖掘,标签挖掘更加全面。 |
申请公布号 |
CN105824828A |
申请公布日期 |
2016.08.03 |
申请号 |
CN201510004659.9 |
申请日期 |
2015.01.06 |
申请人 |
深圳市腾讯计算机系统有限公司 |
发明人 |
刘安安;王迪 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
上海波拓知识产权代理有限公司 31264 |
代理人 |
杨波 |
主权项 |
一种标签挖掘方法,其特征在于,包括:从结构化数据中挖掘第n种子集合,所述第n种子集合中的种子为应用程序APP名称与标签构成的二元组,所述n的初始值为1,且n为正整数;利用所述第n种子集合中的种子在非结构化数据中进行检索,获取第n句子集合,所述第n句子集合中的句子包含所述第n种子集合中的任意一个种子的APP名称与标签;·利用所述第n句子集合中的任意两个句子进行匹配,得到第n泛化模板集合;根据所述第n泛化模板集合中的泛化模板在所述非结构数据中进行标签挖掘,将挖掘得到的符合预先设置条件的APP名称与标签的二元组保存到语义标签库中。 |
地址 |
518000 广东省深圳市南山区高新区高新南一路飞亚达大厦5-10楼 |