发明名称 一种标签挖掘方法及装置
摘要 一种标签挖掘方法及装置,该方法包括:从结构化数据中挖掘第n种子集合,该第n种子集合中的种子为APP名称与标签构成的二元组,并利用该第n种子集合中的种子在非结构化数据中进行搜索,获取第n句子集合,该第n句子集合中的句子包含该第n种子集合中的任意一个种子的APP名称与标签,且利用该第n句子集合中的任意两个句子进行匹配,得到第n泛化模板集合,根据该第n泛化模板集合中的泛化模板在该非结构化数据中进行标签挖掘,将挖掘得到的符合预先设置条件的APP名称与标签的二元组保存到语义标签库中。通过生成能够在非结构化数据中进行标签挖掘的泛化模板集合,能够有效的实现在非结构化数据中的标签挖掘,标签挖掘更加全面。
申请公布号 CN105824828A 申请公布日期 2016.08.03
申请号 CN201510004659.9 申请日期 2015.01.06
申请人 深圳市腾讯计算机系统有限公司 发明人 刘安安;王迪
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 上海波拓知识产权代理有限公司 31264 代理人 杨波
主权项 一种标签挖掘方法,其特征在于,包括:从结构化数据中挖掘第n种子集合,所述第n种子集合中的种子为应用程序APP名称与标签构成的二元组,所述n的初始值为1,且n为正整数;利用所述第n种子集合中的种子在非结构化数据中进行检索,获取第n句子集合,所述第n句子集合中的句子包含所述第n种子集合中的任意一个种子的APP名称与标签;·利用所述第n句子集合中的任意两个句子进行匹配,得到第n泛化模板集合;根据所述第n泛化模板集合中的泛化模板在所述非结构数据中进行标签挖掘,将挖掘得到的符合预先设置条件的APP名称与标签的二元组保存到语义标签库中。
地址 518000 广东省深圳市南山区高新区高新南一路飞亚达大厦5-10楼