一种采用互补信息的关联关键词计算方法及装置,申请号CN201310620943.X-传众专利搜索

发明名称	一种采用互补信息的关联关键词计算方法及装置
摘要	一种采用互补信息的关联关键词计算方法和装置，所述方法以用户查询数据为主体，将查询后播放数据和用户上传视频数据补充到查询数据中，得到统一的事件集合。使用关联规则算法从事件集合中找出人物、事件相关的关联规则。最后从关联规则中解析出关联关键词。本发明综合互补用户查询和用户查询后播放视频以及用户上传数据的优点，避免了使用单一数据源得到的有倾向性的人物相关关键词结果。加入用户查询后播放数据可以得到用户真实感兴趣的关键词，加入用户上传数据可以避免出现用户不知道搜索哪些关键词的问题，通过调高事件和关联规则的阈值，可以得到比较高的准确率。
申请公布号	CN103593469B	申请公布日期	2016.04.20
申请号	CN201310620943.X	申请日期	2013.11.30
申请人	合一网络技术（北京）有限公司	发明人	刘伟;姚键;潘柏宇;卢述奇
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	北京市天玺沐泽专利代理事务所(普通合伙) 11532	代理人	鲍晓
主权项	一种采用互补信息的关联关键词计算方法，包括如下步骤：构造统一的事件集合步骤S110：添加与搜索或者视频有关的记录，统计所有的记录得到事件集合，对所述事件集合中的每一条记录进行切词处理，顺序扫描已切词的文本记录，并给每一个词按照其最早出现的顺序分配一个递增的数字值，作为该词的词id，从而将每条记录转换为若干个数字表示的序列，并保存每个词和其对应的词id到词典文件；统计词id的平均出现次数S120:遍历所述事件集合，统计每一个词id出现的次数，同一个词id在一个事件中的多次出现只算一次，统计所有词id出现的总的次数和词id的数量，得到词id的平均出现次数；构建一级项集合步骤S130:遍历所有词id，并找出，出现次数超过平均出现次数的词id，每个词id成为一个一级项，添加所有一级项形成一级项集合；构建高一级项集合步骤S140：对于刚形成的上一步骤的项集合，称为原始项集合，每个原始项含有n个词id，n≥1，找出满足下面条件的两个原始项进行“并”运算，所述条件为：所述两个原始项包括第一原始项和第二原始项，将所述两个原始项中各个词id按照从小到大排序，第一原始项和第二原始项的前n‑1项相同，且第一原始项的第n项词id小于第二原始项的第n项词id，对所述两个原始项进行“并”运算，得到的含有n+1项的高一级项，遍历事件集合，统计含有所述高一级项中所有词id的事件个数，如果所述事件个数超过所述平均出现次数，则保留所述高一级项，否则丢弃所述高一级项，添加保留的所有的高一级项，形成高一级项集合；继续构建集合判断步骤S150，根据所述构建高一级项集合步骤的方法，判断能否构建更高一级项集合，如果能，则返回所述构建高一级项集合步骤S140，否则进入筛选关联规则步骤S160；筛选关联规则步骤S160；首先定义阈值TH，用于筛选关联规则，对于得到的最终多项集合中的每个最终多项D，按照如下办法筛选得到关联规则：所述最终多项D含有m个词id，从中取出1至m‑1个词id构成多个真子集E，对于每个真子集E，在所述事件集合中分别统计含有最终多项D和所述真子集E的事件个数，分别记为Cnt(D)和Cnt(E)，计算Cnt(D)/Cnt(E)得到概率值P(D\|E)，如果P(D\|E)大于TH，则认为所述真子集能够推导出最终多项，则构成一条关联规则，并记录保存得到关联规则集合；文本复原步骤S170：利用所述词典文件，遍历已经得到的所述关联规则集合，对每条关联规则进行文本复原，将所述真子集E和最终多项D中的各个项的词id根据词典文件查询得到原文本，并认为真子集中的词能得到最终多项中除了真子集以外的剩余的词。
地址	100080 北京市海淀区海淀大街8号中钢国际广场A座5层A、C区