发明名称 |
数据处理方法及装置 |
摘要 |
本发明实施例提供一种数据处理方法及装置,所述方法包括:获取资讯,将资讯加入资讯集合中;将资讯集合中的一篇资讯作为待处理文档;若均为未处理文档,根据预设规则将待处理文档映射成对应的特征向量;否则,根据预设规则将待处理文档映射成对应的特征向量,根据获取待处理文档的第一时间以及待处理文档中事件发生的第二时间,分别计算待处理文档对应的特征向量与话题模型集合中的各个已检测话题对应的向量的相似度,选取最大相似度值进行判断;将待处理文档的下一篇文档作为待处理文档,直到资讯集合中的全部资讯全部处理完毕。所述方法考虑了获取待处理文档的第一时间以及待处理文档中事件发生的第二时间,提高了话题模型的精确度。 |
申请公布号 |
CN106202530A |
申请公布日期 |
2016.12.07 |
申请号 |
CN201610586683.2 |
申请日期 |
2016.07.22 |
申请人 |
北京邮电大学 |
发明人 |
杜军平;梁美玉;宋阳;候立莎 |
分类号 |
G06F17/30(2006.01)I;G06K9/62(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京超凡志成知识产权代理事务所(普通合伙) 11371 |
代理人 |
朱文杰 |
主权项 |
一种数据处理方法,其特征在于,所述方法包括:获取资讯,将所述资讯加入资讯集合中;将所述资讯集合中的一篇资讯作为待处理文档;若所述资讯集合中的资讯均为未处理文档,根据预设规则将待处理文档映射成对应的特征向量,将所述特征向量作为已检测话题对应的向量,加入话题模型集合;若所述资讯集合中至少有一篇资讯为已处理文档,根据所述预设规则将待处理文档映射成对应的特征向量,根据获取待处理文档的第一时间以及所述待处理文档中事件发生的第二时间,分别计算所述待处理文档对应的特征向量与所述话题模型集合中的各个已检测话题对应的向量的相似度,选取最大相似度值进行判断;若所述最大相似度值大于修正阈值,则所述待处理文档与所述最大的相似度值对应的已检测话题相似,更新所述最大的相似度值对应的已检测话题对应的向量;若所述最大的相似度值小于动态阈值,则根据预设规则将待处理文档映射成对应的特征向量,将所述特征向量作为已检测话题对应的向量,加入话题模型集合;将所述待处理文档的下一篇文档作为待处理文档,直到资讯集合中的全部资讯全部处理完毕。 |
地址 |
100876 北京市海淀区西土城路10号 |