发明名称 一种社交网络热词和事件挖掘系统及方法
摘要 本发明公开了一种社交网络热词和事件挖掘系统及方法,涉及社交网络领域。所述方法包括步骤:对候选词进行统计,得到相应的候选词序列;根据所述候选词序列,计算所述候选词在不同时间点的状态参数;提供备选状态序列,根据所述候选词序列、状态参数和备选状态序列,计算所述候选词的状态生成代价;根据所述备选状态序列,计算所述候选词的状态转移代价;根据所述候选词序列、状态参数、状态生成代价和状态转移代价对所述备选状态序列进行筛选,得到总代价最小的状态序列。所述系统和方法提高了热词挖掘的准确度。
申请公布号 CN102609436B 申请公布日期 2014.06.11
申请号 CN201110434991.0 申请日期 2011.12.22
申请人 北京大学 发明人 闫宏飞;树柏涵;赵鑫;李晓明
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京路浩知识产权代理有限公司 11002 代理人 王莹
主权项 1.一种社交网络热词和事件挖掘系统,其特征在于,包括:信息统计模块、状态参数模块、生成代价模块、转移代价模块和状态序列模块;所述信息统计模块,用于对候选词进行统计,得到相应的候选词序列;所述状态参数模块,用于根据所述候选词序列,计算所述候选词在不同时间点的状态参数;所述生成代价模块,用于根据所述候选词序列、状态参数和备选状态序列,计算所述候选词的状态生成代价;所述转移代价模块,根据所述备选状态序列,计算所述候选词的状态转移代价;所述状态序列模块,用于提供所述备选状态序列,并根据所述候选词序列、状态参数、状态生成代价和状态转移代价对所述备选状态序列进行筛选,得到总代价最小的状态序列;所述状态参数模块计算得到的状态参数为泊松分布参数,并且包括:0状态参数和1状态参数;所述0状态参数的计算公式如下:<img file="FDA0000440901550000011.GIF" wi="848" he="224" />其中,λ<sub>0,i</sub>表示每天24小时中第i个时间点的0状态参数,0≤i≤23;r<sub>t</sub>表示所述候选词序列中第t个时间点对应的数据,t为自然数;n表示所述候选词序列中时间点的总数;所述1状态参数的计算公式如下:λ<sub>1,i</sub>=βλ<sub>0,i</sub>;其中,λ<sub>1,i</sub>表示每天24小时中第i个时间点的1状态参数;β表示热度系数,并且β>1。
地址 100871 北京市海淀区颐和园路5号