主权项 |
1.一种社交网络热词和事件挖掘系统,其特征在于,包括:信息统计模块、状态参数模块、生成代价模块、转移代价模块和状态序列模块;所述信息统计模块,用于对候选词进行统计,得到相应的候选词序列;所述状态参数模块,用于根据所述候选词序列,计算所述候选词在不同时间点的状态参数;所述生成代价模块,用于根据所述候选词序列、状态参数和备选状态序列,计算所述候选词的状态生成代价;所述转移代价模块,根据所述备选状态序列,计算所述候选词的状态转移代价;所述状态序列模块,用于提供所述备选状态序列,并根据所述候选词序列、状态参数、状态生成代价和状态转移代价对所述备选状态序列进行筛选,得到总代价最小的状态序列;所述状态参数模块计算得到的状态参数为泊松分布参数,并且包括:0状态参数和1状态参数;所述0状态参数的计算公式如下:<img file="FDA0000440901550000011.GIF" wi="848" he="224" />其中,λ<sub>0,i</sub>表示每天24小时中第i个时间点的0状态参数,0≤i≤23;r<sub>t</sub>表示所述候选词序列中第t个时间点对应的数据,t为自然数;n表示所述候选词序列中时间点的总数;所述1状态参数的计算公式如下:λ<sub>1,i</sub>=βλ<sub>0,i</sub>;其中,λ<sub>1,i</sub>表示每天24小时中第i个时间点的1状态参数;β表示热度系数,并且β>1。 |