发明名称 网络论坛中热点发现及其演化态势分析方法
摘要 本发明提供了一种网络论坛中热点发现及其演化态势分析方法,利用爬虫程序提取一个版块内所有帖子的HTML文本;从每个帖子文本中抽取浏览量和回复量构成二元组,设第i个帖子的二元组为(x<sub>i</sub>,y<sub>i</sub>);利用公式<img file="dsa00000556428800011.GIF" wi="910" he="110" />计算第i个帖子的得分;取得一个热度帖,根据回复记录统计自主题发布以来到抓取时每天发生的回复数得到二元组。下面列出拟合的效果以及评价指标:SSE=1.548e+07。SSE为误差项平方和,反映每个样本各观测值的离散状况,又称为组内平方和或残差平方和。R-square=0.8339。R-square是拟合系数,值越大拟合度越好。RMSE=525.7。RMSE为均方根误差,可以作为衡量测量精度的一种数值指标。对这些指标分析后,可以看出拟合的效果是比较理想的。求出最大的极值点为x<sub>0</sub>=14;取x<sub>1</sub>=15>x<sub>0</sub>,y′(x<sub>0</sub>)<0故该帖子的热度正在下降。
申请公布号 CN102270240A 申请公布日期 2011.12.07
申请号 CN201110231560.4 申请日期 2011.08.15
申请人 哈尔滨工业大学 发明人 张伟哲;张宏莉;张玥;卢俊珈
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 一种网络论坛中热点发现及其演化态势分析方法,其特征在于,一、帖子打分方法(1)利用爬虫程序提取一个版块内所有帖子的HTML文本;(2)从每个帖子文本中抽取浏览量和回复量构成二元组,设第i个帖子的二元组为(xi,yi);(3)利用公式 <mrow> <mi>S</mi> <mrow> <mo>(</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>&omega;</mi> <mn>1</mn> </msub> <mfrac> <msub> <mi>x</mi> <mi>i</mi> </msub> <mrow> <mi>average</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>+</mo> <msub> <mi>&omega;</mi> <mn>2</mn> </msub> <mfrac> <msub> <mi>y</mi> <mi>i</mi> </msub> <mrow> <mi>average</mi> <mrow> <mo>(</mo> <mi>y</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>+</mo> <msub> <mi>&omega;</mi> <mn>3</mn> </msub> <mfrac> <mfrac> <msub> <mi>y</mi> <mi>i</mi> </msub> <msub> <mi>x</mi> <mi>i</mi> </msub> </mfrac> <mrow> <mi>max</mi> <mrow> <mo>(</mo> <mi>a</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>计算第i个帖子的得分;其中,S(pi)代表第i个帖子的得分;average(x)表示所有帖子访问数的平均值;average(y)表示所有帖子回复数的平均值;max(α)表示所有元组中回复数比访问数的最大值;ω1[0.0‑0.3],ω2[0.0‑0.3],ω3[0.5‑1.0]为权重因子,初始置为ω1=0.1,ω2=0.2,ω3=0.8;(4)按照帖子分数高低排序,提取前k个感兴趣的热度帖子,作为演化态势分析的目标帖;二、演化态势分析方法(1)取得一个热度帖,根据回复记录统计自主题发布以来到抓取时每天发生的回复数,得到二元组(i,yi);其中,i为相距帖子发布日期的天数;yi为发生在第天的回复数;(2)为这些二元组建立平面直角坐标系:以增大的方向为x轴正向,y增大的方向为y轴正向,将元组投影到该坐标系中;(3)用合适的曲线y=f(x)拟合穿过这些点的曲线;(4)求y=f(x)的最大极值点;如果不存在极值点,取适当大小的x0,求y的导数在x0处y′(x0)的值,若为正数则该帖热度处于上升状态,否则处于平缓或下降状态,结束;取大于xm的x0,求y的导数在x0处y′(x0)的值,若为正数则该帖热度处于上升状态,否则处于平缓或下降状态。
地址 150001 黑龙江省哈尔滨市南岗区西大直街92号