发明名称 一种社交网络高影响力信息的提取方法
摘要 本发明基于社交网络的内在特性,提出了基于转发分布统计及有效性评估的信息提取方法,先根据信息来源工具对信息的分布进行了初步定质的评定,并在有效性处理中基于用户信息建立了有效的二次特征进行定量评判。计算时都采用线性复杂度的算法进行分析,计算资源需求小,具有较低的时间和空间代价;联合过程采用比对处理,最终用输出真正高曝光的微博信息。此信息提取方式在现实中更具实用价值。本发明有效实现了对社交网络的舆论信息的影响性和曝光率的分析,能够过滤的低质量数据,并保留真实有效的信息以供后续人工分析使用。
申请公布号 CN103279472B 申请公布日期 2014.10.01
申请号 CN201310112859.7 申请日期 2013.03.22
申请人 北京宏博知微科技有限公司;于霄 发明人 于霄
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 一种社交网络高影响力信息的提取方法,其特征在于:它包括以下步骤:步骤一:获取欲分析的所有<img file="2013101128597100001dest_path_image001.GIF" wi="16" he="20" />条已发布的微博信息的及微博对应的所有转发的相关记录,<img file="2013101128597100001dest_path_image002.GIF" wi="41" he="22" />表示第<img file="2013101128597100001dest_path_image003.GIF" wi="18" he="20" />条微博的完整记录,<img file="2013101128597100001dest_path_image004.GIF" wi="98" he="22" />;<img file="2013101128597100001dest_path_image005.GIF" wi="24" he="26" />表示第<img file="83325dest_path_image003.GIF" wi="18" he="20" />条微博的第<img file="dest_path_image006.GIF" wi="14" he="20" />个转发的相关记录,<img file="2013101128597100001dest_path_image007.GIF" wi="252" he="26" />,即<img file="688881dest_path_image005.GIF" wi="24" he="26" />中包含了<img file="dest_path_image008.GIF" wi="204" he="26" />,分别为此第<img file="530935dest_path_image003.GIF" wi="18" he="20" />条微博第<img file="739193dest_path_image006.GIF" wi="14" he="20" />个转发的转发人的id,转发评论的文字内容,此转发用户的关注总人数、粉丝总人数、自己发布的微博总条数,此转发的发布工具来源;同时设定单信息重复阈值系数<img file="2013101128597100001dest_path_image009.GIF" wi="109" he="22" />;提取比例<img file="dest_path_image010.GIF" wi="77" he="22" />; 步骤二:对每个微博信息的完整记录,根据转发的发布工具记录信息,计算工具来源的加权结果<img file="2013101128597100001dest_path_image011.GIF" wi="46" he="22" />,各微博的转发数目的总量<img file="dest_path_image012.GIF" wi="54" he="22" />,其中从所述的完整记录中计算工具来源的加权结果<img file="304298dest_path_image011.GIF" wi="46" he="22" />的具体方法为:步骤二一:对第<img file="189077dest_path_image003.GIF" wi="18" he="20" />条微博信息的所有转发的发布工具来源,分别统计其中发布工具来源为“新浪微博”的转发数目总量<img file="dest_path_image013.GIF" wi="52" he="22" />、来源为“iphone客户端”的转发数目总量<img file="dest_path_image014.GIF" wi="56" he="22" />、来源为“Android客户端”的转发数目总量<img file="dest_path_image015.GIF" wi="54" he="22" />、来源为“360安全浏览器”的转发数目总量<img file="dest_path_image016.GIF" wi="56" he="22" />、所有转发数目的总量<img file="206843dest_path_image012.GIF" wi="54" he="22" />;步骤二二:分别计算出各发布工具来源的比例系数,即来源为“新浪微博”的比例系数<img file="dest_path_image017.GIF" wi="126" he="45" />,来源为“iphone客户端”的比例系数<img file="dest_path_image018.GIF" wi="130" he="45" />,来源为“Android客户端”的比例系数<img file="dest_path_image019.GIF" wi="128" he="45" />,来源为“360安全浏览器”的比例系数<img file="dest_path_image020.GIF" wi="130" he="45" />;步骤二三:计算第<img file="156476dest_path_image003.GIF" wi="18" he="20" />条微博信息的<img file="638404dest_path_image011.GIF" wi="46" he="22" />,具体计算如下<img file="dest_path_image021.GIF" wi="553" he="20" />; 步骤三:对所有<img file="569450dest_path_image001.GIF" wi="16" he="20" />个微博信息的完整记录,根据转发记录的用户的关注总人数、粉丝总人数、自己发布的微博总条数、转发的用户id、评论的字面内容<img file="dest_path_image022.GIF" wi="22" he="25" />,计算各微博的综合度量结果<img file="dest_path_image023.GIF" wi="45" he="22" />,对第<img file="199146dest_path_image003.GIF" wi="18" he="20" />条微博信息,从所述的完整记录中获取综合度量结果<img file="749207dest_path_image023.GIF" wi="45" he="22" />的具体方法为:步骤三一:对第<img file="334909dest_path_image003.GIF" wi="18" he="20" />条微博信息的完整记录<img file="566084dest_path_image002.GIF" wi="41" he="22" />,根据转发的完整记录信息,提取第<img file="683076dest_path_image006.GIF" wi="14" he="20" />个转发记录的特征量集合<img file="dest_path_image024.GIF" wi="36" he="26" />,其中<img file="dest_path_image025.GIF" wi="133" he="22" />;用<img file="dest_path_image026.GIF" wi="56" he="28" />表示第<img file="dest_path_image027.GIF" wi="15" he="21" />个转发记录的第<img file="dest_path_image028.GIF" wi="9" he="20" />个的特征量,此微博的转发记录总数其中<img file="dest_path_image029.GIF" wi="72" he="22" />,具体各<img file="771249dest_path_image026.GIF" wi="56" he="28" />计算如下:<img file="dest_path_image030.GIF" wi="441" he="49" />;步骤三二:根据所有转发的记录的特征量集合<img file="dest_path_image031.GIF" wi="130" he="26" />,对这些记录进行质量判定,得出质量评分<img file="dest_path_image032.GIF" wi="184" he="25" />;<img file="165452dest_path_image005.GIF" wi="24" he="26" />的质量评分<img file="dest_path_image033.GIF" wi="50" he="25" />计算方式如下所示:<img file="dest_path_image034.GIF" wi="457" he="174" />;步骤三三:对第<img file="375985dest_path_image003.GIF" wi="18" he="20" />条微博的所有转发的记录,根据转发的用户id,分析各记录的重复规避评分<img file="dest_path_image035.GIF" wi="182" he="25" />;<img file="793322dest_path_image005.GIF" wi="24" he="26" />的<img file="dest_path_image036.GIF" wi="50" he="25" />得分计算方式如下:<img file="dest_path_image037.GIF" wi="456" he="52" />;步骤三四:对第<img file="747503dest_path_image003.GIF" wi="18" he="20" />条微博的所有转发的记录的评论内容,根据评论的字面内容<img file="dest_path_image038.GIF" wi="26" he="26" />,分析各记录的独立性评分<img file="dest_path_image039.GIF" wi="145" he="25" />;<img file="dest_path_image040.GIF" wi="525" he="48" />;步骤三五:根据第<img file="996212dest_path_image003.GIF" wi="18" he="20" />条微博所有记录的质量评分、重复规避评分、独立性评分,计算各记录的有效性<img file="dest_path_image041.GIF" wi="178" he="25" />;<img file="830176dest_path_image005.GIF" wi="24" he="26" />的有效性<img file="dest_path_image042.GIF" wi="45" he="25" />计算方式如下:<img file="dest_path_image043.GIF" wi="213" he="25" />;步骤三六:根据第<img file="469230dest_path_image003.GIF" wi="18" he="20" />条微博所有记录的有效性<img file="351736dest_path_image042.GIF" wi="45" he="25" />,统计其中<img file="dest_path_image044.GIF" wi="65" he="25" />的转发总数,记为<img file="dest_path_image045.GIF" wi="50" he="22" />;步骤三七:计算第<img file="641903dest_path_image003.GIF" wi="18" he="20" />条微博的综合度量结果<img file="dest_path_image046.GIF" wi="112" he="45" />; 步骤四:根据每个微博的工具来源的加权结果<img file="397500dest_path_image011.GIF" wi="46" he="22" />和综合度量结果<img file="897752dest_path_image023.GIF" wi="45" he="22" />,计算各个微博信息的影响系数,其中第<img file="143137dest_path_image003.GIF" wi="18" he="20" />条微博的影响系数<img file="dest_path_image047.GIF" wi="241" he="22" />;步骤五:对所有<img file="491073dest_path_image001.GIF" wi="16" he="20" />条微博的影响系数<img file="dest_path_image048.GIF" wi="49" he="22" />进行由大到小的排序,则输出前<img file="dest_path_image049.GIF" wi="52" he="28" />条微博信息,用以进行人工分析。
地址 150001 黑龙江省哈尔滨市南岗区西大直街92号哈尔滨工业大学一区动力楼252