发明名称 一种获取特定话题微博中PCU关联数据的方法
摘要 本发明公开了一种从微博中获取PCU关联数据的方法,解决现有技术不能获取有关联的微博帖子、评论、发帖人的技术缺陷,该方法包括:(1)数据访问权限取得,通过分析登录页面HTML标签,自动填写身份验证信息,取得数据访问权限;(2)PCU关联数据页面下载,依据微博页面的HTML结构及标签语义,以PCU数据的逻辑关系为指导,自动有序下载含有PCU关联数据的页面;(3)PCU关联数据结构化解析与构建,融合帖子关系、用户好友关系、用户帖子关系构建一个异质网络,即PCU关联数据网络。本发明能够自动获取新浪微博中的PCU关联数据,并构建结构化的关联数据网络,为后续的社交网络挖掘提供良好的数据集。
申请公布号 CN104915438A 申请公布日期 2015.09.16
申请号 CN201510358782.0 申请日期 2015.06.25
申请人 西安交通大学 发明人 刘均;陈浩;米建红;吕彦章;占梦婷
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 西安通大专利代理有限责任公司 61200 代理人 陆万寿
主权项 一种获取微博中特定话题PCU关联数据的方法,其特征在于:以新浪微博中元素间的逻辑关联关系为指导,自动有序地获取由帖子内容、帖子评论以及发帖用户所形成的PCU关联数据,表示为异质网络:G=(P,C,U,f,g,h)其中P、C与U分别代表帖子、帖子评论与发帖用户,f代表帖子与帖子评论的交互关系,g代表用户之间的好友关系,h代表用户和帖子、帖子评论之间的隶属关系;该方法包含:数据访问权限获取、PCU关联数据页面下载与PCU关联数据的解析与构建,具体的过程如下:Step1:数据访问权限获取:在新浪微博登录页面http://weibo.com/login.php,利用web自动化测试工具selenium对标签&lt;div class=″inp username″&gt;和&lt;div class=″inp password″&gt;自动定位并填写用户名和密码,触发提交按钮&lt;div class=″info_listlogin_btn″&gt;,完成身份认证,取得访问数据的权限;Step2:PCU关联数据页面下载:1)通过微博的查询接口获取特定话题的所有帖子链接url<sub>p</sub>,存入帖子URL队列池Url<sub>p</sub>,从中逐一取出帖子链接url<sub>p</sub>并依据其下载帖子页面S<sub>p</sub>,存入帖子页面库Pages<sub>p</sub>中;2)从用户URL队列池Url<sub>u</sub>、评论URL队列池Url<sub>u</sub>、好友关系列表URL队列池Url<sub>f</sub>中依次取出帖子的用户链接url<sub>u</sub>、评论链接url<sub>c</sub>、好友关系链接url<sub>f</sub>,启用三个线程分别下载用户页面S<sub>u</sub>、评论页面S<sub>c</sub>和好友页面S<sub>f</sub>,存入用户页面库Pages<sub>u</sub>、评论页面库Pages<sub>c</sub>及好友关系库Pages<sub>f</sub>中;Step3:PCU关联数据的解析与构建:1)逐一从帖子页面库Pages<sub>p</sub>中取出帖子页面S<sub>p</sub>、从用户页面库Pages<sub>u</sub>中取出用户页面S<sub>u</sub>、从评论页面库Pages<sub>c</sub>、中取出评论页面S<sub>c</sub>、从好友关系库Pages<sub>f</sub>中取出好友页面S<sub>f</sub>,利用文档解析工具Beautifulsoup对S<sub>p</sub>、S<sub>u</sub>、S<sub>c</sub>和S<sub>f</sub>进行分层定位解析,将所需标签值写入数据库,其中解析S<sub>p</sub>得到的url<sub>u</sub>、url<sub>c</sub>和url<sub>f</sub>,分别放入用户URL队列池Url<sub>u</sub>、评论URL队列池Url<sub>c</sub>和好友关系列表URL队列池Url<sub>f</sub>;2)由帖子与评论之间的交互关系得到帖子关系网络f,由用户的关注与粉丝信息得到用户好友关系网络g,由用户与帖子、帖子评论之间的隶属关系得到用户帖子隶属关系网络h;最终得到异质网络G=(P,C,U,f,g,h)。
地址 710049 陕西省西安市咸宁西路28号