主权项 |
一种获取微博中特定话题PCU关联数据的方法,其特征在于:以新浪微博中元素间的逻辑关联关系为指导,自动有序地获取由帖子内容、帖子评论以及发帖用户所形成的PCU关联数据,表示为异质网络:G=(P,C,U,f,g,h)其中P、C与U分别代表帖子、帖子评论与发帖用户,f代表帖子与帖子评论的交互关系,g代表用户之间的好友关系,h代表用户和帖子、帖子评论之间的隶属关系;该方法包含:数据访问权限获取、PCU关联数据页面下载与PCU关联数据的解析与构建,具体的过程如下:Step1:数据访问权限获取:在新浪微博登录页面http://weibo.com/login.php,利用web自动化测试工具selenium对标签<div class=″inp username″>和<div class=″inp password″>自动定位并填写用户名和密码,触发提交按钮<div class=″info_listlogin_btn″>,完成身份认证,取得访问数据的权限;Step2:PCU关联数据页面下载:1)通过微博的查询接口获取特定话题的所有帖子链接url<sub>p</sub>,存入帖子URL队列池Url<sub>p</sub>,从中逐一取出帖子链接url<sub>p</sub>并依据其下载帖子页面S<sub>p</sub>,存入帖子页面库Pages<sub>p</sub>中;2)从用户URL队列池Url<sub>u</sub>、评论URL队列池Url<sub>u</sub>、好友关系列表URL队列池Url<sub>f</sub>中依次取出帖子的用户链接url<sub>u</sub>、评论链接url<sub>c</sub>、好友关系链接url<sub>f</sub>,启用三个线程分别下载用户页面S<sub>u</sub>、评论页面S<sub>c</sub>和好友页面S<sub>f</sub>,存入用户页面库Pages<sub>u</sub>、评论页面库Pages<sub>c</sub>及好友关系库Pages<sub>f</sub>中;Step3:PCU关联数据的解析与构建:1)逐一从帖子页面库Pages<sub>p</sub>中取出帖子页面S<sub>p</sub>、从用户页面库Pages<sub>u</sub>中取出用户页面S<sub>u</sub>、从评论页面库Pages<sub>c</sub>、中取出评论页面S<sub>c</sub>、从好友关系库Pages<sub>f</sub>中取出好友页面S<sub>f</sub>,利用文档解析工具Beautifulsoup对S<sub>p</sub>、S<sub>u</sub>、S<sub>c</sub>和S<sub>f</sub>进行分层定位解析,将所需标签值写入数据库,其中解析S<sub>p</sub>得到的url<sub>u</sub>、url<sub>c</sub>和url<sub>f</sub>,分别放入用户URL队列池Url<sub>u</sub>、评论URL队列池Url<sub>c</sub>和好友关系列表URL队列池Url<sub>f</sub>;2)由帖子与评论之间的交互关系得到帖子关系网络f,由用户的关注与粉丝信息得到用户好友关系网络g,由用户与帖子、帖子评论之间的隶属关系得到用户帖子隶属关系网络h;最终得到异质网络G=(P,C,U,f,g,h)。 |