发明名称 基于社交媒体的动态用户属性提取方法
摘要 本发明公开了一种基于社交媒体的动态用户属性提取方法。本发明首先对采集的训练样本集进行文本预处理后,进行主题词提取,得到K个主题以及各主题的m个主题词。再提取待处理用户的短文本并进行时间子段的划分,通过时间滑窗进行数据填充得到各时间子段的文本数据,并进行文本预处理后,统计各主题的主题词的出现频率,得到各主题的属性权重信息,再引入时间衰减系数,以时间顺序依次得到关联时间属性的用户属性特征,取最近时间子段的用户属性特征作为用户当前属性特征并输出。本发明在不需要利用外部知识的前提下,通过文本中无序的词实现对社交媒体的短文本的语义扩充,且可以从用户发布或者转发的微博文本中提取出用户的动态属性。
申请公布号 CN106354818A 申请公布日期 2017.01.25
申请号 CN201610767430.5 申请日期 2016.08.30
申请人 电子科技大学 发明人 黄秀;杨阳;胡玥;沈复民;邵杰
分类号 G06F17/30(2006.01)I;G06Q50/00(2012.01)I 主分类号 G06F17/30(2006.01)I
代理机构 电子科技大学专利中心 51203 代理人 周刘英
主权项 基于社交媒体的动态用户属性提取方法,其特征在于,包括下列步骤:步骤1:主题提取:101:采集训练样本集:提取用户在社交媒体上发表的短文本,筛选短文本数大于或等于阈值θ1的用户作为样本用户;由不同样本用户的各短文本构成训练样本集,并对训练样本进行文本预处理:包括去除短文本中的链接、非中文字符、自定义词后,对短文本进行分词操作,并过滤掉停用词和无意义高频词;102:对训练样本集进行文本主题提取处理,得到K个主题,并从每个主题的关键词中选择权重最大的前m个作为主题词;步骤2:用户动态属性提取:201:提取待处理用户在时间段T在社交媒体上发表的短文本,将时间段T分为q个时间子段,得到各时间子段发表的短文本;对短文本进行文本预处理,得到对应各时间子段的文本数据;通过滑动时间窗,将与当前时间子段最近的p个时间子段文本数据扩充到当前时间子段的文本数据;步骤202:基于步骤102得到的各主题的m个主题词,分别对各时间子段的文本数据进行主题词的词频统计并计算各主题权重<img file="FDA0001099772170000011.GIF" wi="334" he="127" />其中n<sub>ki</sub>表示主题k的第i个主题词的词频,w<sub>ki</sub>表示主题k的第i个主题词在主题下的权重,k=1,2,…,K;由同一时间子段的K个主题权重a<sub>k</sub>得到各时间子段的主题权重信息A<sub>t</sub>,下标t=0,1,…,q为时间子段标识符;步骤203:根据公式计算用户属性特征<img file="FDA0001099772170000012.GIF" wi="342" he="127" />其中衰减系数λ(T<sub>j</sub>)=1‑μT<sub>j</sub><sup>v</sup>,T<sub>j</sub>表示时间子段j的时间间隔,且0<μ<1,v>0;步骤204:将第q个时间子段的用户属性特征A<sub>q</sub>′作为用户当前属性特征并输出。
地址 611731 四川省成都市高新区(西区)西源大道2006号