发明名称 基于海量微博文本和用户信息的网络新词自动提取的方法
摘要 本发明提出一种基于海量微博文本和用户信息的网络新词自动提取的方法,包括:获取微博文本及微博对应的作者标识符;建立新词列表;根据汉语分析工具对微博文本进行分词操作,得到分割词段,分别统计各个分割词段基于文本和用户两个维度的词频信息;将新词列表中词语频次小于第一频次阈值的词语从新词列表中删除;统计微博数据中所有的二元组和三元组,并将其作为候选新词;计算候选新词的关联性的得分;将候选新词中词语频次大于第二频次阈值且关联性得分大于得分阈值的词语添加至新词列表:迭代执行以上过程,直至没有新的候选新词产生且新词列表中没有候选新词被删除。本发明能够自动提取网络新词,具有较高的准确性和较低的时间和空间复杂度。
申请公布号 CN105956158A 申请公布日期 2016.09.21
申请号 CN201610324541.9 申请日期 2016.05.17
申请人 清华大学 发明人 黄永峰;吴方照;刘佳伟;袁志刚;吴思行
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京清亦华知识产权代理事务所(普通合伙) 11201 代理人 张大威
主权项 一种基于海量微博文本和用户信息的网络新词自动提取的方法,其特征在于,包括以下步骤:S1:获取微博数据,其中,所述微博数据包括微博文本及微博对应的作者标识符;S2:建立新词列表,其中,所述新词列表初始化为空集;S3:将所述新词列表加入预设的汉语分析工具中,并根据所述汉语分析工具对所述微博文本进行分词操作,以将所述微博文本映射成分割词段的集合,并分别统计各个分割词段基于文本和用户两个维度的词频信息;S4:根据得到的词频信息更新所述新词列表中对应词语的词频信息,并将词语频次小于第一频次阈值的词语从所述新词列表中删除;S5:将分词操作中n个连续出现的分割词段定义为n元组,统计微博数据中所有的二元组和三元组,并将所述二元组和三元组作为候选新词;S6:根据所述候选新词在文本和用户两个维度的分布,统计所述候选新词基于文本和用户两个维度的词频信息,并计算所述候选新词的关联性得分;S7:将所述候选新词中词语频次大于第二频次阈值且关联性得分大于得分阈值的词语添加至所述新词列表;以及S8:迭代执行所述S2至S7,直至所述微博数据中没有新的候选新词产生且所述新词列表中没有候选新词被删除。
地址 100084 北京市海淀区100084-82信箱