发明名称 |
一种面向微博的非分词突发话题检测方法 |
摘要 |
本发明涉及利用计算机技术辅助网络信息智能分析或舆情的一种面向微博的非分词突发话题检测方法。本发明包括:语料预处理,构建动态的微博检测窗口;将微博内容切分成单个汉字,并构建字典;计算突发特征字集合;计算由特征字组成的突发话题;生成有意义词或串,形成由词或串表示的突发话题。本发明提出了一种无须中文分词的微博突发话题检测方法,对中文微博消息内容事先不做中文分词,而是将汉字和英文单词、图片、视频、外部链接等作为单个实体。最后对突发特征实体中的中文汉字构词,能够提高检测方法的整体性能,提高对新词、口语化串的召回率。 |
申请公布号 |
CN104216964A |
申请公布日期 |
2014.12.17 |
申请号 |
CN201410416127.1 |
申请日期 |
2014.08.22 |
申请人 |
哈尔滨工程大学 |
发明人 |
杨武;伸国伟;王巍;苘大鹏;宣世昌 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
|
代理人 |
|
主权项 |
一种面向微博的非分词突发话题检测方法,其特征在于:包括以下步骤:步骤1:语料预处理,构建动态的微博检测窗口;步骤2:将微博内容切分成单个汉字,并构建字典;步骤3:计算突发特征字集合;步骤4:计算由特征字组成的突发话题;步骤5:生成有意义词或串,形成由词或串表示的突发话题。 |
地址 |
150001 黑龙江省哈尔滨市南岗区南通大街145号哈尔滨工程大学科技处知识产权办公室 |