发明名称 一种基于文本分类和聚类分析的网络热点事件发现方法
摘要 本发明公开了一种基于文本分类和聚类分析的网络热点事件发现方法,该方法解决了已有的基于聚类分析的热点事件发现方法存在的效率和准确率有待进一步提高的问题。该方法首先利用训练语料库通过特征词提取和特征选择为各类别文本分别选取特征词,再采用向量空间模型法将每个训练文本和测试文本表示为在所有特征空间中的向量,并采用TF-IDF方法确定向量中每一维的权重,然后对各个测试文本进行分类,再对分好类的各个类别的测试文本分别进行聚类分析,得到各个类别的热点簇,再分析得到代表热点事件的特征词,进而分析热点各个特征词的词性等,再利用相关语言知识,通过必要的语言组织生成热点事件的描述。本发明能有效提高热点事件发现的效率和准确率。
申请公布号 CN104239436A 申请公布日期 2014.12.24
申请号 CN201410432539.4 申请日期 2014.08.27
申请人 南京邮电大学 发明人 成卫青;范恒亮;卢艳红
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 南京知识律师事务所 32207 代理人 汪旭东
主权项 一种基于文本分类和聚类分析的网络热点事件发现方法,其特征在于,所述方法包括如下步骤:步骤1:利用KNN分类方法对测试文本进行分类,包括:步骤1‑1:构建训练语料库和测试语料库,利用训练语料库提取特征词并进行特征选择;步骤1‑2:扫描并统计每一篇训练文本、测试文本在所有特征空间中的向量,采用TF‑IDF的方法确定向量中每一维的权重;步骤1‑3:对测试集中的每个测试文本X,按余弦距离法在训练集中找到它的K‑最近邻子集{X<sub>1</sub>,…,X<sub>k</sub>};步骤1‑4:基于测试文本X与其k个近邻的余弦相似度以及k个近邻的类别,计算测试文本X属于每一个类别的权重:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><msub><mi>&mu;</mi><mi>j</mi></msub><mrow><mo>(</mo><mi>X</mi><mo>)</mo></mrow><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>k</mi></munderover><msub><mi>&mu;</mi><mi>j</mi></msub><mrow><mo>(</mo><msub><mi>X</mi><mi>i</mi></msub><mo>)</mo></mrow><mi>sim</mi><mrow><mo>(</mo><mi>X</mi><mo>,</mo><msub><mi>X</mi><mi>i</mi></msub><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000560776700000011.GIF" wi="528" he="121" /></maths>其中,μ<sub>j</sub>(X<sub>i</sub>)∈{0,1}含义为测试文本的近邻文本X<sub>i</sub>是否属于C<sub>j</sub>;sim(X,X<sub>i</sub>)表示测试文本与训练文本X<sub>i</sub>的余弦相似度;决策方法为:如果μ<sub>l</sub>(X)=maxμ<sub>j</sub>(X),则决策X∈C<sub>l</sub>,即类别权重最大的作为测试文本的所属类别,最终得到所有测试文本的分类结果,为下面的聚类分析和热点事件发现做好准备;步骤2:根据分类结果,利用聚类方法分别对各个类别的测试文本进行热点事件发现;热点分析子系统包括聚类、热点特征词提取、热点事件分析等模块,包括:步骤2‑1:聚类;根据文本分类的结果,分别对测试语料库中各个类别的所有文本进行聚类处理,进而发现网络热点簇;对文本预处理子系统中提供的文本向量,利用K‑means聚类模块进行相关的运算,得到聚类的结果,从而发现与热点相关的簇和属于该簇的文本集合,对每个类别的所有测试文本的聚类分析包括如下步骤:第一步:首选随机选出k个文本对象,每个被选择的文本对象表示一个簇的初始中心;第二步:计算该类别中的每个文本对象X<sub>j</sub>与各个簇中心的距离,并把X<sub>j</sub>划分到离它最近的聚类中心所在的簇中,之后利用各簇中所有文本对象的文本特征向量的均值更新簇中心;第三步:重复上述第二步,直到该类别所有测试文本对象X<sub>j</sub>的簇不再变化为止,这样就得到了k个热点簇C<sub>1</sub>,C<sub>2</sub>,…,C<sub>k</sub>;对测试集中每个类别分别得到若干热点簇;步骤2‑2:热点特征词提取;根据聚类模块计算出的各个簇中心,对每个簇中心而言,把簇中心的特征向量中权重前80%大的特征词提取出来,作为该热点的代表性特征;步骤2‑3:热点事件分析;利用各个特征词的词性和相关的语言知识,对由提取模块得到的各个热点事件的特征词进行必要的语言组织,从而形成热点事件的完整描述;权值排序倒数20%的特征词也有价值,从侧面为热点提供附加信息。
地址 210023 江苏省南京市亚东新城区文苑路9号