主权项 |
一种基于文本分类和聚类分析的网络热点事件发现方法,其特征在于,所述方法包括如下步骤:步骤1:利用KNN分类方法对测试文本进行分类,包括:步骤1‑1:构建训练语料库和测试语料库,利用训练语料库提取特征词并进行特征选择;步骤1‑2:扫描并统计每一篇训练文本、测试文本在所有特征空间中的向量,采用TF‑IDF的方法确定向量中每一维的权重;步骤1‑3:对测试集中的每个测试文本X,按余弦距离法在训练集中找到它的K‑最近邻子集{X<sub>1</sub>,…,X<sub>k</sub>};步骤1‑4:基于测试文本X与其k个近邻的余弦相似度以及k个近邻的类别,计算测试文本X属于每一个类别的权重:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><msub><mi>μ</mi><mi>j</mi></msub><mrow><mo>(</mo><mi>X</mi><mo>)</mo></mrow><mo>=</mo><munderover><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>k</mi></munderover><msub><mi>μ</mi><mi>j</mi></msub><mrow><mo>(</mo><msub><mi>X</mi><mi>i</mi></msub><mo>)</mo></mrow><mi>sim</mi><mrow><mo>(</mo><mi>X</mi><mo>,</mo><msub><mi>X</mi><mi>i</mi></msub><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000560776700000011.GIF" wi="528" he="121" /></maths>其中,μ<sub>j</sub>(X<sub>i</sub>)∈{0,1}含义为测试文本的近邻文本X<sub>i</sub>是否属于C<sub>j</sub>;sim(X,X<sub>i</sub>)表示测试文本与训练文本X<sub>i</sub>的余弦相似度;决策方法为:如果μ<sub>l</sub>(X)=maxμ<sub>j</sub>(X),则决策X∈C<sub>l</sub>,即类别权重最大的作为测试文本的所属类别,最终得到所有测试文本的分类结果,为下面的聚类分析和热点事件发现做好准备;步骤2:根据分类结果,利用聚类方法分别对各个类别的测试文本进行热点事件发现;热点分析子系统包括聚类、热点特征词提取、热点事件分析等模块,包括:步骤2‑1:聚类;根据文本分类的结果,分别对测试语料库中各个类别的所有文本进行聚类处理,进而发现网络热点簇;对文本预处理子系统中提供的文本向量,利用K‑means聚类模块进行相关的运算,得到聚类的结果,从而发现与热点相关的簇和属于该簇的文本集合,对每个类别的所有测试文本的聚类分析包括如下步骤:第一步:首选随机选出k个文本对象,每个被选择的文本对象表示一个簇的初始中心;第二步:计算该类别中的每个文本对象X<sub>j</sub>与各个簇中心的距离,并把X<sub>j</sub>划分到离它最近的聚类中心所在的簇中,之后利用各簇中所有文本对象的文本特征向量的均值更新簇中心;第三步:重复上述第二步,直到该类别所有测试文本对象X<sub>j</sub>的簇不再变化为止,这样就得到了k个热点簇C<sub>1</sub>,C<sub>2</sub>,…,C<sub>k</sub>;对测试集中每个类别分别得到若干热点簇;步骤2‑2:热点特征词提取;根据聚类模块计算出的各个簇中心,对每个簇中心而言,把簇中心的特征向量中权重前80%大的特征词提取出来,作为该热点的代表性特征;步骤2‑3:热点事件分析;利用各个特征词的词性和相关的语言知识,对由提取模块得到的各个热点事件的特征词进行必要的语言组织,从而形成热点事件的完整描述;权值排序倒数20%的特征词也有价值,从侧面为热点提供附加信息。 |