发明名称 一种快速的短文本双聚类方法
摘要 一种快速的短文本双聚类方法,包括以下步骤:1)短文本干扰项的预处理,在无关语词典和词类词典的支持下,对短文本进行快速进行的无关语和词类识别和处理识别;2)计算预处理后的两个短文本相似度,形成在短文本相似度稀疏矩阵;3)在短文本相似度稀疏矩阵上进行短文本一级聚类,根据短文本相似度的结算结果,将相似的短文本划分成一个一个的簇;4)在一级聚类结果基础上进行短文本二级聚类。
申请公布号 CN103177125B 申请公布日期 2016.04.27
申请号 CN201310133656.6 申请日期 2013.04.17
申请人 镇江诺尼基智能技术有限公司 发明人 符建辉;刘亮亮;王石;王卫民
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 南京知识律师事务所 32207 代理人 汪旭东
主权项 一种快速的短文本双聚类方法,其特征在于:包括以下步骤:步骤1)短文本干扰项的预处理,在无关语词典和词类词典的支持下,对短文本进行快速的无关语和词类识别和处理;步骤2)计算预处理后的两个短文本相似度,形成短文本相似度稀疏矩阵;步骤3)在短文本相似度稀疏矩阵上进行短文本一级聚类,根据短文本相似度的计算结果,将相似的短文本划分成一个一个的簇;步骤4)在一级聚类结果基础上进行短文本二级聚类;所述的步骤2)包括计算短文本相似度的方法:对两个短文本S<sub>i</sub>和S<sub>j</sub>,它们的相似度计算方法为:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>S</mi><mi>S</mi><mi>i</mi><mi>m</mi><mrow><mo>(</mo><mrow><msub><mi>S</mi><mi>i</mi></msub><mo>,</mo><msub><mi>S</mi><mi>j</mi></msub></mrow><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><msubsup><mi>&Sigma;</mi><mrow><mi>s</mi><mo>=</mo><mn>1</mn></mrow><mi>h</mi></msubsup><mrow><mo>(</mo><mrow><mn>1</mn><mo>-</mo><mo>|</mo><mi>A</mi><mrow><mo>(</mo><mrow><mi>i</mi><mo>,</mo><msub><mi>a</mi><mi>s</mi></msub></mrow><mo>)</mo></mrow><mo>-</mo><mi>B</mi><mrow><mo>(</mo><mrow><mi>j</mi><mo>,</mo><msub><mi>b</mi><mi>s</mi></msub></mrow><mo>)</mo></mrow><mo>|</mo></mrow><mo>)</mo></mrow></mrow><mrow><mo>|</mo><msub><msup><mi>S</mi><mrow><mo>&prime;</mo><mo>&prime;</mo></mrow></msup><mi>i</mi></msub><mo>&cup;</mo><msub><msup><mi>S</mi><mrow><mo>&prime;</mo><mo>&prime;</mo></mrow></msup><mi>j</mi></msub><mo>|</mo></mrow></mfrac></mrow>]]></math><img file="FDA0000929988020000011.GIF" wi="903" he="151" /></maths>|S<sub>i</sub>|和|S<sub>j</sub>|分别表示为S<sub>i</sub>和S<sub>j</sub>的长度m和n,对应的k‑gram序列分别为:S”<sub>i</sub>={w[i,1]..w[i,k],w[i,2]…w[i,k+1],…,w[i,a]…w[i,k+a‑1],…,w[i,m‑k+1]…w[i,m]},S”<sub>j</sub>={w[j,1]..w[j,k],w[j,2]…w[j,k+1],…,w[j,b]…w[j,k+b‑1],…,w[j,n‑k+1]…w[j,n]}。计算S<sub>i</sub>和S<sub>j</sub>的位置同元相似度的方法如下:<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><mi>A</mi><mrow><mo>(</mo><mrow><mi>i</mi><mo>,</mo><mi>a</mi></mrow><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>min</mi><mrow><mo>(</mo><mrow><mi>a</mi><mo>,</mo><mi>m</mi><mo>-</mo><mi>a</mi><mo>+</mo><mi>k</mi><mo>+</mo><mn>1</mn></mrow><mo>)</mo></mrow></mrow><mi>m</mi></mfrac></mrow>]]></math><img file="FDA0000929988020000012.GIF" wi="614" he="119" /></maths><maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><mi>B</mi><mrow><mo>(</mo><mrow><mi>i</mi><mo>,</mo><mi>b</mi></mrow><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>min</mi><mrow><mo>(</mo><mrow><mi>b</mi><mo>,</mo><mi>m</mi><mo>-</mo><mi>b</mi><mo>+</mo><mi>k</mi><mo>+</mo><mn>1</mn></mrow><mo>)</mo></mrow></mrow><mi>n</mi></mfrac></mrow>]]></math><img file="FDA0000929988020000013.GIF" wi="623" he="112" /></maths><img file="FDA0000929988020000014.GIF" wi="974" he="555" />其中两个集合的交集中共有h个元素;我们用w[i,a<sub>1</sub>]…w[i,k+a<sub>1</sub>‑1]=w[j,b<sub>1</sub>]…w[j,k+b<sub>1</sub>‑1]表示交集中的两个元素分别来自于S”<sub>i</sub>和S”<sub>j</sub>中的哪两个元素。
地址 212009 江苏省镇江市丁卯经十二路468号双子研发楼北楼18楼