一种快速的短文本双聚类方法,申请号CN201310133656.6-传众专利搜索

发明名称	一种快速的短文本双聚类方法
摘要	一种快速的短文本双聚类方法，包括以下步骤：1）短文本干扰项的预处理，在无关语词典和词类词典的支持下，对短文本进行快速进行的无关语和词类识别和处理识别；2）计算预处理后的两个短文本相似度，形成在短文本相似度稀疏矩阵；3）在短文本相似度稀疏矩阵上进行短文本一级聚类，根据短文本相似度的结算结果，将相似的短文本划分成一个一个的簇；4）在一级聚类结果基础上进行短文本二级聚类。
申请公布号	CN103177125B	申请公布日期	2016.04.27
申请号	CN201310133656.6	申请日期	2013.04.17
申请人	镇江诺尼基智能技术有限公司	发明人	符建辉;刘亮亮;王石;王卫民
分类号	G06F17/30(2006.01)I;G06F17/27(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	南京知识律师事务所 32207	代理人	汪旭东
主权项	一种快速的短文本双聚类方法，其特征在于：包括以下步骤：步骤1)短文本干扰项的预处理，在无关语词典和词类词典的支持下，对短文本进行快速的无关语和词类识别和处理；步骤2)计算预处理后的两个短文本相似度，形成短文本相似度稀疏矩阵；步骤3)在短文本相似度稀疏矩阵上进行短文本一级聚类，根据短文本相似度的计算结果，将相似的短文本划分成一个一个的簇；步骤4)在一级聚类结果基础上进行短文本二级聚类；所述的步骤2)包括计算短文本相似度的方法：对两个短文本S<sub>i</sub>和S<sub>j</sub>，它们的相似度计算方法为：<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>S</mi><mi>S</mi><mi>i</mi><mi>m</mi><mrow><mo>(</mo><mrow><msub><mi>S</mi><mi>i</mi></msub><mo>,</mo><msub><mi>S</mi><mi>j</mi></msub></mrow><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><msubsup><mi>Σ</mi><mrow><mi>s</mi><mo>=</mo><mn>1</mn></mrow><mi>h</mi></msubsup><mrow><mo>(</mo><mrow><mn>1</mn><mo>-</mo><mo>\|</mo><mi>A</mi><mrow><mo>(</mo><mrow><mi>i</mi><mo>,</mo><msub><mi>a</mi><mi>s</mi></msub></mrow><mo>)</mo></mrow><mo>-</mo><mi>B</mi><mrow><mo>(</mo><mrow><mi>j</mi><mo>,</mo><msub><mi>b</mi><mi>s</mi></msub></mrow><mo>)</mo></mrow><mo>\|</mo></mrow><mo>)</mo></mrow></mrow><mrow><mo>\|</mo><msub><msup><mi>S</mi><mrow><mo>′</mo><mo>′</mo></mrow></msup><mi>i</mi></msub><mo>∪</mo><msub><msup><mi>S</mi><mrow><mo>′</mo><mo>′</mo></mrow></msup><mi>j</mi></msub><mo>\|</mo></mrow></mfrac></mrow>]]></math><img file="FDA0000929988020000011.GIF" wi="903" he="151" /></maths>\|S<sub>i</sub>\|和\|S<sub>j</sub>\|分别表示为S<sub>i</sub>和S<sub>j</sub>的长度m和n，对应的k‑gram序列分别为：S”<sub>i</sub>＝{w[i,1]..w[i,k],w[i,2]…w[i,k+1],…,w[i,a]…w[i,k+a‑1],…,w[i,m‑k+1]…w[i,m]}，S”<sub>j</sub>＝{w[j,1]..w[j,k],w[j,2]…w[j,k+1],…,w[j,b]…w[j,k+b‑1],…,w[j,n‑k+1]…w[j,n]}。计算S<sub>i</sub>和S<sub>j</sub>的位置同元相似度的方法如下：<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><mi>A</mi><mrow><mo>(</mo><mrow><mi>i</mi><mo>,</mo><mi>a</mi></mrow><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>min</mi><mrow><mo>(</mo><mrow><mi>a</mi><mo>,</mo><mi>m</mi><mo>-</mo><mi>a</mi><mo>+</mo><mi>k</mi><mo>+</mo><mn>1</mn></mrow><mo>)</mo></mrow></mrow><mi>m</mi></mfrac></mrow>]]></math><img file="FDA0000929988020000012.GIF" wi="614" he="119" /></maths><maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><mi>B</mi><mrow><mo>(</mo><mrow><mi>i</mi><mo>,</mo><mi>b</mi></mrow><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>min</mi><mrow><mo>(</mo><mrow><mi>b</mi><mo>,</mo><mi>m</mi><mo>-</mo><mi>b</mi><mo>+</mo><mi>k</mi><mo>+</mo><mn>1</mn></mrow><mo>)</mo></mrow></mrow><mi>n</mi></mfrac></mrow>]]></math><img file="FDA0000929988020000013.GIF" wi="623" he="112" /></maths><img file="FDA0000929988020000014.GIF" wi="974" he="555" />其中两个集合的交集中共有h个元素；我们用w[i,a<sub>1</sub>]…w[i,k+a<sub>1</sub>‑1]＝w[j,b<sub>1</sub>]…w[j,k+b<sub>1</sub>‑1]表示交集中的两个元素分别来自于S”<sub>i</sub>和S”<sub>j</sub>中的哪两个元素。
地址	212009 江苏省镇江市丁卯经十二路468号双子研发楼北楼18楼