一种基于语义类的多主题提取方法,申请号CN201410178218.6-传众专利搜索

发明名称	一种基于语义类的多主题提取方法
摘要	本发明提供了一种基于语义类的多主题提取方法，包含以下步骤：首先使用传统方法对文档进行预处理后初步得到由特征词组成的向量；其次利用《知网》词义与概念间的对应关系对同义词进行归并，根据语义类与上下文语境的相关性对多义词进行排歧，构造概念向量模型表示该文档；接着根据概念与语义类的一一对应关系，把概念模型转换成语义类模型；再利用《知网》中概念的相关语义信息计算概念相似度进而得到语义类相似度，通过“预设种子”的方法改进K‑means算法对语义类进行聚类，形成多个主题语义类簇；最后根据语义类与概念及概念与词的对应关系，逆向得到多个子主题词集。该方法考虑了语义信息，克服K‑means算法对初始中心的敏感性和时空开销不稳定等缺陷，提高了提取主题的质量。
申请公布号	CN103970729B	申请公布日期	2016.08.24
申请号	CN201410178218.6	申请日期	2014.04.29
申请人	河海大学	发明人	马甲林;王志坚
分类号	G06F17/27(2006.01)I;G06F17/30(2006.01)I	主分类号	G06F17/27(2006.01)I
代理机构	南京经纬专利商标代理有限公司 32200	代理人	朱小兵
主权项	一种基于语义类的多主题提取方法，其特征在于，包括以下步骤：Step1：向量模型表示：对文本进行预处理，以得到由特征词组成的向量，并通过向量空间模型将所述预处理后的文本表示成特征词组成的向量；具体为：Step1‑1：使用分词系统对待处理文本T进行分词，接着，进行去停、去噪，之后，得到所述文本的初级向量空间模型T’＝{C<sub>1</sub>，C<sub>2</sub>，…，C<sub>n</sub>}，其中C<sub>1</sub>，C<sub>2</sub>，…，C<sub>n</sub>表示n个由特征词组成的向量，所述去停是指过滤文本中出现的停用词，所述去噪是指过滤文本中出现的无实际意义的词汇；Step1‑2：从初级向量空间模型中进一步提取特征向量，以得到该文本的高级向量空间模型T”＝{C<sub>1</sub>，C<sub>2</sub>，…，C<sub>m</sub>}，其中m<＝n；Step2：概念模型映射：基于以概念来表达自然语言词汇语义且以树形结构来表示概念间语义关系的语义知识库，利用词义与所述概念之间的对应关系对所述预处理后的组成文本的特征词进行概念映射，在概念映射过程中，文本中的同义词自动进行归并，接着，根据语义类与上下文语境的相关性对文中出现的多义词进行排歧，之后，将所述经过归并和排歧后的文本的向量空间模型映射成概念空间模型；具体为：Step2‑1：对待处理文本T对应的高级向量空间模型T”中所有特征词依次查询语义知识库，进行概念映射；Step2‑1‑1：查询知识库，若T”的特征词C<sub>m</sub>对应唯一的概念，则C<sub>m</sub>为单义词或同义词，直接获取C<sub>m</sub>的概念，转至步骤Setp2‑2；Step2‑1‑2：查询知识库，若T”的特征词C<sub>m</sub>对应多个概念，则特征词C<sub>m</sub>为多义词，则需对多义词C<sub>m</sub>进行词义排歧，选择出适合该文上下文语境的概念；具体为：Step2‑1‑2‑1：查询知识库，多义词C<sub>m</sub>对应多个概念，描述概念语义的基本义原集够成了一个语义类，因而多义词C<sub>m</sub>对应多个语义类，从而可获得描述基本义原集的词组，所述词组成为一组反映语义类语义相关的词组；Step2‑1‑2‑2：计算多义词C<sub>m</sub>每一个语义类成员词在该文中的信息量，所述成员词w<sub>i</sub>在该文中所含的信息量H(w<sub>i</sub>)计算公式如下：H(w<sub>i</sub>)＝‑TF(w<sub>i</sub>,ST)×log[p(w<sub>i</sub>)]，其中，TF(w<sub>i</sub>，ST)表示词w<sub>i</sub>在文本中出现的频率，ST表示文本，P(w<sub>i</sub>)为词w<sub>i</sub>的概率分布；Step2‑1‑2‑3：计算多义词C<sub>m</sub>每一个语义类的权值，它的第i个语义类L<sub>i</sub>权值为：<maths num="0001"><math><![CDATA[<mrow><mi>C</mi><mi>W</mi><mi>e</mi><mi>i</mi><mi>g</mi><mi>h</mi><mi>t</mi><mrow><mo>(</mo><msub><mi>L</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>=</mo><munderover><mo>Σ</mo><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><mi>H</mi><mrow><mo>(</mo><msub><mi>w</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>×</mo><msub><mi>log</mi><mn>2</mn></msub><mi>n</mi><mo>,</mo></mrow>]]></math><img file="FDA0001026778570000021.GIF" wi="803" he="127" /></maths>其中，n为语义类L<sub>i</sub>成员词在文中出现个数，语义类权值越大，该语义类成员词对文本语义的贡献越大；Step2‑1‑2‑4：为多义词C<sub>m</sub>选择符合该文上下文语义语境的最优概念，公式如下：<maths num="0002"><math><![CDATA[<mrow><msub><mi>Best</mi><mrow><msub><mi>C</mi><mi>m</mi></msub><msub><mi>L</mi><mi>i</mi></msub></mrow></msub><mo>=</mo><mi>M</mi><mi>A</mi><mi>X</mi><mrow><mo>(</mo><mi>C</mi><mi>W</mi><mi>e</mi><mi>i</mi><mi>g</mi><mi>h</mi><mi>t</mi><mo>(</mo><msub><mi>L</mi><mi>i</mi></msub><mo>)</mo><mo>)</mo></mrow><mo>;</mo></mrow>]]></math><img file="FDA0001026778570000022.GIF" wi="827" he="87" /></maths>Step2‑2：得到文本T对应概念向量G＝{(G<sub>1</sub>,C<sub>1</sub>)，(G<sub>2</sub>,C<sub>2</sub>)，…(G<sub>q</sub>，C<sub>q</sub>)}；Step2‑3：进一步按照概念进行整理输出文本T对应概念向量G＝{(G1，(C<sub>1</sub>，...，C<sub>i</sub>))，(G<sub>2</sub>，(C<sub>2</sub>，...，C<sub>j</sub>))，…，(G<sub>q</sub>，(C<sub>q</sub>，...，C<sub>k</sub>))}，其中(C<sub>q</sub>，...，C<sub>k</sub>)为概念G<sub>q</sub>在文中对应出现的词；Step3：语义类模型转换：根据语义知识库中概念的表示方式及语义类的定义，二者具有一一对应关系，以将概念模型表示的文本转换成语义类模型；具体为：根据Step2得到的待处理文本T的概念向量G＝{(G<sub>1</sub>，(C<sub>1</sub>，...，C<sub>i</sub>))，(G<sub>2</sub>，(C<sub>2</sub>，...，C<sub>j</sub>))，…，(G<sub>q</sub>，(C<sub>q</sub>，...，C<sub>k</sub>))}，查询所述语义知识库，将T转换成语义类模型，T的每个分量用五元组表示；进一步，所述五元组的形式为(L<sub>i</sub>，w<sub>i</sub>，(C<sub>1</sub>，...，C<sub>k</sub>)，G<sub>i</sub>，(C<sub>1</sub>，...，C<sub>i</sub>))表示，其中，L<sub>i</sub>为语义类，w<sub>i</sub>为L<sub>i</sub>的权值，(C<sub>1</sub>，...，C<sub>k</sub>，C<sub>1</sub>，...，C<sub>i</sub>)为L<sub>i</sub>的成员词，G<sub>i</sub>为L<sub>i</sub>对应的概念；进一步，所述语义类权值w<sub>i</sub>根据Step2‑1‑2‑2词在文中信息量的公式计算上述语义类L<sub>i</sub>所有成员词信息量，接着，根据Step2‑1‑2‑3语义类权值计算公式计算L<sub>i</sub>权值；Step4：多主题词提取：使用改进的K‑means算法对所述表示为语义类模型的文本的所有语义类进行聚类，形成多个主题语义类簇，对形成的多个主题语义类簇，根据语义类与概念的对应关系及概念和原文本特征词对应关系，逆向得到多个主题特征词集，以提取单个中文文本中的多主题词。
地址	210098 江苏省南京市鼓楼区西康路1号