一种基于主题模型的文档标注方法,申请号CN201610812364.9-传众专利搜索

发明名称	一种基于主题模型的文档标注方法
摘要	本发明的目的在于实现一种基于主题模型的标注文档的方法，能够快速地为文章标注标签，人们可以通过这些标签准确了解文章的主题以及类别。本发明为文章标注标签的过程分为四个阶段：1)选取训练集的文章，并分为若干类；2)对训练集中的每一类文档提取主题、标注标签；3)构造整个训练集的向量空间；4)对测试集的每篇文章进行打标签处理，从而实现为文章标注标签的功能。本发明具有高效性和准确性，可以减少用户的信息负担，并且在需求数据提取、特定主题文章搜索、广告针对投放等方面具有很好的应用价值。
申请公布号	CN106407169A	申请公布日期	2017.02.15
申请号	CN201610812364.9	申请日期	2016.09.09
申请人	北京工商大学	发明人	赵霞;刘泽;钱国伟;马延辉;李司宇;于田昊
分类号	G06F17/24(2006.01)I;G06K9/62(2006.01)I	主分类号	G06F17/24(2006.01)I
代理机构	北京万象新悦知识产权代理事务所(普通合伙) 11360	代理人	贾晓玲
主权项	一种为文章标注标签的方法，其步骤包括：A.选取训练集的文章，并分为若干类；B.选取某一类文档N(N≥1)篇作为训练样本，用LDA方法提取主题的主题词及其概率分布，具体步骤如下：B1.对选取的每一篇文档进行预处理以及分词处理，形成训练集，具体步骤如下：B1.1.将文档中的繁体转化为简体；B1.2.将文档转化成UTF‑8编码；B1.3.去除文档中的标点符号；B1.4.对文档进行分词处理；B1.5.将处理后的每个文档作为一行合并到一个文档中，作为训练集；B2.通过LDA对训练集进行多次迭代提取主题模型，得到主题的主题词及其概率分布，具体步骤如下：B2.1.通过训练得到合适的α、β参数，以便获取能充分表达文档主题特征的主题。α的变化影响文档和主题之间的分布，调整α参数使得对于内容集中的文档，提取的主题可以表达全局文档共有的主题；对于内容分散的文档，提取的主题可以表达局部文档专有的主题。β的变化影响词语和主题之间的分布，调整β参数使得主题词表达的是比较集中的主题或者是比较分散的主题；B2.2.以N/25作为初始主题数，对训练集进行多次迭代提取主题模型；C.通过算法筛选优势主题，人工为每个优势主题标注标签F<sub>i</sub>，具体步骤如下：C.1.求所有主题的主题词的概率的平均值p；C.2.选取阈值参数ε(1≤ε≤3)，设置概率阈值p′＝p/ε；C.3.将每个主题的主题词概率和与p′比较，概率值大于p′的主题为优势主题；C.4.请专业人士为每个优势主题标注标签F<sub>i</sub>；D.将训练集中所有类别的所有优势主题的主题词用word2vec转换到一个高维向量空间S中，每个主题的主题词对应的向量构成一个集合A<sub>i</sub>，具体步骤如下：D.1.将训练集中所有优势主题的主题词作为word2vec的输入，每一行代表一个优势主题的主题词；D.2.设置word2vec参数，经过word2vec训练，输出为多维词向量集合；E.求每个主题的向量集合A<sub>i</sub>的重心向量V<sub>i</sub>，将训练集中所有的向量V<sub>i</sub>构成一个高维向量集合A′，具体步骤如下：E.1.假设训练集中的主题为{T<sub>1</sub>,T<sub>2</sub>,...,T<sub>m</sub>},每个主题的主题词为{W<sub>1</sub>,W<sub>2</sub>,...,W<sub>k</sub>},每个主题词向量为W<sub>i</sub>(x<sub>i1</sub>,x<sub>i2</sub>,...,x<sub>in</sub>)(1≤i≤k,n＝400)，每个主题的重心向量为V<sub>j</sub>(y<sub>j1</sub>,y<sub>j2</sub>,...,y<sub>jn</sub>)(1≤j≤m,n＝400)，求重心向量V<sub>j</sub>的每一个元素y<sub>jp</sub>的公式为：<img file="FDA0001111882880000021.GIF" wi="788" he="134" />E.2.将训练集中所有的高维向量V<sub>i</sub>构成一个高维向量集合A′＝{V<sub>1</sub>,V<sub>2</sub>,...,V<sub>m</sub>}；F.为每篇被测文章提取一个主题，将该主题的主题词转换为S空间中的一个高维向量集合B，具体实现如下：F1.对被测文章进行预处理以及分词处理，具体实现按照B1过程进行；F2.通过LDA对被测文章进行多次迭代提取一个主题，得到该主题的主题词及其概率分布；F3.将主题词转换为S空间中的一个高维向量集合B，具体实现按照D过程进行；G.求集合B的重心向量B′，具体实现按照E.1过程进行；H.在A′中找到与B′最相似的主题的向量V<sub>i</sub>，把V<sub>i</sub>对应的标签F<sub>i</sub>赋给被测文章，从而实现为文章标注标签的功能。
地址	100048 北京市海淀区阜成路33号