发明名称 一种基于主题模型的文档标注方法
摘要 本发明的目的在于实现一种基于主题模型的标注文档的方法,能够快速地为文章标注标签,人们可以通过这些标签准确了解文章的主题以及类别。本发明为文章标注标签的过程分为四个阶段:1)选取训练集的文章,并分为若干类;2)对训练集中的每一类文档提取主题、标注标签;3)构造整个训练集的向量空间;4)对测试集的每篇文章进行打标签处理,从而实现为文章标注标签的功能。本发明具有高效性和准确性,可以减少用户的信息负担,并且在需求数据提取、特定主题文章搜索、广告针对投放等方面具有很好的应用价值。
申请公布号 CN106407169A 申请公布日期 2017.02.15
申请号 CN201610812364.9 申请日期 2016.09.09
申请人 北京工商大学 发明人 赵霞;刘泽;钱国伟;马延辉;李司宇;于田昊
分类号 G06F17/24(2006.01)I;G06K9/62(2006.01)I 主分类号 G06F17/24(2006.01)I
代理机构 北京万象新悦知识产权代理事务所(普通合伙) 11360 代理人 贾晓玲
主权项 一种为文章标注标签的方法,其步骤包括:A.选取训练集的文章,并分为若干类;B.选取某一类文档N(N≥1)篇作为训练样本,用LDA方法提取主题的主题词及其概率分布,具体步骤如下:B1.对选取的每一篇文档进行预处理以及分词处理,形成训练集,具体步骤如下:B1.1.将文档中的繁体转化为简体;B1.2.将文档转化成UTF‑8编码;B1.3.去除文档中的标点符号;B1.4.对文档进行分词处理;B1.5.将处理后的每个文档作为一行合并到一个文档中,作为训练集;B2.通过LDA对训练集进行多次迭代提取主题模型,得到主题的主题词及其概率分布,具体步骤如下:B2.1.通过训练得到合适的α、β参数,以便获取能充分表达文档主题特征的主题。α的变化影响文档和主题之间的分布,调整α参数使得对于内容集中的文档,提取的主题可以表达全局文档共有的主题;对于内容分散的文档,提取的主题可以表达局部文档专有的主题。β的变化影响词语和主题之间的分布,调整β参数使得主题词表达的是比较集中的主题或者是比较分散的主题;B2.2.以N/25作为初始主题数,对训练集进行多次迭代提取主题模型;C.通过算法筛选优势主题,人工为每个优势主题标注标签F<sub>i</sub>,具体步骤如下:C.1.求所有主题的主题词的概率的平均值p;C.2.选取阈值参数ε(1≤ε≤3),设置概率阈值p′=p/ε;C.3.将每个主题的主题词概率和与p′比较,概率值大于p′的主题为优势主题;C.4.请专业人士为每个优势主题标注标签F<sub>i</sub>;D.将训练集中所有类别的所有优势主题的主题词用word2vec转换到一个高维向量空间S中,每个主题的主题词对应的向量构成一个集合A<sub>i</sub>,具体步骤如下:D.1.将训练集中所有优势主题的主题词作为word2vec的输入,每一行代表一个优势主题的主题词;D.2.设置word2vec参数,经过word2vec训练,输出为多维词向量集合;E.求每个主题的向量集合A<sub>i</sub>的重心向量V<sub>i</sub>,将训练集中所有的向量V<sub>i</sub>构成一个高维向量集合A′,具体步骤如下:E.1.假设训练集中的主题为{T<sub>1</sub>,T<sub>2</sub>,...,T<sub>m</sub>},每个主题的主题词为{W<sub>1</sub>,W<sub>2</sub>,...,W<sub>k</sub>},每个主题词向量为W<sub>i</sub>(x<sub>i1</sub>,x<sub>i2</sub>,...,x<sub>in</sub>)(1≤i≤k,n=400),每个主题的重心向量为V<sub>j</sub>(y<sub>j1</sub>,y<sub>j2</sub>,...,y<sub>jn</sub>)(1≤j≤m,n=400),求重心向量V<sub>j</sub>的每一个元素y<sub>jp</sub>的公式为:<img file="FDA0001111882880000021.GIF" wi="788" he="134" />E.2.将训练集中所有的高维向量V<sub>i</sub>构成一个高维向量集合A′={V<sub>1</sub>,V<sub>2</sub>,...,V<sub>m</sub>};F.为每篇被测文章提取一个主题,将该主题的主题词转换为S空间中的一个高维向量集合B,具体实现如下:F1.对被测文章进行预处理以及分词处理,具体实现按照B1过程进行;F2.通过LDA对被测文章进行多次迭代提取一个主题,得到该主题的主题词及其概率分布;F3.将主题词转换为S空间中的一个高维向量集合B,具体实现按照D过程进行;G.求集合B的重心向量B′,具体实现按照E.1过程进行;H.在A′中找到与B′最相似的主题的向量V<sub>i</sub>,把V<sub>i</sub>对应的标签F<sub>i</sub>赋给被测文章,从而实现为文章标注标签的功能。
地址 100048 北京市海淀区阜成路33号