发明名称 一种基于百度百科的文本语义主题抽取方法
摘要 本发明一种基于百度百科的文本语义主题抽取方法,利用百度百科首先建立百科词条前缀关系库,并计算出整个词条空间的语义关系,再利用前缀关系库来对未知文本进行词条发现与候选语义主题统计,并建立语义主题图,依据主题关系矩阵对语义主题图中各顶点进行权值调整,再根据语义主题图的语义离散度来抽取最终语义主题,避开传统通过单纯的词条统计方式,能在很大程度上解决基于词条统计的文本主题方法准确率不高的问题。
申请公布号 CN102662998B 申请公布日期 2015.07.15
申请号 CN201210068103.2 申请日期 2012.03.14
申请人 华侨大学 发明人 陈叶旺
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 泉州市文华专利代理有限公司 35205 代理人 廖仲禧
主权项 一种基于百度百科的文本语义主题抽取方法,其特征在于包括以下几个步骤:(1)将所有的百度百科词条转化成为一个百科词库前缀关系;设文本T=t<sub>1</sub>t<sub>2</sub>…t<sub>n</sub>由n个汉字组成,其中n&gt;1,Ri=T[1…i]表示文本T的从第1到第i个字符串,该i&gt;1,这样长度为n的文本T有n‑1个非空前缀,分别为R2,R3,…Rn,文本T的前缀数组是由R2,…,Rn组成的n‑1个字符串数组,记为PRE(T)={R2,R3,…Rn};令三元组α<sub>R</sub>=&lt;R,B,TS&gt;为前缀关系,表示字符串前缀R与百度百科词库中词条的关系,B表示该前缀是否为一个完整词条,TS表示一个词条集合;令词库C={C<sub>1</sub>,C<sub>2</sub>…C<sub>n</sub>},由n个词条组成,对百度百科词库中每一个词条C<sub>i</sub>的所有前缀都生成相应的前缀关系,将所有的前缀关系组成的集合称为百科词库前缀关系;(2)计算出所有百度百科词条之间的语义关系,形成一个主题关系矩阵;定义百科词条w的一个开放分类e为百科词条w的一个语义主题;若百科词条w的开放分类中包含语义主题e,则称百科词条w和语义主题e语义相关,反之称百科词条w与语义主题e语义不相关,若文本T中存在一个词条w与语义主题e语义相关,则称文本T和语义主题e也语义相关,反之称文本T与语义主题e语义不相关;令E={e<sub>1</sub>,e<sub>2</sub>…e<sub>n</sub>}为网络文本T的语义主题空间,其中,e<sub>i</sub>表示第i个语义主题,n为语义主题空间E中的语义主题个数;定义主题布尔关系矩阵R:矩阵R=(a<sub>i,j</sub>)<sub>n×n</sub>是一张二维布尔关系,<sub>ai,j</sub>表示矩阵中的数值元素,若a<sub>i,j</sub>=1,表示第i个开放分类作为一个百科词条的开放分类中包含了第j个开放分类,即二者相关;定义m步主题布尔关系矩阵<img file="FDA0000694514410000021.GIF" wi="479" he="133" />设R为主题布尔关系矩阵,则<img file="FDA0000694514410000022.GIF" wi="419" he="124" />为R的m步主题布尔关系矩阵,若a<sup>(m‑1)</sup><sub>i,j</sub>=0∧a<sup>(m)</sup><sub>i,j</sub>=1,则表示第i个主题e<sub>i</sub>到第j个主题e<sub>j</sub>之间存在一条步长为m的关联通路;定义主题布尔关系矩阵R的稳定矩阵:设R<sup>(k)</sup>为k步主题布尔关系矩阵,若R<sup>(k‑1)</sup>≠R<sup>(k)</sup>且<img file="FDA0000694514410000024.GIF" wi="151" he="71" />都有R<sup>(k)</sup>=R<sup>(p)</sup>,则称k步主题布尔关系矩阵R<sup>(k)</sup>为主题布尔关系矩阵R的稳定矩阵;设R为主题布尔关系矩阵,n为语义主题空间中语义主题的个数,则必存在一个正整数k&lt;n,使得R<sup>(k)</sup>为R的稳定矩阵;定义主题关系:设R=(a<sub>i,j</sub>)<sub>n×n</sub>为主题布尔关系矩阵,R<sup>(k)</sup>为稳定主题布尔关系矩阵,主题关系矩阵定义为:<img file="FDA0000694514410000023.GIF" wi="1276" he="169" />其中m、k均为正整数,ρ是一个取值在区间(0,1)的常系数;该稳定主题关系布尔矩阵R<sup>(k)</sup>表示的是语义主题之间是否有关,而语义主题关系表示的是语义主题之间量化的相关关系,若语义主题i与j之间步长越长,在主题关系中q<sub>i,j</sub>值越小,相关度越低;利用百度百科所有词条的开放分类作为候选语义主题,m步主题关系的求法步骤如下:A初始化主题关系集合为空,令n为词条集合TS中的主题关系个数,ρ为主题相关度值,循环取出词条集合TS中的每一个词条t,对应每一个词条t中的开放分类o,把主题关系二元组&lt;t,o,ρ&gt;加入到主题关系集合中;B主题关系生成:令n为主题关系集合中的主题关系个数,对主题关系集合中的所有主题关系循环扫描,若在第k层上发现有主题关系未存在于主题关系集合中,则将其并入主题关系集合中,并设相关度值为ρ<sup>k</sup>,直到主题关系集合不再发生变化为止;(3)对于一段未知文本,利用百度百科词库前缀关系,进行快速词条发现,找出所有可能涉及的词条,形成候选词条集合;设文本T包括长度为n的字符串,T[i,j]表示文本T的从第i个字符到第j个字符串,记为C<sub>i,j</sub>,若C<sub>i,j</sub>是一个百科词条,则其为文本T的候选词条;令文本T字符串长度为n,从文本T的第一个字符开始循环扫描到最后一个字符,取出连续字符串s,如果字符串s在步骤(1)的百科词库前缀关系中未能找到,则进入下一重循环,否则将字符串s作为一个候选词条,加入到候选词条集合中,取文本T的下一个字符与该连续字符串s合并,继续上述候选词条的判断步骤,直至文本T的最后一个字符;(4)把所有候选词条对应的百度百科的开放分类作为文本T的候选语义主题;对于一段网络文本T,按步骤(3)找出该文本T所有的候选词条ts,把所有候选词条的全部开放分类作为这段文本T的候选语义主题,对每一个候选语义主题都统记为<img file="FDA0000694514410000041.GIF" wi="278" he="150" />其中,δ<sub>j</sub>(e)取值为1或0,取1时表示第j个词条和语义主题e相关,反之取值0,|ts|表示文本T的所有候选词条总数;(5)通过主题关系矩阵,将上述候选语义主题转化成为一张有向语义主题图;把所有的候选语义主题e看作是一张有向图的顶点,对于顶点e来说Te是它的权重,顶点之间是否有通路以及顶点之间的距离,由主题关系决定,如果两顶点在主题关系矩阵中对应的相关度值q&gt;0,则两个顶点之间有通路;(6)根据主题关系矩阵对有向语义主题图的权值进行调整;设网络文本T的K个语义主题分别为e<sub>1</sub>,e<sub>2</sub>…e<sub>k</sub>,K个语义主题的在文本T中出现次数统计值形成的一个向量记为A=(Te<sub>1</sub>,Te<sub>2</sub>,…Te<sub>k</sub>),令在m步主题关系矩阵Q<sup>(m)</sup>中,这K个语义主题形成的子集为一个矩阵设为<img file="FDA0000694514410000042.GIF" wi="194" he="125" />那么可以对上述的统计值进行重新调整,记为A',<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><msup><mi>A</mi><mo>&prime;</mo></msup><mo>=</mo><mi>A</mi><mo>&times;</mo><msubsup><mi>Q</mi><mrow><mi>e</mi><mn>1</mn><mo>,</mo><mi>e</mi><mn>2</mn><mo>.</mo><mo>.</mo><mo>.</mo><mi>ek</mi></mrow><mrow><mo>(</mo><mi>m</mi><mo>)</mo></mrow></msubsup></mrow>]]></math><img file="FDA0000694514410000043.GIF" wi="357" he="108" /></maths>调整后的任意一个顶点的统计值就是以该点为中心的m步范围之内的语义总和;(7)将有向语义主题图转化为无向语义主题图后,划分成若干连通区域;将步骤(6)中调整后的有向语义主题图转化为无向语义主题图,可以将其切分成若干连通区域Reg<sub>1</sub>Reg<sub>2</sub>…Reg<sub>n</sub>,同一个区域的两个顶点有通路,不同区域的顶点之间则无通路;对于无向语义主题图中的任意一个连通区域Reg<sub>i</sub>,把其当作一个整体统计它在整个图中的权重p,<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><mi>p</mi><mrow><mo>(</mo><msub><mi>Reg</mi><mi>i</mi></msub><mo>|</mo><mi>T</mi><mo>)</mo></mrow><mo>=</mo><mfrac><msub><mi>T</mi><msub><mi>Reg</mi><mi>i</mi></msub></msub><mrow><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msub><mi>T</mi><msub><mi>Reg</mi><mi>i</mi></msub></msub></mrow></mfrac></mrow>]]></math><img file="FDA0000694514410000051.GIF" wi="468" he="214" /></maths>其中,<img file="FDA0000694514410000052.GIF" wi="396" he="210" />|Reg<sub>i</sub>|为第i个连通区域的所有顶点数,n为无向图ADTopicG(T)的连通区域个数;(8)计算语义离散度,并根据语义离散度值来决定文本最终的语义主题;设文本T的语义离散度f为:<img file="FDA0000694514410000053.GIF" wi="463" he="162" />其中,Reg<sub>i</sub>表示第i个连通区域,n为无向语义主题图的连通区域个数,|Reg<sub>i</sub>|为该连通区域的所有顶点数;抽取权重排名前K个的连通区域的语义汇聚中心点作为文本T最终的语义主题,即<img file="FDA0000694514410000054.GIF" wi="488" he="85" />其中,e<sub>i</sub>表示第i个连通区域的语义汇聚中心点,<img file="FDA0000694514410000055.GIF" wi="639" he="236" /><img file="FDA0000694514410000056.GIF" wi="72" he="74" />表示取下整数操作,<img file="FDA0000694514410000057.GIF" wi="75" he="76" />表示取上整数操作。
地址 362000 福建省泉州市丰泽区城东华侨大学