发明名称 一种考虑概念抽象度的浅层分析自动文档综述方法
摘要 本发明涉及一种考虑概念抽象度的浅层分析自动文档综述方法,属于信息检索、情报科学领域。其特征在于:首先对于文档进行预处理并设定抽象度值,然后通过多义词消歧处理把文档中的句子用概念矢量模型表示,再将句子聚类成多个主题相似的簇,接着根据从文集中抽取出的主题词个数确定综述的压缩比,之后确定句子的抽象度,继而依据IMMRA值依次从聚类簇中选取压缩比要求数量个文摘句,最后对抽取的文摘句进行排序并输出综述文档。有益效果:实现了考虑抽象度的自动文档综述,降低自动综述文摘因概念包含关系引起的信息冗余或缺失;方法可以根据主题的数量自适应调整文摘的长度,还可以根据用户的抽象度需求调节综述的归纳度,具有很好的适应性。
申请公布号 CN101382962B 申请公布日期 2011.03.02
申请号 CN200810231990.4 申请日期 2008.10.29
申请人 西北工业大学 发明人 郭雷;王晓东;方俊
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 西北工业大学专利中心 61204 代理人 王鲜凯
主权项 1.一种考虑概念抽象度的浅层分析自动文档综述方法,其特征在于步骤如下:步骤1:获得数据并设定抽象度值:将查询Q提交给搜索引擎,返回查询结果Web文档集D={d<sub>1</sub>,d<sub>2</sub>,…,d<sub>k</sub>,…},对D中的诸文档进行提取文本内容、去除停用词与网页标记、词根还原处理后,以文本文档句子为基本单位,按照文本文档句子出现的次序,顺序存储为集合<img file="FSB00000296352500011.GIF" wi="421" he="59" />其中:<img file="FSB00000296352500012.GIF" wi="61" he="59" />是序号为l、文本文档d<sub>k</sub>包含的一个文本文档句子,集合R包含的文本文档句子个数为N=|R|;然后设定文档综述的抽象度值θ,0≤θ≤1,θ值随抽象度增加而增大;步骤2:将文本文档句子表示为概念模型矢量:先将R中所有出现的词汇转换为概念,将得到的所有概念无重复地组成概念集合C={c<sub>1</sub>,c<sub>2</sub>,…,c<sub>i</sub>,…},其中c<sub>i</sub>为一个概念,共计得到n=|C|个概念,然后以C为特征,仿照tf·idf加权方案将R表示为N个概念模型矢量组成的集合<img file="FSB00000296352500013.GIF" wi="420" he="76" />其中<img file="FSB00000296352500014.GIF" wi="544" he="98" />所述转换中,若词汇为多义词,则采用基于本体的多义词消歧处理实现,若词汇为单义词或为未在本体中出现的未登录词,则采用以词汇自身作为其概念的方法实现;所述文本文档句子概念模型矢量<img file="FSB00000296352500015.GIF" wi="69" he="76" />的分量<img file="FSB00000296352500016.GIF" wi="591" he="84" />为c<sub>i</sub>在<img file="FSB00000296352500017.GIF" wi="60" he="59" />中的权重,其中n<sub>i</sub>为D中有词汇可转换为c<sub>i</sub>的文本文档数目,log(|D|/n<sub>i</sub>)是c<sub>i</sub>在D中的逆频率,tf<sub>i</sub>是c<sub>i</sub>对应词汇在d<sub>k</sub>中的出现频率,freq(c<sub>i</sub>)是c<sub>i</sub>在<img file="FSB00000296352500018.GIF" wi="62" he="60" />中的频率;步骤3:将主题近似的文本文档句子进行聚集:对<img file="FSB00000296352500019.GIF" wi="33" he="56" />中所有文本文档句子的概念矢量进行基于文本文档句子语义相似度的合成聚类,每次合成时计算合成前后,类的半偏相关系数HDCC,当HDCC大于阈值μ时聚类停止,0<μ≤1;聚类完成后得到由主题近似文本文档句子组成的聚类簇集合{LT<sub>1</sub>,…,LT<sub>o</sub>};所述文本文档句子语义相似度<img file="FSB000002963525000110.GIF" wi="683" he="152" />其中<img file="FSB000002963525000111.GIF" wi="40" he="69" />与<img file="FSB000002963525000112.GIF" wi="46" he="69" />为任意两不同的文本文档句子概念模型矢量,<img file="FSB000002963525000113.GIF" wi="209" he="72" /><img file="FSB000002963525000114.GIF" wi="137" he="72" />为<img file="FSB000002963525000115.GIF" wi="40" he="72" />权值非0的概念数,<img file="FSB000002963525000116.GIF" wi="321" he="74" />为<img file="FSB000002963525000117.GIF" wi="41" he="75" />与<img file="FSB000002963525000118.GIF" wi="45" he="74" />权值非0且相同的概念数;所述的半偏相关系数<img file="FSB000002963525000119.GIF" wi="515" he="108" />分子W<sub>M</sub>-W<sub>K</sub>-W<sub>L</sub>表示聚类过程中待合并的中间类CL<sub>K</sub>和CL<sub>L</sub>合并为下一层次的类CL<sub>M</sub>时引起的类内离差平方和的增量,分母<img file="FSB00000296352500021.GIF" wi="168" he="75" />表示类CL<sub>K</sub>和类CL<sub>L</sub>合并前,同层次所有类的总离差平方和,其中任意类CL的类内离差平方和为<img file="FSB00000296352500022.GIF" wi="565" he="123" />步骤4:计算压缩比确定综述长度:对于概念c,当I(c)≤I<sub>临</sub>,则认定c为主题概念,记为tc,<img file="FSB00000296352500023.GIF" wi="604" he="213" />son(c)<sub>i</sub>为概念c在本体中的直接子概念,w(c)为概念c在文本文档句子矢量集合<img file="FSB00000296352500024.GIF" wi="35" he="55" />中的权值w的总和<img file="FSB00000296352500025.GIF" wi="163" he="120" />I<sub>临</sub>为0.3,由此利用子概念频度方法从C中抽出主题概念并构成主题概念集合TC={tc<sub>1</sub>,…,tc<sub>j</sub>,…,tc<sub>m</sub>},根据主题概念的数量|TC|和抽象度设定值θ计算自动综述的压缩比r,得到综述长度为N·r;所述的压缩比<img file="FSB00000296352500026.GIF" wi="267" he="124" />其中,λ<sub>β</sub>为比例调节系数,取值为1≤λ<sub>β</sub>≤N/|TC|;步骤5:确定各文本文档句子抽象度值:将TC作为基准,计算R的各文本文档句子抽象度值<img file="FSB00000296352500027.GIF" wi="567" he="184" />所述<img file="FSB00000296352500028.GIF" wi="987" he="90" />其中,deg(c<sub>1</sub>/c<sub>2</sub>)=|1/log<sub>2</sub>[|pcc(c<sub>1</sub>,Root)|+1]-1/log<sub>2</sub>[|pcc(c<sub>2</sub>,Root)|+1]|为概念相对抽象度值,c<sub>1</sub>,c<sub>2</sub>∈C是任意一对概念,Root是本体的根概念,|pcc(c,Root)|是本体中概念c到Root之间连接边的条数;所述<img file="FSB00000296352500029.GIF" wi="989" he="67" />步骤6:抽取文摘句:根据θ值、各文本文档句子抽象度值、查询Q、文摘句集合A,A=φ,计算R各文本文档句子的I<sub>MMRA</sub>值;依次从{LT<sub>1</sub>,…,LT<sub>o</sub>}各簇中每次抽取一个I<sub>MMRA</sub>值最大的文本文档句子作为文摘句,放入A并从所属簇中去除,循环进行直到|A|≥N·r;所述<img file="FSB000002963525000210.GIF" wi="1616" he="112" />其中,λ为相似度参考权值参数,0≤λ≤1;步骤7:对文摘句进行排序并输出综述文档:在文档集合中找到包含A中文摘句最多的文档d<sub>c</sub>作为参考框架,将各文摘句按各自在d<sub>c</sub>中最相似文本文档句子的位置进行排序定位,最终生成文摘句排列顺序与d<sub>c</sub>一致的综述文档输出。
地址 710072 陕西省西安市友谊西路127号