采用人工智能技术自动产生标题的方法,申请号CN200910157016.2-传众专利搜索

发明名称	采用人工智能技术自动产生标题的方法
摘要	本发明公开了一种采用人工智能技术自动产生标题的方法。方法基于从文本相关的背景知识中产生的单词特征进行机器学而得。首先利用文本到查询的转换技术为文本产生一个查询，然后利用该查询对维基百科进行全文检索，通过分析获得的维基百科的文章结构去定义新的单词特征，文章体裁也被利用进行定义单词的特征，接下来利用机器学方法在这些产生的特征上运行，从而从文本中提取候选的标题单词，通过对这些单词聚类产生最后的标题。本发明将维基百科的背景知识引入到候选标题单词的识别过程；充分利用维基百科的各种结构信息；利用文章的体裁信息定义单词的特征。可以由计算机自动产生标题。
申请公布号	CN101751455B	申请公布日期	2011.09.21
申请号	CN200910157016.2	申请日期	2009.12.31
申请人	浙江大学	发明人	徐颂华;杨少辉;刘智满
分类号	G06F17/30(2006.01)I;G06F17/27(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	杭州求是专利事务所有限公司 33200	代理人	张法高
主权项	一种采用人工智能技术自动产生标题的方法，其过程在于包括以下步骤： 1)文本背景知识的获取，利用一个文本到查询的转换技术产生文本对应的查询语句，检测文本中重要的句子，选出文本中重要的句子，然后除去无意义的单词，并把剩下的词返回原始状态，结果就是生成的查询，全文检索引擎Zettair以这个查询为输入在维基百科检索，返回一个维基百科的文章集合； 2)分析返回的维基百科文章集合，从中提取有价值的信息，对于每一个返回的维基百科文章，分析它的结构，提取导入链接，导出链接，种类和infobox四种不同的结构信息，并且组成相应的集合； 3)利用维基百科的结构信息和文章题材定义新的单词特征，从三个方面定义单词特征，通过使用维基百科的背景知识产生单词的特征，根据文章的题材信息产生单词的特征，利用文章本身的信息来产生单词的特征，共同组成一个特征空间； 4)基于上面产生的单词特征空间，使用支持向量机的方法进行机器学习，得到一个训练模型，并使用这个模型从文本中提取候选的标题单词； 5)使用聚类算法把提取的单词连接在一起，对连接产生的标题利用语法规则进行处理，从而达到流利性的要求；所述的步骤1)为： a)把文本中的句子构建一个图，图中的点代表句子，连接点的边代表句子间的联系，边的权重由两个句子的相似程度决定，利用这个图检测文本中的重要句子； b)通过计算出的每一个关键节点都代表一个关键句，然后根据无意义单词列表除去句子中的无意义单词； c)把步骤b)处理完的单词返回原始形态，然后利用剩下的单词组成对应于文章的查询； d)把产生的查询输入到一个全文检索引擎Zettair，该引擎在维基百科上运行，根据与查询的相关程度返回维基百科中的文章，并按照相关程度排序，获得一个维基百科中的相关文章组成的集合；所述的步骤2)为： e)对于集合中的每一个文章，提取出其中的导入链接，产生一个导入链接集合，导入链接把维基百科其它位置的文章链接到当前文章，利用MediaWikiAPI获得某个文章的所有导入链接集合； f)对于集合中的每一个文章，提取出其中的导出链接，并组成一个导出链接集合，导出链接把当前文章指向维基百科其它位置，导出链接在文章的文本中以超链接的形式存在，通过提取文章中所有的超链接获得该文章的导出链接集合； g)对每一个文章提取它的种类信息，并组成一个种类集合； h)对每一个含有infobox的文章提取infobox中的参数值，组成一个infobox参数值集合，同时扔掉infobox种的参数名信息；所述的步骤3)为： i)对于维基百科文章的导入链接结构中的每一个链接，利用WordNet比较它与候选单词的相似程度，同时考虑文章在全文检索引擎的返回得分，计算出这个候选单词的导入链接特征； j)对于维基百科文章的导出链接结构中的每一个链接，利用WordNet比较它与候选单词的相似程度，同时考虑文章在全文检索引擎的返回得分，得出这个候选单词的导出链接特征； k)对于维基百科文章的种类集合的每一个元素，利用维基百科的种类图来得它与候选单词之间的相似程度，同时考虑到该文章在全文检索引擎的得分，得出该候选单词的种类特征； l)对于维基百科文章的infobox参数值集合中的每一个元素，利用WordNet得其与候选单词之间的相似程度，同时考虑到该文章在全文检索引擎的得分，得出该候选单词的infobox特征； m)提取包括外表特征，字符特征，结构特征在内的文章题材特征，测量两个文章的题材相似程度； n)使用一个包含很多题材的文章集合，给定一个文章，从集合中找出题材相似程度最近的300个文章，提取它们的标题，除去其中无意义的单词，对每一个这样的单词，计算单词的出现次数，并且计算单词与文章的题材相似程度； o)同时使用一些广泛使用的单词的特征，单词在文章中出现的频率，单词在文章中的位置，单词是否指代特殊的人名或地名，单词长度以及单词是否出现在总结的句子中；所述的步骤4)为： p)关键词提取被看成一个分类问题，使用支持向量机算法在上面产生的文本特征空间上运行，把候选单词分为关键词和非关键词； q)在使用支持向量机算法进行训练时，出现在标题中的单词作为正面的例子，其它的单词反面的例子，然后训练一个支持向量模型，利用这个模型进行关键词的提取； r)根据在机器学习中的决定值的大小，利用一个参数M控制提取关键词的数量，对提取出的关键词进行排序，排序高的候选单词成为关键词的可能性越高。
地址	310027 浙江省杭州市浙大路38号