发明名称 采用人工智能技术自动生成网页的方法
摘要 本发明公开了一种采用人工智能技术自动生成网页的方法。方法基于对人工给定的网站主题描述和样例网页进行机器学而得。首先搜索维基百科并提取链接从而获得与用户给定信息相关的条目,然后使用维基百科的结构信息去衡量获得条目的重要程度,按照重要性排序,并保留较重要的条目,接下来利用标题的相似性和文本分类技术去为获得的重要条目产生网页内容。本发明对维基百科进行数据挖掘,使得自动网页生成成为可能;利用文本到查询的转换技术获得与网站主题一致的条目;利用维基百科的背景知识增强传统的文本分类技术;可以由计算机自动生成网页。
申请公布号 CN101763395A 申请公布日期 2010.06.30
申请号 CN200910157018.1 申请日期 2009.12.31
申请人 浙江大学 发明人 徐颂华;杨少辉;刘智满
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 杭州求是专利事务所有限公司 33200 代理人 张法高
主权项 一种采用人工智能技术自动生成网页的方法,其过程在于包括以下步骤:1)对网站主题描述文本进行处理,获得一个相应的查询和一个ngram列表基于用户给定的网站主题描述,先对网站主题描述文本依据已有的无意义的词表除去无意义的词,然后对剩下的词返回原始形态,利用处理完的结果单词组成查询,从网站主题描述文本中提取所有可能的单词组合形式,然后产生每个组合的所有变换形态,利用处理完的结果组成ngram列表;2)通过搜索维基百科获得相关的条目通过将相应的查询输入到全文搜索引擎,实现对维基百科的全文检索,搜索引擎返回相关的条目,通过搜索维基百科中所有文章的标题,获得那些和ngram列表中元素一致的条目,组成一个相关条目的文章集合,利用维基百科的链接结构处理文章集合,进一步扩大相关条目数,组成一个新的相关条目集合;3)使用维基百科的结构信息去测量相关条目集合中的元素重要程度,获得与网站主题和样例网页最相关的条目获取相关条目对应的文章,提取文章的导入链接,导出链接,种类结构信息,利用这些信息从不同方面测量条目的重要程度,得到重要性得分,合并所有的得分得到一个总的重要性得分,采用支持向量机的方法通过训练获得最优参数组合,根据重要性得分对相关条目进行排序,保留得分最高的N个条目;4)基于文章中标题的相似性和文本分类,进行网页的生成样例网页和自动产生网页的格式是一致的,都是一个总标题和若干子标题组成,每个标题后有一段文字对标题内容进行扩展,首先计算重要性得分最高的N个条目对应的维基百科文章中的子标题和样例网页的子标题的相似度,如果相似度达到规定的阈值,利用维基百科文章的子标题下文本产生相应的网页文本,如果相似度达不到规定的阈值,利用文本分类的方法进行文本分类,选择类型一致的文本产生网页文本。
地址 310027 浙江省杭州市浙大路38号