主权项 |
一种采用人工智能技术自动生成网页的方法,其过程在于包括以下步骤:1)对网站主题描述文本进行处理,获得一个相应的查询和一个ngram列表基于用户给定的网站主题描述,先对网站主题描述文本依据已有的无意义的词表除去无意义的词,然后对剩下的词返回原始形态,利用处理完的结果单词组成查询,从网站主题描述文本中提取所有可能的单词组合形式,然后产生每个组合的所有变换形态,利用处理完的结果组成ngram列表;2)通过搜索维基百科获得相关的条目通过将相应的查询输入到全文搜索引擎,实现对维基百科的全文检索,搜索引擎返回相关的条目,通过搜索维基百科中所有文章的标题,获得那些和ngram列表中元素一致的条目,组成一个相关条目的文章集合,利用维基百科的链接结构处理文章集合,进一步扩大相关条目数,组成一个新的相关条目集合;3)使用维基百科的结构信息去测量相关条目集合中的元素重要程度,获得与网站主题和样例网页最相关的条目获取相关条目对应的文章,提取文章的导入链接,导出链接,种类结构信息,利用这些信息从不同方面测量条目的重要程度,得到重要性得分,合并所有的得分得到一个总的重要性得分,采用支持向量机的方法通过训练获得最优参数组合,根据重要性得分对相关条目进行排序,保留得分最高的N个条目;4)基于文章中标题的相似性和文本分类,进行网页的生成样例网页和自动产生网页的格式是一致的,都是一个总标题和若干子标题组成,每个标题后有一段文字对标题内容进行扩展,首先计算重要性得分最高的N个条目对应的维基百科文章中的子标题和样例网页的子标题的相似度,如果相似度达到规定的阈值,利用维基百科文章的子标题下文本产生相应的网页文本,如果相似度达不到规定的阈值,利用文本分类的方法进行文本分类,选择类型一致的文本产生网页文本。 |