发明名称 数字图书系统中的个性化自动文摘方法
摘要 本发明公开了一种数字图书系统中的个性化自动文摘方法,涉及信息处理技术领域,包括a、输入查询信息;b、根据所输入的查询信息建立相关模型和不相关模型;c、对需要得到摘要信息的文档中的每一个字,计算所述字在相关模型和不相关模型下产生的概率;d、将每个关键字的所述相关度保存到一个队列中;e、选取所述队列中一组连续关键字相关度相加,相关度最高的文档片段做为一条文档摘要;f、根据阈值大小判断是否继续寻找下条文摘;g、如果需要,继续e步骤操作,如果不需要,就返回摘要数据集合中的所有文档作为摘要信息。本方法比用传统的摘要算法获得的文章摘要的准确率高。并且,在模拟真实数据情况时,本方法具有很强的抗干扰能力。
申请公布号 CN102222119B 申请公布日期 2013.04.17
申请号 CN201110213750.3 申请日期 2011.07.28
申请人 成都希创掌中科技有限公司 发明人 李庆;刘家芬;罗旭斌;张晨;胡川
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 成都天嘉专利事务所(普通合伙) 51211 代理人 冉鹏程
主权项 一种数字图书系统中的个性化自动文摘方法,其特征在于包括如下步骤:a、输入查询信息,所述查询信息包括关键字和和用户的个性化信息;b、根据所输入的查询信息建立相关模型和不相关模型,所述相关模型是指查询信息在相关文档中的自然语言模型的概率分布函数,所述相关文档是指用关键字查询数字图书系统,得到的最前面的5‑50篇文档;所述的不相关模型是所述相关模型的补充概率分布函数,即指查询信息在不相关文档中的自然语言模型的概率分布函数,所述不相关文档指数字图书系统中的所有文档集合;c、 对需要得到摘要信息的文档中的每一个关键字, 计算所述关键字在相关模型和不相关模型下产生的概率,并用相关模型下的概率减去不相关模型下的概率作为所述关键字和查询信息的相关度;d、将每个关键字的所述相关度保存到一个队列中,并对队列进行平滑处理;e、选取所述队列中一组连续关键字相关度相加,相关度最高的文档片段做为一条文档摘要,将这条相关度最高的文档片段放入摘要数据集合中,并在所述队列中删除这条相关度最高的文档片段;f 、根据阈值大小判断是否继续寻找下条文档摘要;g 、如果需要,继续e步骤操作,如果不需要,就返回摘要数据集合中的所有文档片段作为摘要信息。
地址 610041 四川省成都市高新区高朋大道5号A座2楼公共秘书平台A-351位