发明名称 一种直接引语素材库的生成方法
摘要 本发明公开了一种直接引语素材库的生成方法,包括如下的步骤:(1)对于一篇文章,首先抽取引号内的直接引语内容;(2)以直接引语内容所在位置为中心,考察前一句和后一句的内容,通过词性标注识别出前一句和后一句中的人名和/或机构名;(3)对于识别出来的存在于前一句或者后一句内容中的所有人名和/或机构名,作为直接引语陈述者的候选集合,从该候选集合中挑选出真正的直接引语陈述者;(4)将挑选出来的直接引语陈述者和直接引语内容添加到直接引语素材库中。利用本方法生成的直接引语素材库,可以在互联网中提供更新、搜索、查询等服务,也可以在媒体资讯领域为写作、编辑、专题制作等提供技术支持。
申请公布号 CN102207947B 申请公布日期 2013.05.15
申请号 CN201010212267.9 申请日期 2010.06.29
申请人 天津海量信息技术有限公司 发明人 宋传宝;张旭成
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京汲智翼成知识产权代理事务所(普通合伙) 11381 代理人 陈曦
主权项 一种直接引语素材库的生成方法,其特征在于包括如下的步骤:⑴对于一篇文章,首先从左至右扫描,当扫描到的字符为左引号时,从下一个字符开始记录,一直记录到当前字符为右引号为止,在这个过程中记录的内容为直接引语内容;⑵以直接引语内容所在位置为中心,考察前一句和后一句的内容,通过词性标注识别出前一句和后一句中的人名和/或机构名;⑶对于识别出来的存在于前一句或者后一句内容中的所有人名和/或机构名,作为直接引语陈述者的候选集合,从该候选集合中分情况进行处理:如果候选集合中不存在人名和/或机构名,则丢弃该直接引语内容,不进行处理;如果候选集合中只存在一个人名或者机构名,则将识别出来的人名或者机构名作为直接引语陈述者;如果候选集合中存在多个人名或者机构名,则对候选集合中的人名或者机构名进行选择,选出一个作为直接引语陈述者;⑷将挑选出来的直接引语陈述者和直接引语内容添加到直接引语素材库中。
地址 300384 天津市华苑产业区榕苑路1号B北322-323室