发明名称 | 信息提取方法和装置 | ||
摘要 | 本发明涉及信息提取方法和装置。用于从输入的信息源中提取涉及特定主题的有用信息的信息提取方法,包括:基于描述了各类训练语素的组合概率的分类模板,从所述信息源中定位感兴趣的各类目标语素;按照预定的匹配规则对所述定位的各类目标语素进行匹配,并提取符合所述预定匹配规则的目标语素以组合成描述向量;以及基于所述提取出的描述向量,生成全局性信息以作为所述涉及特定主题的有用信息。 | ||
申请公布号 | CN101833555B | 申请公布日期 | 2016.05.04 |
申请号 | CN200910127243.0 | 申请日期 | 2009.03.12 |
申请人 | 富士通株式会社 | 发明人 | 贾文杰;张姝;孟遥;于浩 |
分类号 | G06F17/30(2006.01)I | 主分类号 | G06F17/30(2006.01)I |
代理机构 | 北京集佳知识产权代理有限公司 11227 | 代理人 | 张浩;高少蔚 |
主权项 | 一种用于从输入的信息源中提取涉及特定主题的有用信息的信息提取方法,包括:基于描述了各类训练语素的组合概率的分类模板,从所述信息源中定位感兴趣的各类目标语素;按照预定的匹配规则对所述定位的各类目标语素进行匹配,并提取符合所述预定匹配规则的目标语素以组合成描述向量;以及基于所述提取出的描述向量,生成涉及特定主题的全局性信息以作为所述涉及特定主题的有用信息,其中,所述分类模板是通过对包含各种训练语素的训练语料训练学习而获得的,所述训练语素以列表的形式被标注了词性和/或与包含各类标准语素列表的预定资源的相关性、以及是否成为感兴趣的某类目标语素,所述基于分类模板从所述信息源中定位感兴趣的各类目标语素的步骤包括:对所述信息源中的语素标注词性;和/或基于所述预定资源,对所述信息源中的语素标注是否属于所述预定资源的各类标准语素;以及基于所述分类模板中各类已有的训练语素的组合概率,综合考虑所述对信息源中的语素已标注的词性和/或是否属于所述预定资源的各类标准语素,从所述信息源的语素中判断感兴趣的各类目标语素。 | ||
地址 | 日本神奈川县 |