发明名称 模板提取方法和装置
摘要 本发明公开了一种模板提取方法和装置。所述模板提取方法包括:对语料进行包括分句和分词在内的预处理;从预处理后的语料中提取出候选模板;以及对提取出的候选模板进行优化。其中,所述优化步骤包括:针对每一个候选模板,计算由该候选模板中的通配符所代表的词或词序列在语料中出现的频率以及该候选模板中由通配符分隔出的词或词序列在语料中出现的频率;以及确定其中通配符所代表的词或词序列在语料中出现的频率以及所述候选模板中由所述通配符分隔出的词或词序列在语料中出现的频率满足预定条件的候选模板为干扰模板,并从所提取出的候选模板中去除所述干扰模板。
申请公布号 CN102129422A 申请公布日期 2011.07.20
申请号 CN201010004202.5 申请日期 2010.01.14
申请人 富士通株式会社 发明人 何中军;郑仲光;孟遥;于浩;长濑友树
分类号 G06F17/27(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 北京集佳知识产权代理有限公司 11227 代理人 康建峰;苗迎华
主权项 一种模板提取方法,包括:对语料进行包括分句和分词在内的预处理;从预处理后的语料中提取出候选模板;以及对提取出的候选模板进行优化,其中,所述优化步骤包括:针对每一个候选模板,计算由该候选模板中的通配符所代表的词或词序列在语料中出现的频率以及该候选模板中由通配符分隔出的词或词序列在语料中出现的频率;以及确定其中通配符所代表的词或词序列在语料中出现的频率以及所述候选模板中由所述通配符分隔出的词或词序列在语料中出现的频率满足预定条件的候选模板为干扰模板,并从所提取出的候选模板中去除所述干扰模板。
地址 日本神奈川县