发明名称 同义词模板的挖掘方法和装置以及同义词挖掘方法和装置
摘要 本发明提供了一种同义词模板的挖掘方法和装置以及同义词的挖掘方法和装置,其中同义词挖掘的方法包括:利用预先设置的同义词模板,查找网页中的同义标记符;在所述网页中同义标记符前后的设定距离范围内,按照所述同义词模板中所述同义标记符对应的同义词对中各词语的边界信息,抽取出同义词对;其中,所述同义词模板包括:同义标记符和同义词对中词语的边界信息。通过本发明可以大大提高同义词挖掘的效率。
申请公布号 CN102750282B 申请公布日期 2014.10.22
申请号 CN201110098245.9 申请日期 2011.04.19
申请人 北京百度网讯科技有限公司 发明人 徐文智
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京鸿德海业知识产权代理事务所(普通合伙) 11412 代理人 袁媛
主权项 一种同义词模板的挖掘方法,其特征在于,所述同义词模板包括:同义标记符和同义词对中同义词的边界信息;该方法包括:A、获取预设的种子词对;B、将所述种子词对在网页中设定上下文范围内的词语或符号作为候选标记符,并记录各候选标记符的出现次数以及所述种子词对中同义词在所述网页中的边界信息;C、基于记录的各候选标记符的出现次数为各候选标记符打分,选择打分值满足预设打分阈值的候选标记符并记录为所述同义词模板中的同义标记符;D、将所述同义标记符对应的所述边界信息记录在所述同义词模板中。
地址 100085 北京市海淀区上地十街10号百度大厦2层