发明名称 词对关系相似度的计算方法
摘要 本发明提供一种词对关系相似度的计算方法,其特征在于,包括:a.生成第一词对以及第二词对的特征向量集,其中,所述第一词对以及所述第二词对分别包括两个英文单词,并通过以下步骤生成特征向量集;b.根据所述第一词对以及所述第二词对的特征向量集和空间余弦相似度定理计算所述第一词对的关系以及所述第二词对的关系的相似度。
申请公布号 CN104182386A 申请公布日期 2014.12.03
申请号 CN201310202669.4 申请日期 2013.05.27
申请人 华东师范大学 发明人 吕钊;洪俊
分类号 G06F17/27(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 隆天国际知识产权代理有限公司 72003 代理人 黄嵩泉;吕俊清
主权项 一种词对关系相似度的计算方法,其特征在于,包括:a.生成第一词对以及第二词对的特征向量集,其中,所述第一词对以及所述第二词对分别包括两个英文单词,并通过以下步骤生成特征矩阵:a1.在网页中抽取所有包括一词对的文本的集合形成一语料库,其中,所述文本为包括所述第一单词以及所述第二单词的网页快照,所述词对为包括第一单词以及第二单词,所述第一单词以及所述第二单词为英文单词;a2.通过所述第一单词以及所述第二单词的不同形态的单词对所述词对进行扩展为扩展词对集合,结合所述扩展词对集合以及预设连接词集合形成短语模式集合,根据所述语料库以及所述短语模式集合的检索和匹配构建所述词对的特征矩阵,b.利用多任务学习LASSO对所述第一词对以及所述第二词对的特征矩阵进行数据处理以压缩并生成特征向量集,所述特征向量集包括所述第一词对的特征向量以及所述第二词对的特征向量;c.根据所述特征向量集和空间余弦相似度定理计算所述第一词对的关系以及所述第二词对的关系的相似度。
地址 200241 上海市闵行区东川路500号