发明名称 语料库制作装置及其方法
摘要 本发明提供一种语料库的制作装置及其制作方法,该装置除了包括单词抽出部、出现频率计算部、关联度计算部、语料库制作部之外,还包括包含关系制作部,该包含关系制作部基于单词之间的语义,对单词抽出部得到的单词用树形结构建立纵向包含关系结构。根据本发明的语料库制作装置及其制作方法所得到的语料库同时具有单词间的纵向包含关系结构、相关网络、相似网络,因此,使用根据本发明制作的语料库不仅可以对各种信息进行有机的组织,而且更加便于根据用户的要求对信息进行分类,在海量的数据中找到个人感兴趣的信息。
申请公布号 CN1916889B 申请公布日期 2011.02.02
申请号 CN200510093228.0 申请日期 2005.08.19
申请人 株式会社日立制作所;上海交通大学 发明人 伊藤荣朗;桑原祯司;黑田昌芳;虞立群;陈奕秋;汪更正
分类号 G06F17/27(2006.01)I;G06F17/30(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 北京纪凯知识产权代理有限公司 11245 代理人 龙淳
主权项 一种包括单词抽出部、出现频率计算部、关联度计算部、语料库制作部的语料库制作装置,其特征在于:该语料库制作装置还包括包含关系制作部,其中,所述单词抽出部对训练样本进行切分,得到单词序列;所述包含关系制作部基于单词之间的语义,对所述单词抽出部得到的词用树形结构建立纵向包含关系结构;所述出现频率计算部计算单词间的共现频率和共现距离;所述关联度计算部根据所述出现频率计算部的计算结果计算单词间相关度,进而根据所述包含关系制作部建立的纵向包含关系结构和所述相关度计算单词间的相似度;所述语料库制作部将单词、单词的纵向包含关系、相关度、相似度存入语料库保存部。
地址 日本东京都