发明名称 比较文本文件
摘要 一种用于比较文本文件的方法和系统,包括对第一文件(104)的文本的每个单词进行词汇标准化以形成第一标准化表示。根据第一标准化表示建立(206)第一文件的向量表示。对第二文件(110)的文本的每个单词进行词汇标准化以形成第二标准化表示。根据第二标准化表示建立(204)第二文件的向量表示。比较(210)向量表示的共线程度以生成第二文件相对第一文件的相似性的分数(218)。
申请公布号 CN101238459A 申请公布日期 2008.08.06
申请号 CN200680025417.7 申请日期 2006.05.12
申请人 柯廷技术大学 发明人 罗伯特·弗朗西斯·威廉姆斯;海因茨·德雷埃尔
分类号 G06F17/27(2006.01);G06Q50/00(2006.01) 主分类号 G06F17/27(2006.01)
代理机构 北京德琦知识产权代理有限公司 代理人 陆弋;宋志强
主权项 1、一种比较文本文件的方法,包括:对第一文件的文本的每个单词进行词汇标准化以形成第一标准化表示;根据第一标准化表示建立第一文件的向量表示;对第二文件的文本的每个单词进行词汇标准化以形成第二标准化表示;根据第二标准化表示建立第二文件的向量表示;比较这些向量表示的共线程度,以生成第二文件相对第一文件的相似性的分数。
地址 澳大利亚西澳大利亚州