发明名称 特定元素、字符串向量生成及相似性计算的装置、方法
摘要 首先,基于多个文本数据生成文件向量。文件向量具有与各词素对应的元素,计算各元素使之成为与对应词素的出现频率对应的值。接着,基于对集合了所生成的文件向量的文件单词矩阵的转置矩阵生成单词向量。因此单词向量具有与各文本数据对应的元素,各元素成为与多个文本数据中对应的文本数据中的词素的出现频率成正比例并与多个文本数据中的词素的出现频率成反比例的值。然后基于单词向量计算单词的相似性。由此可提供一种适用于根据其出现频率使单词在相似性计算中无偏颇地反映,进而有效地计算单词相似性的相似性计算装置。
申请公布号 CN1855103A 申请公布日期 2006.11.01
申请号 CN200610089966.2 申请日期 2003.03.26
申请人 精工爱普生株式会社 发明人 萱原直树
分类号 G06F17/30(2006.01) 主分类号 G06F17/30(2006.01)
代理机构 中国专利代理(香港)有限公司 代理人 浦柏明;刘宗杰
主权项 1.一种字符串向量生成装置,是基于多个文本数据生成表示特定字符串特征的字符串向量的装置,其特征在于:具备基于上述多个文本数据生成上述字符串向量的字符串向量生成单元,上述字符串向量具有与上述各文本数据对应的元素,上述各元素是与上述多个文本数据中出现上述各元素的数据中的上述特定字符串的出现频率成正比例并与上述多个文本数据中的上述特定字符串的出现频率成反比例的值,上述特定字符串是由词素解析得到的词素及根据规定规则切出的字符串的任意一个,还具备按上述各文本数据的每一个生成文件向量的文件向量生成单元,上述文件向量至少具有1个与上述特定字符串对应的元素,上述元素是与该文本数据中的上述特定字符串的出现频率成正比例并与上述多个文本数据中的上述特定字符串的出现频率成反比例的值,上述字符串向量生成单元基于由上述文件向量生成单元生成的文件向量来生成上述字符串向量,还具备用于存储上述多个文本数据的文本数据存储单元;对上述文本数据存储单元的文本数据进行字符串解析的字符串解析单元,上述文件向量生成单元按由上述字符串解析单元解析的各字符串计算上述文本数据中的其字符串的第1出现频率及上述多个文本数据中的其字符串的第2出现频率,把具有与计算出的第1出现频率成正比例并与第2出现频率成反比例的值的元素的向量作为上述文件向量予以生成,对上述文本数据存储单元的所有文本数据实施该文件向量的生成,上述字符串向量生成单元构成集合由上述文件向量生成单元生成的文件向量并把上述文件向量成分作为了行及列中的一方的文件单词矩阵,把上述文件单词矩阵的行及列中的另一方成分从上述文件单词矩阵抽出,把所抽出的成分的向量作为上述字符串向量生成。
地址 日本东京都