主权项 |
1.一种字符串向量生成装置,是基于多个文本数据生成表示特定字符串特征的字符串向量的装置,其特征在于:具备基于上述多个文本数据生成上述字符串向量的字符串向量生成单元,上述字符串向量具有与上述各文本数据对应的元素,上述各元素是与上述多个文本数据中出现上述各元素的数据中的上述特定字符串的出现频率成正比例并与上述多个文本数据中的上述特定字符串的出现频率成反比例的值,上述特定字符串是由词素解析得到的词素及根据规定规则切出的字符串的任意一个,还具备按上述各文本数据的每一个生成文件向量的文件向量生成单元,上述文件向量至少具有1个与上述特定字符串对应的元素,上述元素是与该文本数据中的上述特定字符串的出现频率成正比例并与上述多个文本数据中的上述特定字符串的出现频率成反比例的值,上述字符串向量生成单元基于由上述文件向量生成单元生成的文件向量来生成上述字符串向量,还具备用于存储上述多个文本数据的文本数据存储单元;对上述文本数据存储单元的文本数据进行字符串解析的字符串解析单元,上述文件向量生成单元按由上述字符串解析单元解析的各字符串计算上述文本数据中的其字符串的第1出现频率及上述多个文本数据中的其字符串的第2出现频率,把具有与计算出的第1出现频率成正比例并与第2出现频率成反比例的值的元素的向量作为上述文件向量予以生成,对上述文本数据存储单元的所有文本数据实施该文件向量的生成,上述字符串向量生成单元构成集合由上述文件向量生成单元生成的文件向量并把上述文件向量成分作为了行及列中的一方的文件单词矩阵,把上述文件单词矩阵的行及列中的另一方成分从上述文件单词矩阵抽出,把所抽出的成分的向量作为上述字符串向量生成。 |