主权项 |
一种基于目标文本的计算文本相似度的方法,其特征在于包括以下步骤: (1)获取目标文本和待计算相似度的文本集合:获得目标文本和文本集合D后组成一个新的文本组合textSet,首先将所有的文本进行唯一id编号处理,目标文本用id号区分,其他文本按照输入的先后顺序依次编号; (2)自动分词获取各文本的特征向量,包括以下步骤: (2.1)去停用词; (2.2)匹配专业关键词和常用关键词; (2.3)同义词转换; (2.4)统计各关键词在各文本中出现的频率,关键词的词性; (2.5)计算各关键词的权值,创建特征向量; 关键词的权值计算公式为:ω(Ti)=α·β·TF(Ti)·IDF(Ti) 其中ω(Ti)为关键词Ti的权值,TF(Ti)=N/M,其中N为Ti关键词在含M个关键词的文本中出现的次数,IDF(Ti)=log(D/Dw)其中D为文章总数,Dw为Ti关键词出现过的文章数;专业词汇IDF的计算以该词汇所属的专业领域的文章总数和该关键词出现在该专业领域内的文章总数;α为关键词类别决定关键词权值的一个因子,其中专业词汇>常用词汇;β为关键词词性决定关键词权值的另一因子,其中名词>形容词>副词; (3)聚类:首先为待计算文本集合创建倒排索引文件,然后以目标文本的专业词汇向量中的专业词汇为基础,搜索倒排索引文件,由于倒排索引文件中的关键词是按照关键词拼音的字母顺序排列的,采用二分法查找将倒排索引文件中含有目标文本中专业词汇的文件找出来,并将区分这些文本的唯一标识id放到集合C中; (4)维过滤:首先为目标文本和集合C中的文本建立一个共同的倒排索引文件,然后根据建立的倒排索引文件创建一个存储各文本相应的关键词权值的矩阵M;矩阵M的列数为倒排索引文件中关键词的个数加1,矩阵M的行数为集合C中文本的个数加1,矩阵的第一列存储文本的id号,矩阵的第一行存储目标文本的特征向量;把目标文本中权值为0的列全部去掉,得到一个新矩阵M′,统计其他文本去掉的列中非0的列数并保存; (5)计算相似度 。 |