发明名称 | 处理文本的方法和装置 | ||
摘要 | 本申请提供了一种处理文本的方法和装置,用以解决现有技术中文本检测的处理效果不佳的问题。该方法包括:在倒排索引中查找待处理的文本段中的关键词,统计预存的文本段集合中的各个文本段或该文本段的标识出现在包括关键词的条目中的次数,按该次数由高到低的顺序从预存的文本段集合中选择多个文本段,倒排索引为对预存的文本段集合建立的倒排索引,其包括多个条目,每个条目包括一个关键词,并且对应保存有包含该关键词的文本段或该文本段的标识;计算待处理的文本段与选择的多个文本段中的各个文本段之间的相似度得到多个相似度的值;判断多个相似度的值中的最小值是否处于设定范围内,若是则输出预设内容的信息。 | ||
申请公布号 | CN102929891B | 申请公布日期 | 2015.09.16 |
申请号 | CN201110230270.8 | 申请日期 | 2011.08.11 |
申请人 | 阿里巴巴集团控股有限公司 | 发明人 | 许泰清;徐磊石;胡四海 |
分类号 | G06F17/30(2006.01)I | 主分类号 | G06F17/30(2006.01)I |
代理机构 | 北京康信知识产权代理有限责任公司 11240 | 代理人 | 吴贵明 |
主权项 | 一种处理文本的方法,其特征在于,包括:在倒排索引中查找待处理的文本段中的关键词,统计预存的文本段集合中的各个文本段或该文本段的标识出现在包括所述关键词的条目中的次数,按该次数由高到低的顺序从所述预存的文本段集合中选择多个文本段,所述倒排索引为对预存的文本段集合建立的倒排索引,其包括多个条目,每个条目包括一个关键词,并且对应保存有包含该关键词的文本段或该文本段的标识;计算待处理的文本段与选择的多个文本段中的各个文本段之间的相似度,得到多个相似度的值;判断所述多个相似度的值中的最小值是否处于设定范围内,若是,则输出预设内容的信息;其中,所述计算待处理的文本段与选择的多个文本段中的各个文本段之间的相似度包括:使用字符串相似度比对的算法计算待处理的文本段与选择的多个文本段中的各个文本段之间的相似度。 | ||
地址 | 英属开曼群岛大开曼资本大厦一座四层847号邮箱 |