发明名称 一种基于DNA序列的文本处理方法和系统
摘要 本发明提供一种基于DNA序列的文本处理方法和系统。该文本处理方法包括:为两个以上文本的字符分配DNA序列码,使用DNA序列处理方法对分配好DNA序列码的两个以上文本进行相似性分析,所述字符为数字、字、单词或符号中的一种或多种,所述字或单词为一个或多个语种的字或单词。为两个以上文本的字符分配DNA序列码包括:为两个以上文本中的字符分配十进制数,将所述十进制数转换为四进制数;使四进制数中的0、1、2、3分别对应四种脱氧核糖核酸中的一种,将四进制数转换为DNA序列码。本发明还提供了实现该方法的系统。本发明的方法和系统不依赖于已有数据库的建立,关键词的抽提,没有字符以及字符组合数目的限制,可对文本信息实现高效、全面的分析。
申请公布号 CN102200967B 申请公布日期 2012.10.24
申请号 CN201110079135.8 申请日期 2011.03.30
申请人 中国人民解放军军事医学科学院放射与辐射医学研究所 发明人 张成岗;周扬;屈武斌
分类号 G06F17/22(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/22(2006.01)I
代理机构 北京同立钧成知识产权代理有限公司 11205 代理人 黄健
主权项 一种基于DNA序列的文本处理方法,其特征在于,包括:为两个以上文本的字符分配DNA序列码,其中文本中相同的字符分配相同的DNA序列码;使用DNA序列处理方法对分配好DNA序列码的两个以上文本进行相似性分析;所述为两个以上文本的字符分配DNA序列码包括:分别为两个以上文本中的字符分配十进制数,其中文本中相同的字符分配相同的十进制数;分别将两个以上文本中的字符所对应的十进制数转换为四进制数,所述四进制数的位数为n,且4n至少大于文本中互不相同的字符的总数,不足n位的四进制数在所述四进制数前端补0;使四进制数中的0、1、2、3分别对应四种脱氧核糖核酸中的一种,分别将两个以上文本中的字符所对应的n位四进制数转换为n位DNA序列码,得到各文本所对应的DNA序列。
地址 100850 北京市海淀区太平路27号