发明名称 |
一种基于DNA序列的文本处理方法和系统 |
摘要 |
本发明提供一种基于DNA序列的文本处理方法和系统。该文本处理方法包括:为两个以上文本的字符分配DNA序列码,使用DNA序列处理方法对分配好DNA序列码的两个以上文本进行相似性分析,所述字符为数字、字、单词或符号中的一种或多种,所述字或单词为一个或多个语种的字或单词。为两个以上文本的字符分配DNA序列码包括:为两个以上文本中的字符分配十进制数,将所述十进制数转换为四进制数;使四进制数中的0、1、2、3分别对应四种脱氧核糖核酸中的一种,将四进制数转换为DNA序列码。本发明还提供了实现该方法的系统。本发明的方法和系统不依赖于已有数据库的建立,关键词的抽提,没有字符以及字符组合数目的限制,可对文本信息实现高效、全面的分析。 |
申请公布号 |
CN102200967B |
申请公布日期 |
2012.10.24 |
申请号 |
CN201110079135.8 |
申请日期 |
2011.03.30 |
申请人 |
中国人民解放军军事医学科学院放射与辐射医学研究所 |
发明人 |
张成岗;周扬;屈武斌 |
分类号 |
G06F17/22(2006.01)I;G06F17/27(2006.01)I |
主分类号 |
G06F17/22(2006.01)I |
代理机构 |
北京同立钧成知识产权代理有限公司 11205 |
代理人 |
黄健 |
主权项 |
一种基于DNA序列的文本处理方法,其特征在于,包括:为两个以上文本的字符分配DNA序列码,其中文本中相同的字符分配相同的DNA序列码;使用DNA序列处理方法对分配好DNA序列码的两个以上文本进行相似性分析;所述为两个以上文本的字符分配DNA序列码包括:分别为两个以上文本中的字符分配十进制数,其中文本中相同的字符分配相同的十进制数;分别将两个以上文本中的字符所对应的十进制数转换为四进制数,所述四进制数的位数为n,且4n至少大于文本中互不相同的字符的总数,不足n位的四进制数在所述四进制数前端补0;使四进制数中的0、1、2、3分别对应四种脱氧核糖核酸中的一种,分别将两个以上文本中的字符所对应的n位四进制数转换为n位DNA序列码,得到各文本所对应的DNA序列。 |
地址 |
100850 北京市海淀区太平路27号 |