发明名称 一种与特定功能相关的基因信息检索系统及用于该系统的检索词数据库的构建方法
摘要 本发明公开一与特定功能相关的基因信息检索系统,该系统利用具有输入和显示终端的计算机和在机内构建的由基因名称数据库、词频基值数据库、字符串数据库和辅助检索词数据库组成的文献检索词数据库,通过网络服务器进入公共生物医学文献数据库检索出待查基因的相关文献,进行词频分析,从中提取基因的关键词,再经过专业处理,建立词频列表,最后通过聚类分析,检索出特定功能相关基因信息。本发明不仅具有定位准确,检索速度快,可避免重复劳动,节约大量的人力物力资源的显著技术效果,而且还易于商业化开发推广。
申请公布号 CN100343852C 申请公布日期 2007.10.17
申请号 CN200510037526.8 申请日期 2005.09.27
申请人 南方医科大学 发明人 黄仲曦;姚开泰
分类号 G06F17/30(2006.01);G06F19/00(2006.01) 主分类号 G06F17/30(2006.01)
代理机构 广州市天河庐阳专利事务所 代理人 胡济元
主权项 1、一种特定功能相关基因信息检索系统,该系统包括一具有输入和显示终端的计算机、一网络服务器、公共生物医学文献数据库和公共基因名称数据库以及聚类分析单元,其特征在于还包括由基因名称数据库、词频基值数据库、字符串数据库和辅助检索词数据库组成的文献检索词数据库和一待查基因相关文献检索单元,该单元根据所输入的待查基因的人类基因组组织基因命名委员会定义的缩写,从构建的文献检索词数据库中获取所有对应名称字符串和辅助检索词并进行编辑,依据文献检索词数据库中的原始信息,去除容易引起假阳性的名称字符串和辅助检索词,添加遗漏的名称字符串和辅助检索词,然后从公共生物医学文献数据库中检索包含有编辑后的名称字符串和辅助检索词的文献记录并保存到指定的文件夹中;一待查基因词频分析单元,该单元先提取检索到的每篇文献记录的摘要字段,然后提取摘要字段中的每个词,用出现其中每一个词的文献的数量除以待查基因的相关文献总数,逐一计算出这些词在待查基因相关文献中的出现频率,即待查基因词频;一关键词提取单元,该单元将待查基因词频与词频基值数据库中的同一词汇的基值进行比较判别,删除基值高于1%的词和待查基因词频值阈或者待查基因词频与词频基值的差值低于m=t+(k/n)×100%的词,然后挑选至少被两个基因所共有的词作为待查基因的关键词并保存记录,其中公式m=t+(k/n)×100%中的t是m的最小值阈,k是常量,n是待查基因的相关摘要篇数;一关键词专业处理单元,该单元产生一个可编辑列表,在该列表中可进行关键词添加或删除、关键词单复数形式设置、关键词的权重设置和关键词的同义词为单一实体的设置以及编辑记录的保存;一词频列表建立、输出单元,该单元从待查基因词频分析单元计算出的待查基因词频中获取关键词在各个基因的相关文献中的词频,先将关键词的单数和复数形式的词频平均,得到关键词的词频,再乘以词频的权重,然后平均同一类同义词的词频,作为该同义词的词频,建立词频列表,最后输出聚类分析软件格式的所有关键词在各个基因的相关文献中的发生频率的词频列表,由所述的聚类分析单元对该词频列表文件中数据进行聚类分析并显示所得到的特定功能相关基因信息。
地址 510515广东省广州市广州大道北1838号
您可能感兴趣的专利