摘要 |
<p>Die Erfindung betrifft ein Verfahren zum Einordnen von Informationen in Datenbanken für die Durchführung von DNA- und Proteinsequenzvergleichen. Der Erfindung liegt die Aufgabe zugrunde, die Nachteile bisher bekannter Verfahren zur datenbankgerechten Aufbereitung von DNA- und Proteinsequenzen für deren Vergleich zu beseitigen. Diese Nachteile, die im Rechenzeitaufwand oder mangelnder Signifikanz der beim Vergleich ermittelten Treffer zu sehen sind, werden erfindungsgemäß dadurch vermieden, daß die Sequenzen in Strukturwörter zerlegt werden, die nicht nur die Abfolge der Nukleotide oder Aminosäuren beinhalten, sondern auch Informationen über deren Struktur und über Ähnlichkeitsmerkmale. Entsprechend dem erfindungsmäßen Verfahren werden unter Berücksichtigung der Tatsache, daß die Nukleotide in der DNA und die Aminosäuren in den Proteinen nicht zufällig verteilt sind, für den DNA-Sequenzvergleich das Strukturwort NucIndex und für den Proteinsequenzvergleich die Strukturwörter IdenIndex und ChemIndex gebildet. Durch die Hinzuahme der Strukturparameter Strukturwortlänge und Gewichtung (SigS) zu den Strukturwörtern und das Zulassen von Mismatches an definierten Stellen von NucIndex und ChemIndex ermöglicht das offenbarte Verfahren einen schnellen Sequenzvergleich bei gleichzeitig hoher statistischer Signifikanz der Ergebnisse.</p> |