摘要 |
Systeme, Verfahren und Programme, die in einem computerlesbaren Medium ausgeführt sind, sind für Indexextraktion vorgesehen. In einer Datenbank sind Grundwahrheitsdokumente gespeichert, die gemäß einer Mehrzahl von Klassifizierungen organisiert sind, wobei jede Klassifizierung eine Gruppe von vordefinierten Indizes aufweist. Ein Dokument, das indexiert werden soll, ist klassifiziert durch Herstellen einer Zuordnung zwischen dem Dokument und einer der Klassifizierungen. Es wird ein Versuch durchgeführt, von dem Dokument zumindest einen Teilsatz der Gruppe von vordefinierten Indizes zu extrahieren, die der einen der Klassifizierungen zugeordnet sind. Auf ein Versagen hin, den Teilsatz der Gruppe von vordefinierten Indizes zu extrahieren, werden Versuche durchgeführt, zumindest einen Texterkennungsfehler in dem Dokument zu finden und zu korrigieren, auf der Basis eines Haupt-Verzeichnisses, das der einen der Klassifizierungen zugeordnet ist.
|