发明名称 Indexextraktion von Dokumenten
摘要 Systeme, Verfahren und Programme, die in einem computerlesbaren Medium ausgeführt sind, sind für Indexextraktion vorgesehen. In einer Datenbank sind Grundwahrheitsdokumente gespeichert, die gemäß einer Mehrzahl von Klassifizierungen organisiert sind, wobei jede Klassifizierung eine Gruppe von vordefinierten Indizes aufweist. Ein Dokument, das indexiert werden soll, ist klassifiziert durch Herstellen einer Zuordnung zwischen dem Dokument und einer der Klassifizierungen. Es wird ein Versuch durchgeführt, von dem Dokument zumindest einen Teilsatz der Gruppe von vordefinierten Indizes zu extrahieren, die der einen der Klassifizierungen zugeordnet sind. Auf ein Versagen hin, den Teilsatz der Gruppe von vordefinierten Indizes zu extrahieren, werden Versuche durchgeführt, zumindest einen Texterkennungsfehler in dem Dokument zu finden und zu korrigieren, auf der Basis eines Haupt-Verzeichnisses, das der einen der Klassifizierungen zugeordnet ist.
申请公布号 DE102005032734(A1) 申请公布日期 2006.11.02
申请号 DE20051032734 申请日期 2005.07.13
申请人 HEWLETT-PACKARD DEVELOPMENT CO. 发明人 SIMSKE, STEVEN J.;WRIGHT, DAVID W.
分类号 G06F17/30 主分类号 G06F17/30
代理机构 代理人
主权项
地址