摘要 |
<p>Das vorgeschlagene Verfahren zur Erzeugung von Deskriptoren für die Klassifikation von Texten sieht eine Zerlegung von komplexeren Wortformen durch Abgleich mit der Gesamtheit von innerhalb einer Trainingstext-Sammlung auftretenden Wortformen vor. Für die vorzugsweise zyklisch fortgesetzte Zerlegung ist ebenso wie für die begleitende Aufstellung von Stopwort-Präfix- und Suffixlisten keine morphologische oder linguistische Wissensbasis erforderlich. Einfaches morphologisches Wissen wird eingebracht durch Vorgabe von Mindestanforderungen an die Form von Deskriptoren und Textteilen. Das Verfahren ist besonders flexibel und leicht an neue Einsatzgebiete anpaßbar. Das Verfahren ist zudem sehr fehlertolerant und damit besonders geeignet für die Klassifikation von digitalisierten Texten, die mittels Zeichenerkennungsverfahren aus geschriebenen Texten oder mittels Spracherkennungsverfahren aus gesprochenen Texten gewonnen sind.</p> |