摘要 |
1. Способ, включающий:извлечение процессором токенов из неразмеченного корпуса текстов;формирование процессором набора атрибутов для каждого токена на основании по меньшей мере глубокого семантико-синтаксического анализа, отличающееся тем, что в нем набор атрибутов включает лексические, синтаксические и семантические атрибуты;выбор процессором подмножества атрибутов для каждого токена;извлечение процессором атрибутов и категорий классификатора на основании обученной модели, отличающееся тем, что атрибуты классификатора связаны с одной или несколькими категориями;сравнение процессором подмножества атрибутов для каждого токена с атрибутами классификатора;классификацию процессором каждого токена по меньшей мере в одну из категорий на основании сравнения иформирование процессором размеченного текста на основании токенов, классифицированных по категориям.2. Способ по п. 1, дополнительно включающий:определение новых отношений между первым атрибутом и первой категорией на основании по меньшей мере классификации первого токена, идобавление взаимосвязи между первым атрибутом и первой категорией.3. Способ по п. 1, отличающийся тем, что в нем формирование атрибутов включает:формирование лексико-морфологической структуры неразмеченного корпуса текстов;определение возможных синтаксических связей в неразмеченном корпусе текстов на основании по меньшей мере лексико-морфологической структуры;выделение множества синтаксических деревьев на основании по меньшей мере возможных синтаксических связей;определение интегральной оценки каждого из множества синтаксических деревьев на основании референциаль |