发明名称 АВТОМАТИЧЕСКОЕ ИЗВЛЕЧЕНИЕ ИМЕНОВАННЫХ СУЩНОСТЕЙ ИЗ ТЕКСТА
摘要 1. Способ, включающий:извлечение процессором токенов из неразмеченного корпуса текстов;формирование процессором набора атрибутов для каждого токена на основании по меньшей мере глубокого семантико-синтаксического анализа, отличающееся тем, что в нем набор атрибутов включает лексические, синтаксические и семантические атрибуты;выбор процессором подмножества атрибутов для каждого токена;извлечение процессором атрибутов и категорий классификатора на основании обученной модели, отличающееся тем, что атрибуты классификатора связаны с одной или несколькими категориями;сравнение процессором подмножества атрибутов для каждого токена с атрибутами классификатора;классификацию процессором каждого токена по меньшей мере в одну из категорий на основании сравнения иформирование процессором размеченного текста на основании токенов, классифицированных по категориям.2. Способ по п. 1, дополнительно включающий:определение новых отношений между первым атрибутом и первой категорией на основании по меньшей мере классификации первого токена, идобавление взаимосвязи между первым атрибутом и первой категорией.3. Способ по п. 1, отличающийся тем, что в нем формирование атрибутов включает:формирование лексико-морфологической структуры неразмеченного корпуса текстов;определение возможных синтаксических связей в неразмеченном корпусе текстов на основании по меньшей мере лексико-морфологической структуры;выделение множества синтаксических деревьев на основании по меньшей мере возможных синтаксических связей;определение интегральной оценки каждого из множества синтаксических деревьев на основании референциаль
申请公布号 RU2014101126(A) 申请公布日期 2015.07.20
申请号 RU20140101126 申请日期 2014.01.15
申请人 Общество с ограниченной ответственностью "Аби ИнфоПоиск" 发明人 Нехай Илья Владимирович
分类号 G06F17/00 主分类号 G06F17/00
代理机构 代理人
主权项
地址