发明名称 ВЫДЕЛЕНИЕ ВРЕМЕННЫХ ВЫРАЖЕНИЙ ДЛЯ ТЕКСТОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ
摘要 1. Способ выделения временных выражений в текстах на естественном языке, при этом способ содержит этапы, на которых:- разделяют упомянутый текст на два непересекающихся подмножества: неразмеченных текстовых данных для тестирования и неразмеченных текстовых данных для обучения;- вручную размечают неразмеченные текстовые данные для тестирования, чтобы получить «золотое» множество;- создают список регулярных выражений и механизм для разметки текстовых данных посредством упомянутого списка регулярных выражений;- выполняют процедуру разработки алгоритма, содержащую следующие этапы, на которых:(i) размечают неразмеченные текстовые данные для обучения посредством упомянутого механизма и упомянутого списка регулярных выражений, чтобы получить грамматически размеченный текст с частичной маркировкой временных выражений;(ii) обучают алгоритм машинного обучения с использованием текстовых данных для обучения, размеченных на этапе (i);(iii) размечают неразмеченные текстовые данные для тестирования посредством упомянутого алгоритма машинного обучения, обученного на этапе (ii);(iv) оценивают качество разметки посредством сравнения результатов разметки, полученных на этапе (iii), с «золотым» множеством; ив случае, если получена предварительно заданная мера качества разметки, выделяют временные выражения, в противном случае изменяют список регулярных выражений и механизм для разметки текстовых данных посредством измененного списка регулярных выражений и повторяют процедуру разработки алгоритма.2. Способ по п. 1, в котором алгоритм машинного обучения является моделью CRF (условного случайного поля) для линейной цепи.3. Сп�
申请公布号 RU2014124927(A) 申请公布日期 2015.12.27
申请号 RU20140124927 申请日期 2014.06.18
申请人 САМСУНГ ЭЛЕКТРОНИКС КО., ЛТД. 发明人 РОМАНЕНКО Александр Александрович
分类号 G06F17/00 主分类号 G06F17/00
代理机构 代理人
主权项
地址