摘要 |
Способ потоковой обработки текстовых сообщений, заключающийся в том, что получают текстовые сообщения на естественных языках из информационного канала, осуществляют лингвистическую обработку слов каждого сообщения, формируют тезаурус каждого текстового сообщения, осуществляют статистическую обработку слов в тезаурусе сообщения, сохраняют текстовое сообщение и тезаурус в хранилище, автоматически определяют принадлежность текстового сообщения одной категории из заранее определенного списка категорий, при этом определяют начальную информативность текстового сообщения, сохраняют ее в хранилище вместе с текстовым сообщением, периодически проводят обновление значений информативности, хранящихся в базе данных текстовых сообщений с учетом прошедшего с момента их появления времени, и удаляют те текстовые сообщения, информативность которых опустилась ниже заранее установленного порога; при обработке каждого текстового сообщения обновляют значения классификационных признаков категорий, отличающийся тем, что формируют таблицы биграмм в соответствии с используемыми естественными языками, определяют классифицируемый признак с использованием полученной таблицы биграмм, разбивает полученные текстовые сообщения на три основные категории с использованием классификационного признака. |