摘要 |
1. Способ создания структуры тем корпуса в процессе построения корпуса, содержащий:получение первого набора документов;преобразование каждого документа в первом наборе документов в текстовое представление;кластеризацию текстового представления первого набора документов по исходным темам;маркирование каждого документа в первом наборе документов на основе кластеризации первого набора документов;построение, с помощью процессора, классификатора на основе маркирования каждого документа в первом наборе документов;получение второго набора документов; иклассификацию, с использованием классификатора, каждого документа во втором наборе документов по одной или более темам из числа исходных тем.2. Способ по п.1, в котором классификация каждого документа во втором наборе документов содержит:определение неклассифицированного подмножества документов из второго набора документов, которые не были отнесены ни к одной из исходных тем;кластеризацию неклассифицированного подмножества документов по новым темам, не входящим в исходные темы; иклассификацию каждого документа из неклассифицированного подмножества документов по одной или более темам из числа новых тем.3. Способ по п.1, в котором преобразование каждого документа в первом наборе документов в текстовое представление содержит:определение списка слов, использованных во всех документах первого набора документов;определение количества использований каждого слова в каждом документе; ипреобразование каждого документа в вектор на основе количества использований каждого слова в каждом документе.4. Способ по п.3, в котором кластеризация текстового представлен� |