摘要 |
1. Способ классификации документов по категориям, заключающийся в том, что:- строят онтологию в виде совокупности упомянутых категорий;- выявляют для каждой из упомянутых категорий термины, каждый из которых представляет собой последовательность слов, характерную для текстов данной категории;- определяют вес каждого из выявленных терминов в каждой из упомянутых категорий в процессе считывания электронных версий документов из обучающей коллекции документов;- формируют для каждой из упомянутых категорий ее профиль в виде списка всех терминов во всех категориях упомянутой онтологии с указанием веса каждого термина в данной категории;- составляют для каждого термина перечень возможных комбинаций из словоформ тех слов, которые входят в этот термин;- выделяют упомянутые выявленные термины в каждом подлежащем классификации документе при считывании его электронной версии, учитывая только словоформы из упомянутого перечня, составленного для данного термина;- формируют для каждого подлежащего классификации документа его профили для каждой из упомянутых категорий на основе выделенных при считывании терминов;- находят релевантность данного документа каждой из упомянутых категорий путем сопоставления профилей этого документа профилям категорий в упомянутой онтологии;- строят классификационный спектр упомянутого документа в виде совокупности упомянутых категорий с релевантностью, найденной для каждой из них.2. Способ по п.1, в котором:- присваивают каждой словоформе термина уникальный идентификатор;- используют упомянутые уникальные идентификаторы при упомянутом формировании профилей.3. Способ по п.1 или 2, в � |