发明名称 СПОСОБ КЛАССИФИКАЦИИ ДОКУМЕНТОВ ПО КАТЕГОРИЯМ
摘要 1. Способ классификации документов по категориям, заключающийся в том, что:- строят онтологию в виде совокупности упомянутых категорий;- выявляют для каждой из упомянутых категорий термины, каждый из которых представляет собой последовательность слов, характерную для текстов данной категории;- определяют вес каждого из выявленных терминов в каждой из упомянутых категорий в процессе считывания электронных версий документов из обучающей коллекции документов;- формируют для каждой из упомянутых категорий ее профиль в виде списка всех терминов во всех категориях упомянутой онтологии с указанием веса каждого термина в данной категории;- составляют для каждого термина перечень возможных комбинаций из словоформ тех слов, которые входят в этот термин;- выделяют упомянутые выявленные термины в каждом подлежащем классификации документе при считывании его электронной версии, учитывая только словоформы из упомянутого перечня, составленного для данного термина;- формируют для каждого подлежащего классификации документа его профили для каждой из упомянутых категорий на основе выделенных при считывании терминов;- находят релевантность данного документа каждой из упомянутых категорий путем сопоставления профилей этого документа профилям категорий в упомянутой онтологии;- строят классификационный спектр упомянутого документа в виде совокупности упомянутых категорий с релевантностью, найденной для каждой из них.2. Способ по п.1, в котором:- присваивают каждой словоформе термина уникальный идентификатор;- используют упомянутые уникальные идентификаторы при упомянутом формировании профилей.3. Способ по п.1 или 2, в �
申请公布号 RU2012102484(A) 申请公布日期 2013.08.10
申请号 RU20120102484 申请日期 2012.01.25
申请人 Общество с ограниченной ответственностью "Центр Инноваций Натальи Касперской" 发明人 Лапшин Владимир Анатольевич;Пшехотская Екатерина Александровна;Перов Дмитрий Всеволодович
分类号 G06F17/27 主分类号 G06F17/27
代理机构 代理人
主权项
地址