发明名称 ПОСТРОЕНИЕ КОРПУСА СРАВНИМЫХ ДОКУМЕНТОВ НА ОСНОВЕ УНИВЕРСАЛЬНОЙ МЕРЫ ПОХОЖЕСТИ
摘要 1. Способ создания корпуса сравнимых документов, включающий следующие этапы:получение вычислительным устройством исходного набора документов, содержащих тексты;построение не зависящих от языка семантических структур для текстов этих документов;определение универсальной меры похожести для групп документов путем сравнения построенных не зависящих от языка семантических структур текстов этих документов;выявление схожих документов на основании определенных универсальных мер похожести групп документов;формирование корпуса сравнимых документов на основании выявленных схожих документов.2. Способ по п. 1, в котором выявление схожих документов дополнительно содержит сравнение определенных универсальных мер похожести групп документов с пороговым значением универсальной меры похожести.3. Способ по п. 1, дополнительно содержащий этап создания исходного набора документов путем поиска документов по теме.4. Способ по п. 1, дополнительно содержащий этапы предварительной обработки текстов и выделения логической структуры и структурных блоков текстов.5. Способ по п. 1, дополнительно содержащий этап фильтрации схожих документов, являющихся дубликатами.6. Способ определения порогового значения универсальной меры похожести, включающий следующие этапы:формирование вычислительным устройством двух или более наборов документов, содержащих тексты;присвоение этим наборам пробных пороговых значений универсальной меры похожести;построение не зависящих от языка семантических структур для текстов документов из двух или более наборов документов;определение универсальной меры похожести для групп документов в двух или б
申请公布号 RU2014112241(A) 申请公布日期 2015.12.20
申请号 RU20140112241 申请日期 2014.03.31
申请人 Общество с ограниченной ответственностью "Аби ИнфоПоиск" 发明人 Богданова Дарья Николаевна
分类号 G06F17/00 主分类号 G06F17/00
代理机构 代理人
主权项
地址