摘要 |
1. Компьютерный способ сравнения символьных строк, символьной строки кандидата с множеством записей символьных строк, сохраненных в базе данных, упомянутый способ включает: ! a) идентификацию набора ссылочных символьных строк в базе данных, ссылочные символьные строки идентифицируются с использованием оптимизированного поиска набора разнородных символьных строк; ! b) генерирование представления n-граммы одной из ссылочных символьных строк в наборе ссылочных символьных строк; ! c) генерирование представления n-граммы символьной строки кандидата; ! d) определение подобия между представлениями n-грамм; ! e) повторение шагов b) и d) для оставшихся ссылочных символьных строк в наборе идентифицированных ссылочных символьных строк; и ! f) индексацию символьной строки кандидата в базе данных, основанную на определении релевантности между представлением n-граммы символьной строки кандидата и ссылочными символьными строками в идентифицированном наборе. ! 2. Компьютерный способ по п.1, отличающийся тем, что определение подобия между представлениями n-граммы включает: ! вычисления двумерного вектора, содержащего частоту возникновения всех уникальных n-грамм в символьной строке кандидата и частоту возникновения всех уникальных n-грамм в ссылочной символьной строке; и ! вычисление метрики подобия для символьной строки кандидата, относительно ссылочной символьной строки, основанной на двумерном векторе. ! 3. Компьютерный способ по п.2, отличающийся тем, что вычисление метрики подобия для символьной строки кандидата включает использование вычисления структурированного языка запроса для сравнения содержания двумерного в� |