摘要 |
В данном изобретении применяют словарный подход для идентификации языков в различных зонах многоязычного документа. На первом этапе образ документа сегментируют на различные зоны, области и словоформы, с использованием подходящих геометрических свойств. В каждой зоне словоформы сравнивают со словарями, сопоставляемыми различным языкам-кандидатам, и язык, который проявляет наивысший показатель доверительности, первоначально идентифицируют в качестве языка данной зоны. Затем каждую зону расщепляют на области. После этого производят идентификацию языка каждой области с использованием показателей доверительности для слов данной области. Для любого определения языка, имеющего низкое значение доверительности, ранее определенный язык зоны применяют с целью способствовать процессу идентификации.Международная заявка была опубликована вместе с отчетом о международном поиске. |