摘要 |
<p>Selon cette invention, on utilise une voie de recherche basée sur des dictionnaires pour identifier des langues dans différentes zones d'un document multilingue. A la première étape, une image du document est segmentée en différentes zones, régions et mots symboles par des propriétés géométriques appropriées. Dans chaque zone, les mots symboles sont comparés aux dictionnaires associés à différentes langues candidates, et la langue qui présente le facteur de certitude le plus élevé est d'abord identifiée comme la langue de la zone. Ensuite, chaque zone est également divisée en régions. La langue de chaque région est alors identifiée à l'aide des facteurs de certitude pour les mots de cette région. Pour toute détermination de langue ayant une valeur de certitude faible, la langue de la zone précédemment déterminée est utilisée pour faciliter le processus d'identification.</p> |