摘要 |
<p>La présente invention concerne un procédé (42), mis enœuvre par ordinateur, d'identification de formes textuelles (2j) relatives à au moins un domaine dans un document numérique (3), l'ordinateur comprenant au moins un processeur et au moins une mémoire stockant une application (18) qui, lorsqu'elle est exécutée par ledit au moins un processeur, met enœuvre le procédé (42), le document numérique (3) étant stocké au sein de l'ordinateur et comprenant du texte, le texte contenant un ensemble de caractères sous forme de langage naturel, chaque forme textuelle étant définie comme un sous-ensemble de caractères associés à un même type, ledit type étant relatif à un domaine particulier et représentant la nature générale de la forme textuelle dans ce domaine. Le procédé comprend :•une étape (44) d'extraction de formes textuelles (2i) par application, pour l'ensemble des domaines relatifs aux formes textuelles (2i) du texte du document numérique (3), d'un ensemble d'implantations exécutables (29i) de langages réguliers sur le texte du document numérique (3), et•une étape (46) de sélection, à partir des formes textuelles (2i) extraites, de formes textuelles (2j) relatives à un sous-ensemble prédéterminé desdits domaines, par détection, pour chaque forme textuelle (2i) extraite, du type représentant ladite forme (2i).</p> |