摘要 |
<p>Les tables constituent un type important d'éléments de données d'extraction de texte. Le fondement de la totalité d'un article d'information ou d'un autre exposé peut être capturé de façon concise sous une forme tabulaire. On peut exploiter l'information autre que les mots-clés d'un document numérique afin de fournir aux utilisateurs des possibilités d'interrogation plus souples et plus puissantes. Plus particulièrement, on exploite l'information structurelle d'un document afin d'identifier des tables et leurs champs composants et de laisser l'interrogation des utilisateurs se baser sur ces champs. Ces champs composants comprennent des lignes de table, des lignes de titre, des en-têtes de rangées, des en-têtes de colonnes ou d'autres composantes de table. Des résultats empiriques ont démontrés qu'on peut réaliser de façon efficace l'extraction de tables et l'assignation de descripteurs de composantes basés sur une méthode heuristique. De plus, des expériences d'extraction mettant en application le système décrit, indiquent avec force que ce type de décomposition structurelle peut améliorer la facilité de la représentation des besoins d'information des utilisateurs et, par conséquent, permettre une extraction plus efficace des tables.</p> |