发明名称 SYSTEMS AND METHODS FOR RETRIEVING TABULAR DATA FROM TEXTUAL SOURCES
摘要 <p>Les tables constituent un type important d'éléments de données d'extraction de texte. Le fondement de la totalité d'un article d'information ou d'un autre exposé peut être capturé de façon concise sous une forme tabulaire. On peut exploiter l'information autre que les mots-clés d'un document numérique afin de fournir aux utilisateurs des possibilités d'interrogation plus souples et plus puissantes. Plus particulièrement, on exploite l'information structurelle d'un document afin d'identifier des tables et leurs champs composants et de laisser l'interrogation des utilisateurs se baser sur ces champs. Ces champs composants comprennent des lignes de table, des lignes de titre, des en-têtes de rangées, des en-têtes de colonnes ou d'autres composantes de table. Des résultats empiriques ont démontrés qu'on peut réaliser de façon efficace l'extraction de tables et l'assignation de descripteurs de composantes basés sur une méthode heuristique. De plus, des expériences d'extraction mettant en application le système décrit, indiquent avec force que ce type de décomposition structurelle peut améliorer la facilité de la représentation des besoins d'information des utilisateurs et, par conséquent, permettre une extraction plus efficace des tables.</p>
申请公布号 WO1999005623(A1) 申请公布日期 1999.02.04
申请号 US1998015287 申请日期 1998.07.23
申请人 发明人
分类号 主分类号
代理机构 代理人
主权项
地址