发明名称 SEGMENTACION AUTOMATICA DE TEXTOS QUE COMPRENDEN FRAGMENTOS SIN SEPARADORES.
摘要 Procedimiento implementado por ordenador de segmentación en fragmentos, sintagmas de un texto escrito que incluyen elementos individuales, sin separadores, estando dichos fragmentos compuestos por cadenas incluyendo al menos uno de dichos elementos individuales, incluyendo el procedimiento las etapas de: - Proporcionar un léxico que incluye un conjunto de cadenas, estando cada cadena compuesta de por lo menos uno de dichos elementos, en donde las cuerdas en dicho léxico son al menos parcialmente, representativas de dichos fragmentos, comprendiendo dicho léxico un léxico estático como un conjunto predeterminado de cadenas y un léxico dinámico, - Buscar el sintagma que se segmenta sobre una base de elemento por elemento (INDX) mediante la búsqueda dentro de dicho léxico estático de cadenas correspondientes a cualquiera de dichos fragmentos, en el que, en el caso de un resultado positivo de búsqueda (312), el fragmento localizado correspondiente se almacena en una memoria intermedia (C) asociada a un coste correspondiente (CM), - Comprobar si el fragmento localizado ya estaba presente en el léxico dinámico (SLEX) y: a) en el caso de que el fragmento localizado ya estaba presente, reduciendo los costes asociados al mismo; b) en el caso de que el fragmento localizado no existía previamente en el léxico dinámico, controlar (440) si el léxico dinámico está lleno y i) si el léxico dinámico no está lleno, almacenar el fragmento localizado en el léxico dinámico con los costes respectivos (CM, CF) disminuidos en un valor constante (DCI), ii) si el léxico dinámico está lleno, buscar cualquier fragmento almacenado que tenga un coste asociado mayor que un umbral de coste dado y, si se localizara dicho fragmento, sustituir el fragmento nuevo (450) por dicho fragmento; - Almacenar, como resultado de dicha búsqueda, una pluralidad de secuencias de segmentación candidatas, cada una correspondiente a un modelo de segmentación respectivo y teniendo un coste devengado asociado correspondiente, y - Seleccionar como el resultado final de la segmentación la secuencia candidata con el menor coste asociado acumulado.
申请公布号 ES2369665(T3) 申请公布日期 2011.12.02
申请号 ES20030817059T 申请日期 2003.05.28
申请人 LOQUENDO SPA 发明人 BADINO, LEONARDO
分类号 G06F17/27 主分类号 G06F17/27
代理机构 代理人
主权项
地址