Tesis Doctoral

Información general
Resumen
Estructura de la memoria
Difución de resultados
Descarga
Más información

[This page in English]

Título

Interpretación tabular de autómatas para lenguajes de adjunción de árboles

Autor

D. Miguel A. Alonso Pardo

Directores

Dr. Manuel Vilares Ferro (Universidade da Coruña, España)
Dr. Eric Villemonte de la Clergerie (INRIA, Francia)

Fecha

25 de septiembre de 2000

Tribunal

Presidente: Dr. Josep Miró (Universitat de les Illes Balears, España)
Vocal 1⁰: Dr. José Mira Mira (UNED, España)
Vocal 2⁰: Dr. Pierre Boullier (INRIA, Francia)
Vocal 3⁰: Dr. Mark-Jan Nederhof (DFKI, Alemania)
Secretario: Dr. Antonio Blanco Ferro (Universidade da Coruña, España)

Calificación

Sobresaliente Cum Laude

Resumen

Las gramáticas de adjunción de árboles son una extensión de las gramáticas independientes del contexto que utilizan árboles en vez de producciones como estructuras elementales y que resultan adecuadas para la descripción de la mayor parte de las construcciones sintácticas presentes en el lenguaje natural. Los lenguajes generados por esta clase de gramáticas se denominan lenguajes de adjunción de árboles y son equivalentes a los lenguajes generados por las gramáticas lineales de índices y otros formalismos suavemente dependientes del contexto.

En la primera parte de esta memoria se presenta el problema del análisis sintáctico de los lenguajes de adjunción de árboles. Para ello, se establece un camino evolutivo continuo en el que se sitúan los algoritmos de análisis sintáctico que incorporan las estrategias de análisis más importantes, tanto para el caso de las gramáticas de adjunción de árboles como para el caso de las gramáticas lineales de índices.

En la segunda parte se definen diferentes modelos de autómata que aceptan exactamente los lenguajes de adjunción de árboles y se proponen técnicas que permiten su ejecución eficiente. La utilización de autómatas para realizar el análisis sintáctico es interesante porque permite separar el problema de la definición de un algoritmo de análisis sintáctico del problema de la ejecución del mismo, al tiempo que simplifica las pruebas de corrección. Concretamente, hemos estudiado los siguientes modelos de autómata:

Los autómatas a pila embebidos descendentes y ascendentes, dos extensiones de los autómatas a pila que utilizan como estructura de almacenamiento una pila de pilas. Hemos definido nuevas versiones de estos autómatas en las cuales se simplifica la forma de las transiciones y se elimina el control de estado finito, manteniendo la potencia expresiva.
La restricción de los autómatas lógicos a pila para adaptarlos al reconocimiento de las gramáticas lineales de índices, obteniéndose diferentes tipos de autómatas especializados en diversas estrategias de análisis según el conjunto de transiciones permitido.
Los autómatas lineales de índices, tanto los orientados a la derecha, adecuados para estrategias en las cuales las adjunciones se reconocen de manera ascendente, los orientados a la izquierda, aptos para estrategias de análisis en las que las adjunciones se tratan de forma descendente, como los fuertemente dirigidos, capaces de incorporar estrategias de análisis en las cuales las adjunciones se tratan de manera ascendente y/o descendente.
Los autómatas con dos pilas, una extensión de los autómatas a pila que trabaja con una pila maestra encargada de dirigir el proceso de análisis y una pila auxiliar que restringe las transiciones aplicables en un momento dado. Hemos descrito dos versiones diferentes de este tipo de autómatas, los autómatas con dos pilas fuertemente dirigidos, aptos para describir estrategias de análisis arbitrarias, y los autómatas con dos pilas ascendentes, adecuados para describir estrategias de análisis en las cuales las adjunciones se procesan ascendentemente.

Hemos definido esquemas de compilación para todos estos modelos de autómata. Estos esquemas permiten obtener el conjunto de transiciones correspondiente a la implantación de una determinada estrategia de análisis sintáctico para una gramática dada.

Todos los modelos de autómata pueden ser ejecutados en tiempo polinomial con respecto a la longitud de la cadena de entrada mediante la aplicación de técnicas de interpretación tabular. Estas técnicas se basan en la manipulación de representaciones colapsadas de las configuraciones del autómata, denominadas ítems, que se almacenan en una tabla para su posterior reutilización. Con ello se evita la realización de cálculos redundantes.

Finalmente, hemos analizado conjuntamente los diferentes modelos de autómata, los cuales se pueden dividir en tres grandes grupos: la familia de los autómatas generales, de la que forman parte los autómatas lineales de índices fuertemente dirigidos y los autómatas con dos pilas fuertemente dirigidos; la familia de los autómatas descendentes, en la que se encuadran los autómatas a pila embebidos y los autómatas lineales de índices orientados a la izquierda; y la familia de los autómatas ascendentes, en la que se enmarcan los autómatas a pila embebidos ascendentes, los autómatas lineales de índices orientados a la derecha y los autómatas con dos pilas ascendentes.

Estructura de la memoria

La memoria se estructura en tres partes. En la primera se presentan los lenguajes de adjunción de árboles y las técnicas de análisis sintáctico para dicha clase de lenguajes. En la segunda, que constituye el núcleo de la memoria, se presentan diversos modelos de autómata para esta clase de lenguajes junto con las técnicas que permiten realizar la interpretación tabular de cada uno de ellos. La tercera parte la constituyen una serie de apéndices en los que se presenta material que, si bien no es imprescindible, es de interés en el ámbito de la tesis. A continuación presentamos un breve resumen del contenido de cada uno de los capítulos.

Capítulo 1. Introducción

Parte I. Lenguajes de adjunción de árboles

Capítulo 2. Lenguajes de adjunción de árboles

En este capítulo se realiza una presentación de los lenguajes de adjunción de árboles, situándolos en la jerarquía de Chomsky. Se tratan en detalle dos formalismos gramaticales que generan esta clase de lenguajes, las gramáticas de adjunción de árboles y las gramáticas lineales de índices, pues son los formalismos sobre los que se trabajará en el resto de la memoria. También se presentan brevemente otros formalismos que generan la misma clase de lenguajes.

Capítulo 3. Algoritmos de análisis sintáctico para TAG

Este capítulo constituye un estudio sobre el estado actual del análisis sintáctico de las gramáticas de adjunción de árboles, aunque incluye aportaciones novedosas. En particular, se presenta una línea evolutiva continua en la cual se sitúan los algoritmos tabulares correspondientes a las principales estrategias de análisis para gramáticas de adjunción de árboles, abarcando desde estrategias puramente ascendente hasta estrategias de tipo Earley que preservan la propiedad del prefijo válido. Todos estos algoritmos se definen mediante esquemas de análisis sintáctico, de tal modo que los algoritmos más complejos se derivan a partir de los menos complejos aplicando una secuencia de transformaciones simples. También se presentan aquellos algoritmos que incorporan estrategias bidireccionales, que realizan el proceso de análisis en varias fases, que basan el análisis en una compilación en gramáticas lineales de índices, que precompilan parte de la información en forma de un autómata de tipo LR y aquellos diseñados específicamente para su ejecución en máquinas paralelas.

Capítulo 4. Algoritmos de análisis sintáctico para LIG

En este capítulo se realiza un estudio sobre el estado actual del análisis sintáctico de las gramáticas lineales de índices, al que se ha contribuido con el desarrollo de algoritmos tabulares de tipo Earley con y sin la propiedad del prefijo válido. El diseño de estos algoritmos nos ha permitido crear una línea evolutiva continua paralela a la desarrollada en el capítulo precedente para el caso de las gramáticas de adjunción de árboles.

Parte II. Modelos de autómata para los lenguajes de adjunción de árboles

Capítulo 5. Autómatas a pila

Antes de proceder a la definición de nuevos modelos de autómata, se presenta en este capítulo un repaso de los autómatas a pila y de las técnicas de tabulación disponibles para los mismos.

Capítulo 6. Autómatas a pila embebidos

En este capítulo se presentan los autómatas a pila embebidos, en los cuales la estructura principal de almacenamiento la constituye una pila de pilas. Junto a la definición clásica se presenta una nueva formulación en la cual se elimina el control de estado finito y se simplifica la forma de las transiciones al tiempo que se mantiene la potencia expresiva. Esta nueva formulación permite diseñar una técnica de tabulación para la ejecución eficiente de los diversos esquemas de compilación para gramáticas de adjunción de árboles y gramáticas lineales de índices que se definen en el capítulo.

Capítulo 7. Autómatas a pila embebidos ascendentes

La versión dual del modelo de autómata tratado en el capítulo anterior la constituyen los autómatas a pila embebidos ascendentes. En este capítulo se realiza una definición formal de los mismos, algo que no se había logrado hasta el momento. La eliminación del control de estado finito permite simplificar la forma de las transiciones, lo cual facilita la definición de una técnica de tabulación para este modelo de autómata.

Capítulo 8. Autómatas lógicos a pila restringidos

En este capítulo mostramos cómo las gramáticas lineales de índices constituyen un tipo específico de gramáticas de cláusulas definidas en el cual los predicados tienen un único argumento en forma de pila de índices. Aprovechamos esta característica para definir una versión restringida de los autómatas lógicos a pila adecuada al tratamiento de este tipo de gramáticas y de las gramáticas de adjunción de árboles. Dependiendo de la forma de las transiciones permitidas, podemos distinguir tres tipos diferentes de autómata, uno que permite el análisis ascendente de los índices o adjunciones, otro que permite el análisis descendente y otro que permite estrategias mixtas. En los dos últimos casos es preciso establecer restricciones en la combinación de las transiciones para garantizar que dichos autómatas aceptan exactamente la clase de los lenguajes de adjunción de árboles. Se presentan esquemas de compilación y técnicas de tabulación para los tres tipos de autómata.

Capítulo 9. Autómatas lineales de índices

En este capítulo se presentan los autómatas lineales de índices, que utilizan la misma estructura de almacenamiento que los autómatas lógicos a pila restringidos pero con un juego diferente de transiciones. Distinguimos tres tipos diferentes de autómata: los autómatas lineales de índices orientados a la derecha para estrategias en las cuales las pilas de índices se evalúan de modo ascendente, los autómatas lineales de índices orientados a la izquierda en los cuales las pilas de se evalúan de modo descendente y los autómatas lineales de índices fuertemente dirigidos que permiten definir estrategias mixtas de análisis para el tratamiento de las pilas de índices. Es precisamente la definición de este último tipo de autómatas y de la correspondiente técnica de tabulación la principal aportación de este capítulo.

Capítulo 10. Autómatas con dos pilas

En este capítulo se opta por un modelo de autómata con una nueva estructura de almacenamiento. Se preserva la pila de los autómatas a pila tradicionales, a la que acompaña una pila auxiliar cuyo contenido restringe el conjunto de transiciones aplicables es un momento dado. Los autómatas con dos pilas fuertemente dirigidos permiten definir esquemas de compilación arbitrarios para gramáticas de adjunción de árboles y gramáticas lineales de índices. Por su parte, los autómatas con dos pilas ascendentes sólo permiten describir esquemas de compilación que incorporan estrategias ascendentes en lo referente al tratamiento de las adjunciones y de las pilas de índices. Se presentan las técnicas de tabulación que permiten una ejecución eficiente de ambos modelos de autómata.

Capítulo 11. Recapitulación

Una vez definidos los diferentes modelos de autómata, llega el momento de analizarlos conjuntamente, percibiéndose la existencia de tres grandes grupos de autómatas: los autómatas generales, entre los que se incluyen los autómatas lineales de índices fuertemente dirigidos y los autómatas con dos pilas fuertemente dirigidos; los autómatas descendentes, entre los que se encuadran los autómatas a pila embebidos y los autómatas lineales de índices orientados a la izquierda; y los autómatas ascendentes, que incluyen los autómatas a pila embebidos ascendentes, los autómatas lineales de índices orientados a la derecha y los autómatas con dos pilas ascendentes.

Capítulo 12. Conclusiones

Parte III. Apéndices

Apéndice A. Esquemas de análisis sintáctico

En este apéndice se presenta un resumen de los esquemas de análisis sintáctico, la estructura formal en la cual se describen los algoritmos de análisis sintáctico para los diferentes formalismos gramaticales utilizados en esta memoria.

Apéndice B. Algoritmos de análisis sintáctico para CFG

Este apéndice contiene la definición de los algoritmos de análisis sintáctico CYK y Earley para gramáticas independientes del contexto, que constituyen la base de la mayor parte de los algoritmos de análisis sintáctico para gramáticas de adjunción de árboles y para gramáticas lineales de índices.

Apéndice C. Análisis sintáctico LR generalizado

A partir del algoritmo de Earley se derivan las técnicas de interpretación tabular de los diferentes tipos de algoritmos LR para gramáticas independientes del contexto. A continuación se presenta un algoritmo de tipo LR para extensiones basadas en unificación de las gramáticas independientes del contexto, finalizando con la presentación de un algoritmo LR para gramáticas lineales de índices.

Difusión de resultados

El material generado durante la realización de la presente tesis doctoral ha dado lugar a varios artículos de revista, capítulos de libro y ponencias en congresos. A continuación detallamos los trabajos surgidos de los diferentes capítulos.

Capítulo 3.

Miguel A. Alonso Pardo, David Cabrero Souto, Eric de la Clergerie, y Manuel Vilares Ferro. Tabular algorithms for TAG parsing. In Proc. of EACL'99, Ninth Conference of the European Chapter of the Association for Computational Linguistics, páginas 150-157, Bergen, Noruega, junio de 1999. ACL. [AloCabCleVil99a.ps.gz] [AloCabCleVil99a.pdf]

versión previa en español: Miguel A. Alonso Pardo, David Cabrero Souto, Eric de la Clergerie, y Manuel Vilares Ferro. Algoritmos tabulares para el análisis de TAG. Procesamiento del Languaje Natural, 23:157-164, septiembre de 1998. [AloCabCleVil98a.ps.gz] [AloCabCleVil98a.pdf]

Capítulo 4.

Miguel A. Alonso Pardo, Eric de la Clergerie, Jorge Graña Gil, y Manuel Vilares Ferro. New tabular algorithms for LIG parsing. In Proc. of the Sixth International Workshop on Parsing Technologies (IWPT 2000), páginas 29-40, Trento, Italia, febrero de 2000. ACL/SIGPARSE. [AloCleGraVil2000a.ps.gz] [AloCleGraVil2000a.pdf]

versión previa en español: Miguel A. Alonso Pardo, Jorge Graña Gil, y Manuel Vilares Ferro. Nuevos algoritmos tabulares para el análisis de LIG. Procesamiento del Lenguaje Natural, 25:7-14, septiembre de 1999. [AloGraVil99a.ps.gz] [AloGraVil99a.pdf]

Capítulo 6.

Miguel A. Alonso Pardo, Eric de la Clergerie, y Manuel Vilares Ferro. A redefinition of Embedded Push-Down Automata. In Proc. of the 5th International Workshop on Tree Adjoining Grammars and Related Formalisms (TAG+5), páginas 19-26, París, Francia, mayo de 2000. [AloCleVil2000a.ps.gz][AloCleVil2000a.pdf]

Capítulo 7.

Miguel A. Alonso Pardo, Eric de la Clergerie y Manuel Vilares Ferro. A formal definition of Bottom-up Embedded Push-Down Automata and their tabulation technique. In P. de Groote, G. Morril y C. Retoré (eds.), Logical Aspects of Computational Linguistics, volume 2099 of Lecture Notes in Artificial Intelligence, páginas 44-61, Springer-Verlag, Berlín-Heidelberg-Nueva York, 2001. ISBN 3-540-42273-0. [AloCleVil2001a.ps.gz] [AloCleVil2001a.pdf]

versión previa en: Miguel A. Alonso Pardo, Eric de la Clergerie y Manuel Vilares Ferro. A formal definition of Bottom-up Embedded Push-Down Automata and their tabulation technique. In David S. Warren, Manuel Vilares, Leandro Rodríguez Liñares y Miguel A. Alonso (eds.), Proc. of Tabulation in Parsing and Deduction (TAPD 2000), páginas 101-112, Vigo, España, septiembre de 2000. [AloCleVil2000b.ps.gz] [AloCleVil2000b.pdf]

Capítulo 8.

Miguel A. Alonso Pardo, Eric de la Clergerie, y David Cabrero Souto. Tabulation of automata for tree adjoining languages. In Proc. of the Sixth Meeting on Mathematics of Language (MOL 6), páginas 127-141, Orlando, Florida, USA, julio de 1999. [AloCleCab99a.ps.gz] [AloCleCab99a.pdf]

Capítulo 9.

Miguel A. Alonso Pardo, Mark-Jan Nederhof, y Eric de la Clergerie. Tabulation of automata for tree adjoining languages. Grammars, 3(2/3):89-110, 2000. ISSN 1386-7393. [Reimpresiones disponibles por parte de los autores]

Capítulo 10.

Sección 10.3:

Eric de la Clergerie y Miguel A. Alonso Pardo. A tabular interpretation of a class of 2-Stack Automata. In COLING-ACL'98, 36th Annual Meeting of the Association for Computational Linguistics and 17th International Conference on Computational Linguistics, Proceedings of the Conference, volumen II, páginas 1333-1339, Montreal, Quebec, Canadá, agosto de 1998. ACL. [CleAlo98a.ps.gz] [CleAlo98a.pdf]
Miguel A. Alonso Pardo, Djamé Seddah, y Eric de la Clergerie. Practical aspects in compiling tabular TAG parsers. In Proc. of 5th International Workshop on Tree Adjoining Grammars and Related Formalisms (TAG+5), páginas 27-32, París, Francia, mayo de 2000. [AloSedCle2000a.ps.gz] [AloSedCle2000a.pdf]

Sección 10.4:

Eric de la Clergerie, Miguel A. Alonso Pardo, y David Cabrero Souto. A tabular interpretation of bottom-up automata for TAG. In Proc. of Fourth International Workshop on Tree-Adjoining Grammars and Related Frameworks (TAG+4), páginas 42-45, Filadelfia, PA, USA, agosto de 1998. [CleAloCab8a.ps.gz] [CleAloCab8a.pdf]

Apéndice C.

Secciones C.1-C.6:

Miguel A. Alonso Pardo, David Cabrero Souto, y Manuel Vilares Ferro. Construction of efficient generalized LR parsers. In Derick Wood y Sheng Yu, editores, Automata Implementation, volumen 1436 de Lecture Notes in Computer Science, páginas 7-24. Springer-Verlag, Berlín-Heidelberg-Nueva York, 1998. [AloCabVil97c.ps.gz] [AloCabVil97c.pdf]
versión previa en: Miguel A. Alonso Pardo, David Cabrero Souto, y Manuel Vilares Ferro. Construction of efficient generalized LR parsers. In Proc. of Second International Workshop on Implementing Automata (WIA'97), páginas 131-140, London, Ontario, Canadá, septiembre de 1997. [AloCabVil97a.ps.gz][AloCabVil97a.pdf]

Sección C.7:

Miguel A.Alonso Pardo, David Cabrero Souto, y Manuel Vilares Ferro. Generalized LR parsing for extensions of context-free grammars. In Nicolas Nicolov y Ruslan Mitkov, editores, Recent Advances in Natural Language Processing II, volumen 189 de Current Issues in Linguistic Theory. John Benjamins Publishing Company, Amsterdam & Filadelfia, 2000. [AloCabVil97b.ps.gz][AloCabVil97b.pdf]
versión previa en: Miguel A. Alonso Pardo, David Cabrero Souto, y Manuel Vilares Ferro. A new approach to the construction of Generalized LR parsing algorithms. In Ruslan Mitkov, Nicolas Nicolov, y Nikolai Nikolov, editores, Proc. of Recent Advances in Natural Language Processing (RANLP'97), páginas 171-178, Tzigov Chark, Bulgaria, septiembre de 1997. [AloCabVil97b.ps.gz][AloCabVil97b.pdf]

Sección C.8:

Miguel A. Alonso Pardo}, Eric de la Clergerie, y Manuel Vilares Ferro. Automata-based parsing in dynamic programming for Linear Indexed Grammars. In A. S. Narin'yani, editor, Proc. of DIALOGUE'97 Computational Linguistics and its Applications International Workshop, páginas 22-27, Moscú, Rusia, junio de 1997. [AloCleVil97a.ps.gz][AloCleVil97a.pdf]

Descarga

Versión completa [Alo2000a.ps.gz, 1312 K] [Alo2000a.pdf, 2518 K]
Portada, agradecimientos, resumen, abstract, índice general, índice de figuras, índice de tablas [Alo2000a_00.ps.gz, 205 K] [Alo2000a_00.pdf, 127 K]
Capítulo 1 [Alo2000a_01.ps.gz, 192 K] [Alo2000a_01.pdf, 103 K]
Capítulo 2 [Alo2000a_02.ps.gz, 261 K] [Alo2000a_02.pdf, 283 K]
Capítulo 3 [Alo2000a_03.ps.gz, 337 K] [Alo2000a_03.pdf, 459 K]
Capítulo 4 [Alo2000a_04.ps.gz, 236 K] [Alo2000a_04.pdf, 247 K]
Capítulo 5 [Alo2000a_05.ps.gz, 192 K] [Alo2000a_05.pdf, 97 K]
Capítulo 6 [Alo2000a_06.ps.gz, 280 K] [Alo2000a_06.pdf, 313 K]
Capítulo 7 [Alo2000a_07.ps.gz, 259 K] [Alo2000a_07.pdf, 283 K]
Capítulo 8 [Alo2000a_08.ps.gz, 324 K] [Alo2000a_08.pdf, 392 K]
Capítulo 9 [Alo2000a_09.ps.gz, 295 K] [Alo2000a_09.pdf, 322 K]
Capítulo 10 [Alo2000a_10.ps.gz, 306 K] [Alo2000a_10.pdf, 337 K]
Capítulo 11 [Alo2000a_11.ps.gz, 194 K] [Alo2000a_11.pdf, 92 K]
Capítulo 12 [Alo2000a_12.ps.gz, 182 K] [Alo2000a_12.pdf, 39 K]
Apéndice A [Alo2000a_A.ps.gz, 188 K] [Alo2000a_A.pdf, 100 K]
Apéndice B [Alo2000a_B.ps.gz, 181 K] [Alo2000a_B.pdf, 65 K]
Apéndice C [Alo2000a_C.ps.gz, 242 K] [Alo2000a_C.pdf, 311 K]
Bibliografía, índice onomástico e índice de materias [Alo2000a_ZZ.ps.gz, 220 K] [Alo2000a_ZZ.pdf, 164 K]

Más información

Los comentarios y sugerencias acerca de esta memoria y del trabajo en ella reflejado son bienvenidos. Se puede contactar con el autor en la dirección postal

            Miguel A. Alonso Pardo
            Departamento de Computación
            Facultad de Informática
            Campus de Elviña s/n
            15071 La Coruña (España)

o bien mediante correo electrónico en la dirección de correo electrónico alonso@dc.fi.udc.es.

En las páginas web del autor está disponible información adicional referente a esta tesis y a trabajos relacionados. La dirección es http://www.dc.fi.udc.es/~alonso/

Miguel Angel Alonso Pardo / alonso@dc.fi.udc.es

Last modified: Tue Nov 28 12:40:05 CET 2006