Extracción y Recuperación de Información
(Bloque 2: Procesamiento del Lenguaje Natural en RI, RI
Multilingüe, Extracción de Información,
Búsqueda de Respuestas)
Índice:
NOTA IMPORTANTE: La
información mostrada en estas páginas
se ofrece a título meramente informativo y no sustituye a la
información oficial publicada en los medios correspondientes.
Profesores
Aulas y horario
Miércoles de 11:30 a 13:30, seminario 4.1 de la Facultad de
Informática.
Temario
BLOQUE 1
- INTRODUCCIÓN
A
LA
RECUPERACIÓN
DE INFORMACIÓN (RI)
- Modelo booleano de
recuperación de información.
- Documentos, términos, vocabulario.
- Recuperación de información tolerante.
- MODELO DE
ESPACIO VECTORIAL DE RI
- Representación de documentos, consultas y medidas de
similaridad.
- Esquemas de pesado.
- Normalización.
- Implementación eficiente.
- MODELO
CLASICO PROBABILISTICO DE RI
- Probability Ranking Principle
- Derivación del modelo clásico
probabilístico.
- Otros modelos probabilísticos: 2-Poisson, Okapi, Redes
de Inferencia.
- Implementación eficiente.
- MODELO
ESTADÍSTICO DE LENGUAJE DE RI
- Modelos de lenguaje.
- Suavización.
- Aprendizaje y estimación de parámetros.
- Modelos de lengujaje basados en relevancia.
- Implementación eficiente.
- MODELO LATENT SEMANTIC INDEXING (LSI)
- Reducción de dimensionalidad basada en SVD.
- Derivación del modelo LSI.
- Cuestiones sobre la escalabilidad del modelo y nuevas
aproxiamciones: LSI eficiente, LPI, etc.
- EVALUACIÓN
EN
RI
- Tareas y métricas.
- Colecciones de referencia. TREC, WEB, BLOGS
- Significancia estadística.
- REALIMENTACIÓN
DE
RELEVANCIA,
CLUSTERING Y
CLASIFICACIÓN
- Realimentación de relevancia bajo el modelo vectorial
(Rocchio) y probabilístico.
- Local Contex Analysis
(LCA) y expansión de consultas.
- Clustering de
documentos.
- Clasificación de documentos.
- CONSTRUCCIÓN
Y
COMPRESIÓN
DE
INDICES. PROCESAMIENTO DE QUERIES
- Algoritmos de construcción de índices.
- Algoritmos de compresión de índices:
compresión de listas, compresión de frecuencias,
compresión del léxico.
- Procesamiento eficiente de consultas.
- RI WEB
- Modelos de retrieval
para el web.
- Análisis de links.
- Page Rank y HITS.
- Implementación de search
engines.
- Oportunidades de RI en el web.
- RI PARALELA
Y DISTRIBUIDA
- RI paralela y distribuida.
- Modelos de RI distribuida: selección de recursos,
enrutado de consultas, fusión de resultados.
- Aplicaciones novedoes en RI distribuida.
BLOQUE 2
- PROCESAMIENTO DEL LENGUAJE NATURAL
(PLN) EN RI
- Variación lingüística.
- Tratamiento de la variación morfológica. Stemming.
- Tratamiento de la variación
léxico-semántica. WordNet y EuroWordNet.
- Tratamiento de la variación sintáctica.
- RI MULTILINGÜE E INTERLINGÜE
- Impacto del multilingüismo sobre la RI.
- Aproximaciones al problema del multilingüismo.
- Traducción Automática (TA): conceptos
básicos y problemática.
- Aproximaciones a la TA: técnicas "clásicas" y
técnicas estadísticas.
- Aplicaciones de la TA en RI Interlingüe.
- Foros de evaluación: CLEF, NTCIR y FIRE.
- EXTRACCIÓN DE
INFORMACIÓN (EI)
- Conceptos básicos.
- Arquitectura de un sistema de EI.
- Tareas de EI.
- Evaluación en EI.
- Ejemplos de sistemas de EI: FASTUS y otros.
- BÚSQUEDA DE RESPUESTAS (BR)
- Conceptos básicos.
- BR vs. RI/EI.
- Arquitectura de un sistema de BR.
- Procesamiento de la pregunta.
- Recuperación y selección de documentos/pasajes.
- Extracción de la respuesta.
- Evaluación en BR.
Bibliografía del Bloque 2
- C.D. Manning, P. Raghavan y H. Schutze, Introduction to Information Retrieval,
Cambridge.
Cambridge
University Press, 2008.
- Christopher D. Manning y Hinrich Schütze, Foundations of Statistical Natural
Language Processing, The MIT Press, Cambridge (Massachusetts,
EE.UU.)/Londres (Reino Unido), 1999.
- Daniel Jurafsky y James H. Martin, Speech and Language Processing. An
Introduction to Natural Language Processing, Computational Linguistics
and Speech Recognition (2nd ed.), Pearson Prentice Hall, Upper
Saddle River, New Jersey, EE.UU, 2009.
- Gregory Grefenstette (ed.), Cross-language
information
retrieval, Kluwer Academic Publishers, Boston, 1998.
- Jerry R. Hobbs, The generic
information extraction system. En Proceedings of the 5th
Conference on Message understanding (MUC-5), pág. 87-91, Morgan
Kauffman Publishers, San Francisco, USA, 1993.
- Marius Pasca, Open-domain
question answering from large text collections, CSLI
Publications, Standford, 2003.
- Peter Jackson e Isabelle Moulinier, Natural language processing for online
applications : text retrieval, extraction and categorization (2nd ed.),
John
Benjamins,
Amsterdam/Philadelphia, 2007.
- W. John Hutchings y Harold L. Somers, An Introduction to Machine Translation,
Academic
Press,
Londres/San Diego, 1992.
- A. Arampatzis, Th. P. van der Weide, P. van Bommel y C.H.A.
Koster, Linguistically-motivated
Information Retrieval. En Vol. 69 de Encyclopedia of Library and
Information Science, pág. 201-222, Marcel Dekker, 2000.
- Fotis Lazarinis, Jesús Vilares, John I. Tait, J. &
Efthimis N. Efthimiadis, Current
research issues and trends in non-English Web searching. En
Special Issue on Non-English Web Retrieval, Journal of Information
Retrieval, 12(3), 230-250, Springer , Berlin-Heidelberg-New York, 2009.
- J.R. Hobbs, D. Appelt, J. Bear, D. Israel, M. Kameyama, M.
Stickel y M. Tyson, FASTUS - A
Cascaded Finite-State Transducer for Extracting Information from
Natural-Language Text. Ch. 13 of Finite-State Language
Processing, MIT Press, 1997.
- K. Kishida, Technical issues
of cross-language information retrieval: a review. En Special
Issue on Cross-Language Information Retrieval, Information Processing
& Management, 41(3), 433-455, Elsevier, 2005.
- M. Constantino y P. Coletti, Information
Extraction
in
Finance, WIT Press, Southampton, UK, 2008.
- Marie-Francine Moens, Information
Extraction:
Algorithms
and Prospects in a Retrieval Context,
Springer , Berlin - Heidelberg- New York, 2006.
- Piek Vossen (ed.), EuroWordNet.
A
Multilingual
Database with Lexical Semantic Networks, Kluwer
Academic Publishers, 1998.
- R. Baeza-Yates y B. Ribeiro-Neto, Modern Information Retrieval,
Addison Wesley, 1999.
- Robert Dale, Hermann Moisi y Harold Somers (eds.), Handbook of Natural Language Processing,
Marcel
Dekker,
Inc., Nueva York/Basilea, 2000.
Material del Bloque 2 (transparencias y lecturas)
I. Conceptos de
PLN:
II. PLN en
Recuperación de Información:
III. RI
Multilingüe e Interlingüe (lecturas):
- Gregory Grefenstette (ed.), Cross-language
information
retrieval, Kluwer Academic Publishers, Boston, 1998.
- Fotis Lazarinis, Jesús Vilares, John I. Tait, J. &
Efthimis N. Efthimiadis, Current
research issues and trends in non-English Web searching.
En Special Issue on Non-English Web Retrieval, Journal of Information
Retrieval, 12(3), 230-250, Springer , Berlin-Heidelberg-New York, 2009.
- K. Kishida, Technical issues
of cross-language information retrieval: a review.
En Special Issue on Cross-Language Information Retrieval, Information
Processing & Management, 41(3), 433-455, Elsevier, 2005.
IV.
Extracción de Información:
- Tema
5:
Extracción de Información
- (Lectura) J.R. Hobbs, D. Appelt, J. Bear, D. Israel, M. Kameyama, M.
Stickel y M. Tyson, FASTUS - A
Cascaded Finite-State Transducer for Extracting Information from
Natural-Language Text. Ch. 13 of Finite-State Language
Processing, MIT Press, 1997.
V.
Búsqueda de Respuestas:
Tutorías
Véase la pána web de la Facultad de Informática -->
Docencia --> Tutorías
Antes se acudir al despacho de los profesores, recomendamos pedir
cita por e-mail. Esto también permitiría realizar la
tutoría en otro
horario acordado entre alumno y profesor
Last
modified:
Tue
Oct
19
10:26:53 CEST 2010