Se encuentra usted aquí

CURSOS THALES - ONLINE - XXVIII Edición - Primera Convocatoria (Mayo - Junio 2023)
INFORMACIÓN GENERAL

Descripción Completa de Curso ED13

Descripción completa de curso

Descripción Curso: 05-MLC

Código: 05-MLC
Título: Matemáticas, lenguajes y computación: Una introducción a la ingeniería del lenguaje natural
Descripción:
El lenguaje natural constituye quizás el modelo de comunicación más sofisticado y complejo del ser humano. El interés por el estudio del lenguaje ha formado parte de la filosofía, la psicología, la sociología, etc., y por supuesto la lingüística. Coincidiendo con los mismos orígenes de la informática, surgió el interés por crear sistemas automáticos que pudieran analizar o manipular de alguna forma el lenguaje natural (escrito o hablado). Han sido múltiples los enfoques, metodologías, proyectos de investigación, sistemas y aplicaciones que se han desarrollado en los últimos 50 años.

Ahora bien, la manipulación informática o computacional de un fenómeno tan complejo como es el lenguaje natural requiere la formalización y estructuración de los elementos que forman el lenguaje. En definitiva, podemos hablar de un importante componente de modelos matemáticos como soporte al análisis de los lenguajes naturales en sus diversos niveles. Este curso pretende presentar dichos fundamentos, siguiendo para ello un enfoque práctico que integre tanto la teoría matemática que se encuentra en la base como su aplicación a problemas reales con lenguajes naturales.

Es decir, el curso lleva a cabo una introducción general a los principales modelos, técnicas, fundamentos y aplicaciones del campo de la Ingeniería del Lenguaje Natural, resultado de la confluencia de estudios interdisciplinares en los ámbitos de las Ciencias de la Computación, Programación y algorítmica, Lógica, Lingüística y Psicología, que se concentran como un área de especialización dentro de la Inteligencia Artificial que recibe distintos nombres (Lingüística Computacional, Procesamiento del Lenguaje Natural o Ingeniería del Lenguaje Natural), pero que en cualquier caso se caracteriza por el estudio de modelos que permitan la manipulación computacional de fenómenos lingüísticos.

El curso se ha estructurado en un bloque introductorio y cuatro bloques temáticos. Teniendo en cuenta la amplitud de este campo de estudio, se ha optado por ofrecer una introducción general al mismo, y centrar el estudio en un grupo de campos diferentes aunque interrelacionados que constituyen las principales líneas de investigación y de aplicación.

Comenzando con los fundamentos que la teoría de lenguajes formales ofrece al estudio de los lenguajes naturales desde el punto de vista de su manipulación computacional, se analizan a continuación los formalismos gramaticales, haciendo especial hincapié en los modelos gramaticales y la semántica computacional. Y por último se estudian los enfoques estadísticos y en concreto su aplicación a la recuperación de información.

Profesorado: Ángel Nepomuceno Fernández
José Francisco Quesada Moreno
Programa:
Tema 1: Introducción a la ingeniería del lenguaje natural
1.1.- Definiciones
1.2.- Historia
1.3.- Modelos
1.4.- Tendencias y líneas de investigación
1.5.- Campos y aplicaciones
1.6.- Ejercicios

Tema 2: Teoría de lenguajes formales
2.1.- Introducción histórica
2.2.- Símbolos y cadenas de símbolos
2.3.- Lenguajes y gramáticas
2.4.- Tipos de gramáticas: la jerarquía de Chomsky
2.5.- Expresiones regulares
2.6.- Autómatas de estados finitos
2.7.- Ejemplos y ejercicios

Tema 3: Gramáticas libres de contexto y análisis sintáctico (parsing)
3.1.- Introducción
3.2.- El formalismo BNF y las técnicas LR
3.3.- Los algoritmos CKY, Earley y GHR
3.4.- Parsing dirigido por núcleos (Head-driven parsing)
3.5.- Técnicas deterministas
3.6.- Gramáticas formales
3.7.- Principales métodos de parsing: chart y GLR
3.8.- Últimas tendencias
3.9.- Ejemplos y ejercicios

Tema 4: Semántica y unificación
4.1.- Semántica composicional
4.2.- Representación de información lingüística
4.3.- Uso de rasgos en la descripción funcional 
4.4.- Los fundamentos matemáticos de la subsunción y la unificación
4.5.- La Gramática Léxico-Funcional (LFG)
4.6.- Ejemplos y ejercicios

Tema 5: Recuperación de información y enfoques estadísticos
5.1.- Modelos gramaticales estadísticos: gramáticas estadísticas
5.2.- Modelos de lenguaje n-grams
5.3.- Recuperación de información: el modelo del espacio vectorial
5.4.- Ejemplos y ejercicios

Objetivos:
En primer lugar, se pretende llevar a cabo una introducción general del campo denominado Ingeniería del Lenguaje Natural, como evolución académica durante los últimos años a partir de las líneas de investigación y desarrollo en ámbitos conocidos como Procesamiento del Lenguaje Natural y Lingüística Computacional. Para cubrir este objetivo se presentarán las nociones básicas basadas tanto en conceptos de lingüística general, como de teoría de la información e inteligencia artificial.

El curso tiene una clara motivación e intención práctica, por lo que pretende que la mayor parte de los temas introducidos se puedan practicar a través de determinados ejemplos y ejercicios. Para cubrir este objetivo a lo largo del curso se presentan algoritmos reales que están siendo usados, y se proponen ejercicios que permitan trabajar con los conceptos  introducidos.

La teoría de lenguajes formales constituye uno de los principales referentes matemáticos para el tratamiento de los lenguajes naturales. Se introducirán conceptos tales como cadena, operadores sobre cadenas y a partir de ahí, la noción matemática de lenguaje. Se analizarán distintos ejemplos de modelos formales de lenguajes, y las técnicas algorítmicas necesarias para su tratamiento.

Las gramáticas libres de contexto representan el principal modelo formal de manipulación de lenguajes naturales. El curso asume como un objetivo principal la presentación de este modelo teórico así como las principales técnicas y algoritmos que se han formulado en los últimos años para su manipulación.

El nivel semántico se relaciona con la representación y manipulación del significado de una expresión. Por tanto, por encima del nivel sintáctico, el curso asume como otro objetivo la descripción de la semántica composicional, y en concreto se centrará en las operaciones matemáticas de subsunción y unificación como estrategias formales para la gestión del nivel semántico de los lenguajes naturales.

Un enfoque muy interesante que está recibiendo gran interés en investigación y desarrollo durante los últimos años se centra en la aplicación de modelos estadísticos para el análisis de los lenguajes naturales. El último bloque temático del curso presenta estos modelos así como ejemplos prácticos de utilización. 

Calendario:
El curso se estructura en los 8 temas descritos en la sección anterior sobre el programa. Este material se entregará de forma progresiva durante el período de desarrollo del curso, y los alumnos deberán estudiar el material suministrado, reproducir los ejemplos descritos con el fin de consolidar los conocimientos, y realizar los ejercicios y entregarlos en las fechas previstas.

Al inicio del curso se suministrará una agenda detallada que describe todas las actividades y tareas que se deben realizar.

Metodología:
El curso se basa en la utilización de una plataforma Web para la enseñanza-aprendizaje a través de Internet. Dicha plataforma permite la organización del material de acuerdo con los objetivos y los contenidos programados. 

Es decir, el curso se organiza a través de un conjunto de temas, para cada uno de los cuales se facilitará tanto el desarrollo del tema correspondiente, así como un conjunto de ejemplos ilustrativos de la materia del tema. Se trata de un curso que intenta equilibrar los contenidos teóricos con un enfoque práctico que permita entender mejor dichos conceptos y trabajar en casos reales con ellos.

Así mismo, cada tema incluye un conjunto de ejercicios que será necesario realizar para superar el curso. Los ejercicios se han diseñado pensando en el modelo progresivo de aprendizaje de un entorno y lenguaje de programación.

Para facilitar la resolución de las dudas y la colaboración en un entorno integrado de enseñanza-aprendizaje, el curso contará con una serie de mecanismos de comunicación tutor-alumno, entre los que destacan la creación de una serie de foros, tanto genéricos (dudas y comentarios acerca del curso y su seguimiento) como específicos por temas o tópicos de especial interés.
Evaluación: De acuerdo con las directrices generales especificadas para la metodología del curso, la evaluación para la superación del mismo se basa en la realización de los ejercicios propuestos en cada tema. Cada alumno debe realizar estos ejercicios individualmente  y enviar la solución al profesor del curso mediante los canales de  control de tareas internos al propio entorno virtual de enseñanza-aprendizaje, en el que quedan reflejadas las fechas y valoración de cada una de las tareas.
Requisitos: No existen requisitos previos específicos para la realización de este curso.
Bibliografía:
  • Russell, S. y Norvig, P. Inteligencia artificial (Un enfoque moderno). Prentice–Hall Hispanoamericana.
  • Manning, C.D. y Schutze, H. Foundations of statistical natural language processing. MIT Press, 1999.
  • Manning, C.D., Raghavan, P. y Schutze, H. Introduction to Information Retrieval. Cambridge University Press, 2008
  • Handbook of natural language processing [Recurso electrónico] / [edited by] Nitin Indurkhya and Fred J. Damerau Boca Raton : Taylor & Francis, 2010

Otros:
  Descripción reducida del curso