Módulo B – Integer

Módulo B: Generación Inteligente de Lenguaje Natural

En este módulo se priorizará el uso de técnicas avanzadas de aprendizaje automático, como el aprendizaje profundo (deep learning). La novedad científica de este módulo radica en cómo integrar, en la estructura de capas ocultas que este tipo de algoritmos proporcionan, el planificador de texto y el conocimiento disponible sobre un tema. El planificador de texto vendrá determinado por el resultado de las actividades del módulo A. El conocimiento se obtendrá a partir de bases de conocimiento y ontologías ya existentes —Wikipedia, BabelNet, Semantic Package y similares—, y se utilizarán herramientas de PLN para extraer la información necesaria para componer el texto. Así, el enfoque propuesto abordará todo el proceso de GLN, desde la macroplanificación hasta la realización lingüística como un todo —de ahí la denominación de holístico—, y será capaz de generar texto coherente y semánticamente correcto orientado a un propósito comunicativo dado.

Este módulo permitirá cumplir con el objetivo OBJ4.

Actividad 1. Aprendizaje profundo para generar lenguaje natural

El objetivo de esta tarea es determinar los algoritmos de aprendizaje automático que mejor funcionen para la generación del lenguaje y desarrollar nuevos modelos basados en ellos, logrando un equilibrio entre la calidad de la salida generada y su coste computacional. En primer lugar, se realizará un análisis sistemático de la literatura en este tema con el fin de: (i) saber qué tipo de algoritmo ha obtenido mejores resultados en otras de PLN afines (p.ej. generación automática de resúmenes); y (ii) ser conscientes de sus ventajas y limitaciones, evitando así la repetición de errores ya identificados por otros investigadores. También se analizarán plataformas existentes como Keras o TensorFlow para llevar a cabo el desarrollo y la implementación del enfoque propuesto.

Inicialmente, los algoritmos se utilizarán para demostrar su validez para la etapa de realización lingüística. Posteriormente, una vez que los resultados preliminares hayan demostrado el éxito de este tipo de algoritmos de aprendizaje automático, se integrarán las etapas restantes del proceso de generación, macro y microplanificación, para construir un enfoque holístico en la actividad 2.

Hito: obtención de modelos para la realización lingüística usando aprendizaje profundo

Actividad 2. Propuesta y desarrollo de un enfoque holístico para generar lenguaje natural

Esta es una tarea clave para el proyecto, cuya realización con éxito dará como resultado un método holístico de GLN guiado por el objetivo comunicativo que se desee, y que será capaz de resolver, con el mismo enfoque, muchos de los problemas de generación —informes, recomendaciones, quejas, críticas, opiniones, etc.—.

Los planificadores de textos obtenidos en el módulo A se integrarán como conocimiento en capas intermedias de los algoritmos avanzados de aprendizaje automático, teniendo en cuenta los métodos de realización lingüística investigados en la actividad anterior de este módulo. Esto conducirá a un modelo holístico de GLN, flexible y adaptativo en cuanto al tipo de texto que se quiera producir y la finalidad que deba tener el mismo partiendo de fuentes de información heterogéneas.

Investigaciones previas han demostrado que es posible usar algoritmos de aprendizaje tradicionales para integrar las tres etapas mencionadas anteriormente (Duma y Klein, 2013, Konstas y Lapata, 2013). Estos estudios confirman la viabilidad de la tarea para ser investigada con algoritmos y técnicas avanzadas que tienen un mayor potencial. En este sentido, Integer dará un salto cuantitativo y cualitativo usando técnicas de aprendizaje profundo, y considerando los modelos comunicativos del lenguaje obtenidos para los planificadores del texto como características del proceso completo de generación.

Hito: enfoque holístico para GLN guiado por un objetivo comunicativo para fuentes de información heterogéneas

Bibliografía

Duma, D. and E. Klein (2013). Generating natural language from Linked Data: Unsupervised template extraction. Proceedings of the 10th International Conference on Computational Semantics (IWCS 2013), pages 83–94. Association for Computational Linguistics.
Konstas, I. and M. Lapata. (2013). Inducing Document Plans for Concept-to-Text Generation. Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 1503–1514. Association for Computational Linguistics.