Módulo C: Evaluación

La evaluación será un aspecto clave y crucial para el proyecto. Para asegurar la calidad del texto generado, se llevará a cabo dos tipos de evaluación: intrínseca y extrínseca, combinando métricas de evaluación automática y manual.

Este módulo permitirá cumplir con el objetivo OBJ5.

Actividad 1. Evaluación intrínseca

La evaluación intrínseca determinará de forma independiente el rendimiento y calidad de cada uno de los modelos obtenidos y enfoques propuestos durante el proyecto, tanto cuantitativamente como cualitativamente. Dicha evaluación será rigurosamente definida y establecida de acuerdo con los aspectos del texto que se deseen evaluar.

Para la evaluación cuantitativa, se utilizarán inicialmente herramientas (p. ej. BLEU (Papineni et al., 2002)) y métricas de evaluación —cobertura, precisión, medida F, perplejidad, entre otros— ampliamente utilizadas y aceptadas por la comunidad investigadora en PLN y GLN. Si fuera necesario, se investigará también la posibilidad de definir nuevas métricas adicionales adecuadas para abordar las deficiencias de las existentes, puesto que éstas necesitan disponer de textos de referencia para poder comparar la salida generada de forma automática.

En otros casos, se realizará también una evaluación cualitativa para evaluar otros aspectos, como la corrección gramatical del texto generado, su significado y si aborda el propósito comunicativo para el que se generó. Este tipo de evaluación, para la que se definirá una escala Likert de al menos 5 valores, la llevarán a cabo usuarios reales expertos (Pu et al., 2012), mediante plataformas de crowdsourcing como Figure Eight que incluyan las adecuadas políticas de privacidad y protección de datos, para garantizar que los datos personales de los participantes no serán distribuidos. Además, la calidad de la evaluación se verificará en forma de pruebas preliminares o tareas que garanticen el compromiso total de los participantes. Los resultados de las evaluaciones con expertos podrán dar lugar a la creación de corpus de referencia.

Hito: obtención de resultados obtenidos de la evaluación intrínseca

Actividad 2. Evaluación extrínseca

Con la evaluación extrínseca se pretende medir la utilidad y demostrar la aplicabilidad del enfoque holístico propuesto en el contexto de otras tareas de PLN y otros ámbitos. El proyecto pretende evaluar los métodos y herramientas desarrolladas en dos aspectos, su aplicación a escenarios reales y la generación de resúmenes abstractivos.

La generación automática de resúmenes abstractivos, es decir, generar un resumen de la misma manera que lo haría una persona, reescribiendo el texto con sus propias palabras a partir de cierta información leída, todavía se encuentra en un estado preliminar. La integración del enfoque de GLN desarrollado en Integer tendrá un impacto positivo en este campo de investigación, y más teniendo en cuenta la amplia experiencia del equipo investigador en trabajos relacionados con la generación de resúmenes automáticos, principalmente extractivos (Lloret y Palomar, 2013, Lloret et al., 2013b, Lloret et al., 2015b, Lloret, 2016) que garantizará la viabilidad y aplicabilidad del proyecto más allá de la GLN.

En cuanto a los escenarios reales de evaluación, dado que la propuesta de este proyecto es independiente del dominio, esta se realizará para los dominios de turismo y de política.

En el dominio turístico se está produciendo una transición de las agencias de viajes tradicionales a agencias digitales. Estas últimas facilitan al usuario el acceso a varias fuentes de información dentro de una misma web. Proporcionan una oferta amplia mediante sofisticados y potentes buscadores que permiten filtrar los resultados por precio, localización o distancia, entre otros. Aun así, al usuario le queda una ardua tarea a la hora de seleccionar el recurso más adecuado a sus intereses entre la variada selección que le presentan dichos buscadores. También son muy valorados los comentarios de otros usuarios. Sin embargo, su número puede ser tremendamente alto y su variar con el tiempo. Por ello, el usuario debe extraer una visión de conjunto de la calidad de la oferta.

En algunas webs, intentan facilitar dicha tarea mediante diversas herramientas, pero en ningún caso utilizan la información no estructurada del texto de los comentarios. El modelo propuesto en este proyecto mejoraría dichos resúmenes mediante la exploración del contenido textual de los propios comentarios dados por los usuarios, permitiendo la generación de diferentes tipos de resúmenes, parametrizados por los usuarios.

Otra esfera de aplicación es la política, más concretamente los debates en las comisiones parlamentarias. En un ámbito tan sensible como éste, los resúmenes automáticos podrían proporcionar una garantía adicional de fidelidad con respecto a las transcripciones originales.
En las sesiones públicas de las comisiones parlamentarias se hacen transcripciones de todas y cada una de las intervenciones. Cuando las sesiones no son públicas, en algunos casos, además de la transcripción, se incluyen los resúmenes de los discursos, procurando imparcialidad en su creación. Integer podría llevar a cabo tal tarea, verificando así mismo el grado de fidelidad respecto a los hitos más importantes producidos en sucesivas intervenciones. Con una autorización previa, a partir de los datos existentes de las transcripciones y los resúmenes manuales correspondientes, se podría evaluar y verificar la eficacia de la generación de los resúmenes automáticos.

Hito: obtención de resultados obtenidos por los métodos de evaluación extrínseca

Bibliografía

  • Lloret, E. (2016). Introducing the Key Stages for Addressing Multi-perspective Summarization. Proceedings of the 8th International Joint Conference on Knowledge Discovery, Knowledge Engineering and Knowledge Management (IC3K 2016) – Volume 1: KDIR, Porto – Portugal, November 9 – 11, 2016: 321-326.
  • Lloret, E., Boldrini, E., Vodolazova, E., Martínez-Barco, P., Muñoz, R. and M. Palomar (2015). A novel conceptlevel approach for ultra-concise opinion summarization. Expert Systems with Applications. 42(20): 71487156.
  • Lloret, E. and M. Palomar (2013). COMPENDIUM: a text summarisation tool for generating summaries of multiple purposes, domains, and genres. Natural Language Engineering 19(2): 147-186.
  • Lloret, E., L. Plaza, A. Aker (2013). Analyzing the capabilities of crowdsourcing services for text summarization. Language Resources and Evaluation 47(2): 337-369.
  • Papineni, K., S. Roukos, T. Ward and W. Zhu (2002). BLEU: a method for automatic evaluation of machine translation. In Proceedings of the 40th Annual Meeting on Association for Computational Linguistics (ACL ’02), pages 311-318. Association for Computational Linguistics.
  • Pu, P., L. Chen and R. Hu (2012). Evaluating recommender systems from the user’s perspective: survey of the state of the art. User Modeling and User-Adapted Interaction, 22(4- 5), 317-355.
  • Yao J., Wan X., and Xiao, J. (2017). Recent advances in document summarization. Knowledge and Information Systems, 53 (2), 297-336
VOLVER ARRIBA