Material divulgativo

21 Sep 2017

Mediaflows presenta los resultados de COSET en el Congreso Internacional de la SEPLN

 

La Classification Of Spanish Election Tweets (COSET) ha sido una iniciativa del grupo Mediaflows en la que han participado 30 investigadores de 5 países. Los resultados fueron presentados el pasado 19 de septiembre en el XXXIII Congreso Internacional de la Sociedad Española de Procesamiento de Lenguaje Natural (SEPLN), que tuvo lugar en Murcia. Este foro reúne a los principales investigadores del procesamiento de textos escritos en lengua castellana, una disciplina que cada vez tiene una mayor proyección en el ámbito de la comunicación digital. Mediaflows ha contado con la colaboración del Pattern Recognition and Human Language Technology research center (PRHLT) de la Universitat Politècnica de València para la organización de COSET.

Algunos de los miembros del comité organizador de COSET en la Universidad de Murcia: Paolo Rosso (PRHLT), Tomás Baviera (Mediaflows), Maite Giménez (PRHLT) y Francisco Rangel (PRHLT)

En la presentación de los resultados, Tomás Baviera, profesor de Marketing de la Universitat Politècnica de València e investigador del grupo Mediaflows, enmarcó el proyecto de COSET en el conjunto de las investigaciones sobre las Elecciones Generales de 2015 que Mediaflows está llevando a cabo. A continuación Maite Giménez, doctoranda de la Escuela de Informática de la Universitat Politècnica de València y adscrita al grupo PRHLT, explicó los diversos sistemas elaborados por los 17 equipos participantes y enumeró las principales dificultades que entrañaba esta tarea de clasificación automática. La sesión de trabajo finalizó con la intervención del equipo que había alcanzado el mejor resultado en la tarea.

El objetivo principal de COSET ha sido la clasificación de un corpus de tweets publicados durante la precampaña y campaña de las Elecciones Generales de 2015 en España. En la primera fase,  un grupo de tres investigadores de Mediaflows etiquetó 4.000 tweets siguiendo la tipología de temas propuesta por el profesor de la Harvard Kennedy School Thomas Patterson en su libro The Mass Media Election (1980). A partir de ahí, se preparó un corpus de entrenamiento y otro de test. El 20 de marzo comenzó la fase de entrenamiento y el 24 de abril se facilitaron instrucciones para la evaluación de los distintos sistemas. 

Finalmente, 30 investigadores de 5 países participaron en COSET formando 17 equipos. Se presentó un total de 39 modelos distintos para llevar a cabo la tarea. Los participantes pertenecían a la Universitat Politècnica de València, la Universidad Carlos III (Madrid), el Center for Pattern Recognition and Data Mining (Cuba), la Scuola Universitaria Professionale della Svizzera Italiana (Suiza), la  Faculty of New Science and Technologies de la Universidad de Teherán (Irán) y el International Institute of Information Technology Hyderabad de Telangana (India).

El sistema que mejor resultado obtuvo fue desarrollado por el grupo ELiRF (Grup d’Enginyeria del Llenguatge Natural i Reconeixement de Formes), de la Universitat Politècnica de València. Este sistema alcanzó una medida de precisión de Valor-F (F1 score) del 64,82%, y basó su operatividad en redes neuronales y en técnicas de word embedding. Además, tanto el segundo (64%) como el cuarto (63,3%) y quinto (62,33%) puesto en el ranking correspondieron a otros sistemas presentados por el mismo equipo. En el tercer puesto quedó el equipo LuSer, también perteneciente a la Universitat Politècnica, cuyo sistema alcanzó un Valor-F del 63,37%.

En la coordinación de COSET han participado, por parte del grupo Mediaflows, los investigadores Germán Llorca, José Gámir (Universitat de València) y Dafne Calvo (Universidad de Valladolid), además de Tomás Baviera. El resumen de los resultados de este proyecto puede encontrarse en este documento, publicado en las actas del congreso de la SEPLN.

Algunos equipos enviaron working notes en las que explicaron el sistema que habían desarrollado. Estas notas pueden consultarse en los siguientes enlaces:

Ensembles of Methods for Tweet Topic Classification
Gretel Liz De la Peña Sarracén (Center for Pattern Recognition and Data Mining, Cuba)

Comparative Study of Neural Models for the COSET Shared Task at IberEval 2017
Luca Ambrosini (Scuola Universitaria Professionale della Svizzera Italiana), Giancarlo Nicolò (Universitat Politècnica de València)

Short Text Classification Using Deep Representation: A Case Study of Spanish Tweets in Coset Shared Task
Erfaneh Gharavi, Kayvan Bijari (Faculty of New Science and Technologies, University of Tehran, Tehran, Irán)

Several Approaches for Tweet Topic Classification in COSET – IberEval 2017
Carlos Villar Lafuente, Gonçal Garcés Díaz-Munío  (Universitat Politècnica de València)

Classification Of Spanish Election Tweets (COSET) with Neural Networks
Luis Cebrián Chuliá, Sergio Ferrer Sánchez  (Universitat Politècnica de València)

Classification Of Spanish Election Tweets (COSET) 2017 : Classifying Tweets Using Character and Word Level Features
Ankush Khandelwal, Sahil Swami, Syed Sarfaraz Akhtar, Manish Shrivastava (International Institute of Information Technology Hyderabad, Telangana, India)

ELiRF-UPV at IberEval 2017: Classification Of Spanish Election Tweets (COSET)
José-Ángel González, Ferran Pla, Lluís-Felip Hurtado  (Universitat Politècnica de València)

IberEval 2017, COSET Task: A Basic Approach
Carlos Diez Alba, Jesús Vieco Pérez  (Universitat Politècnica de València)