2023
Predicciones del Mundial de Atletismo y de Futbol
Entry type: Single project
Country/area: Cuba
Publishing organisation: Postdata.club,
Grupo de Inteligencia Artificial de la Facultad de Matemática y Computación de la Universidad de La Habana
Organisation size: Small
Publication date: 2022-07-26
Language: Spanish
Authors: Yudivián Almeida Cruz,
Lia de la C. Zerquera,
Daniel A. Cardenas,
Javier A. Oramas,
Karla Olivera,
Jorge Junio Morgado,
Omar Alejandro Hernández,
Dafne García,
Manuel (Noly) Fernández,
Lisandra López

Biography:
Yudivián Almeida es el coordinador del proyecto. Es editor de datos de Postdata.club y Director del Grupo de Investigación en Inteligencia Artificial de la Universidad de La Habana, donde es profesor. Ha realizado múltiplies publicaciones académicas y de divulgación de artículos, libros y capítulos de libros ya sea en el ámbito de la Ciencia de la Computación y del Periodismo. Ha obtenido varios premios, tanto individuales como siendo parte de colectivos, en certámenes como los Data Journalism Awards, los Online Journalism Awards, Premios de la Academia de Ciencias de Cuba, el Premio Nacional de Innovación de Cuba, entre otros.
Project description:
El proyecto se enfoca en la predicción de resultados de grandes eventos deportivos. Se predijeron, primeramente, todos los resultados del Mundial de Atletismo de Oregon y, posteriormente, los resultados del Mundial de Fútbol de Qatar. Para ello se utilizó una estrategia basada en datos de resultados previos y técnicas diferentes de inteligencia artificial (Aprendizaje de Máquina y Simulación). Se pronósticó correctamente el Campeón y Subcampeón del mundo en Qatar y el 69% de los finalistas, 60% de los medallista y 49% de los campeones de Oregon. Fueron de los mejores pronóscitos publicados en el ecosistema mediático.
Impact reached:
El proyecto ha tenido un gran impacto, sobre todo, durante el transcurso de los eventos deportivos que fueron objeto de los pronósticos. Los trabajos publicados, que no solo incluían los pronósticos, sino un análisis periodístico de los mismo así como el posterior análisis de los resultados, se convirtieron en publicaciones de referencia a las personas que seguían estos eventos deportivos quienes consultaban las publicaciones para estar al tanto de las posibilidades de equipos y competidores. El resultado también llamó la atención de autoridades deportivas quienes establecieron contactos con el equipo para trabajos futuros. La divulgación de los trabajos y la interacción se realizó utilizando Twitter publicando parte de los pronósticos así como los autores interactuando desde sus propias cuentas. Otro valor de impacto del proyecto es la continuidad de la colaboración con la Academia pues los trabajos fueron hechos en colaboración con el Grupo de Inteligencia Artificial de la Universidad de La Habana, esto permitió acercar a estudiantes de Ciencia de la Computación al Periodiismo de Datos para que, en el futuro, se puedan integrar, conociendo el quehacer del periodismo de datos, en espacios de análisis sociales. Fue interesante el caso de las predicciones de Fútbol, el pronóstico estaba funcionando como uno más pero una vez concluida la fase de grupos compartimos en Twitter, desde la cuenta de uno de los autores, una comparativa de nuestro pronóstico con los realizados por EASport, El País, FiveThirthyEight, Oxford, 90 Minutos y Turing Institute y eramos en ese momento el pronóstico que más equipos acertó que pasaron a 8vos y, sobre todo, el que acertó en equipos como Senegal, USA, Australia, Marruecos y Corea del Sur, fuimos aumentando de seguidores lo que aumento hasta el último momento cuando fuimos los únicos, de los pronósticos comentados, que predijimos correctamente al campeón y subcampeón.
Techniques/technologies used:
Las publicaciones del proyecto visibilizan los pronósticos finales así como los análisis de los pronósticos y de los resultados finales de los eventos, sin embargo, para llegar a este punto hubo mucho trabajo que requirió de el uso de múltiples técnicas. Los pronósticos requerían de datos que fueron extraídos de varias fuentes Web, para ello se utilizó Python con las bibliotecas Requests y Selenium. Asimismo, una vez que se tuvieron estos datos fue necesario manipularlos, visualizarlos y construir los modelos de IA, en todos los casos se usó las biblioteca SKLearn, Numpy, Pandas y Matploblib. En el caso particular de los modelos, para el Atletismo se utilizó Kernel Distribution Estimation (KDE) para estimar la función de densidad de probabilidad de las marcas o tiempos mientras que para el fútbol se implementó un modelo de microsimulaciones basados en agentes, donde se simulaban los partidos en base al comportamiento de los futbolistas (uno a uno) en cancha simulando todos los partidos del mundial varias veces. Además, en el caso del fútbol para optimizar las alineaciones se utilizó la metaheurística Colonia de Hormigas. Para la visualización de los trabajos se utilizó html y javascript, los datos se codificaron en JSON, y se utilizaron bibliotecas y herramientas como Bootstrap, Jquery, JqueryTablesorter y jquery.bracket.
Context about the project:
Postdata.club se desarrolla en Cuba en un entorno que no es favorable a la existencia de medios independientes, aún así el espacio ha logrado una coexistencia sin problemas y, además, lograr colaboraciones con medios estatatales y grupos universitarios. Este trabajo es resultado de la colaboración con un grupo de investigación de la Universidad de La Habana, varios de los autores del proyecto pertenecen a este grupo y, además, fueron estudiantes del curso de Periodismo de Datos que imparten parte de los miembros del colectivo de Postdata.club en la Universidad de La Habana como parte de su labor formadora. Este es el único curso de periodismo de datos que se imparte en la Universidad y tradicionalmente se imparte a estudiantes de periodismo y en esta ocasión también se impartió a estudiantes de Ciencia de la Computación de donde salieron los colaboradores de este proyecto.
Otro elemento a destacar es la situación de conectividad (acceso a internet) existente, que si bien es muchísimo mejor que la de otros años, no es la mejor para la realización de este tipo de proyectos y demanda un esfuerzo importante que involucra incluso la utilización de servicios de VPN para poder acceder a servicios que están bloqueados por su acceso.
Relativo a los datos, aquí también que hubo que pensar soluciones interesantes pues los datos, si bien estaban disponibles en la Web su descarga no era simple. Hubo que realizar varios scripts computacionales para la descarga de los datos que, además, en algunos caso comprendían varios años.
Asimismo, es relevante el uso de las técnicas de inteligencia artificial y de ciencia de datos para poder crear modelos predictivos que fueron la base de los trabajos. Postdata.club es el medio que ha introducido el uso de esas técnicas en el periodismo cubano y siempre lo ha hecho con alianzas con la universidad que es también el otro espacio profesional donde se desenvuelven algunos de los miembros del equipo.
What can other journalists learn from this project?
En este caso creemos que es interesante:
-La aplicación de técnicas de Inteligencia Artificial y la Ciencia de Datos para poder generar modelos que permitan realizar publicaciones y trabajos periodísticos.
-La alianza con grupos de invetigación que permitan colaboraciones para la realización de trabajos conjuntos
-La enseñanza universitaria de los saberes que desarrollan los medios permite la vinculación de los propios estudiantes en trabajos del medio
-La enseñanza de técnicas de periodismo de datos a estudiantes de otras áreas del conocimiento, como la Ciencia de la Computación, permite la mejor integración a las redacciones o la realización de colaboración a profesionales de otras áreas del conocimiento que nutran con su saber hacer el trabjo de estos espacios.
Project links:
https://www.postdata.club/issues/202207/index.html#
https://www.postdata.club/suplementos/mundial-qatar/pronosticando-qatar.html
https://www.postdata.club/issues/202207/oregon-y-los-pronosticos.html