EL PAÍS es el medio líder en información en español. Con cerca de 84 millones de navegadores únicos al mes en todas sus ediciones, según datos del diario, EL PAÍS ha sabido adaptarse a la evolución de los medios respetando sus señas de identidad teniendo presencia en todos los formatos posibles, desde la web a las redes sociales pasando por las aplicaciones o el vídeo. Con la colaboración de Google, la compañía creó unos dashboards que integraban Cloud y Machine Learning y en los que se obtenía información detallada de cada contenido en base a la cual se pueden tomar decisiones relacionadas con los procesos de producción y distribución.
El objetivo
El objetivo principal de la compañía era estructurar los datos de Grupo Prisa de tal manera que pudiese obtener datos relevantes como: nº mensual de artículos, toxicidad de los comentarios o nº de palabras por artículo. Hasta entonces, estas métricas estaban fuera del alcance de los encargados de la toma de decisiones en EL PAÍS.
Para llevar a cabo este proyecto, EL PAÍS utilizó Big Data para responder a tres desafíos principales.
- Crear una API de contenidos para almacenar de manera dinámica todos los recursos que se necesitan para montar un artículo: párrafos, estilos, fotos, titulares, etc.
- Enriquecer y mejorar los datasets combinando múltiples fuentes de datos como Google Vision API. Esta herramienta detecta objetos y caras, lee texto impreso y manuscrito, y consigue metadatos de gran valor para el catálogo de imágenes. Es muy importante para un publisher de la magnitud de EL PAÍS documentar todo adecuadamente ya que la gobernanza de los datos es una de las prácticas más importantes en el manejo de grandes cantidades de información.
- Sincronizar con BigQuery y generar los primeros dashboards usando Data Studio.
El enfoque
La primera necesidad de Prisa fue desarrollar su propia API de contenido. En el PAÍS, los artículos periodísticos son el ingrediente principal de sus datos editoriales. EL PAÍS, como muchos medios heredados, fue construido con una plataforma patentada sin una arquitectura sólida de información y una base de software obsoleta.
La nueva API de EL PAÍS es una estructura de datos principal, con una arquitectura de nube que permite la ingesta de artículos y secciones.
- El primer paso fue convertir y empujar datos de la arquitectura heredada al nuevo sistema basado en Google Cloud Platform. Google Cloud Platform se planteó como una excelente solución para la gestión de datos de la empresa ya que ofrecía una infraestructura segura en la que se podía renderizar enormes cargas de trabajo en horas punta o transmitir vídeo en directo a audiencias masivas bajo demanda
- A continuación y como segundo paso, se construyó una API para conectar datos transformados al nuevo sistema.
- El tercer paso consistió en el desarrollo de la infraestructura dentro de Google Cloud para responder a todas las necesidades posibles. Por ejemplo, la relación entre la longitud de los artículos y el tiempo invertido en el sitio dependiendo del tipo de lector. Poco a poco se fue migrando hacia un desarrollo paralelo para responder a preguntas más profundas.
Para ello, se puso en marcha un proceso orientado a enriquecer 3 modelos de aprendizaje automático pre-entrenados impulsados por Google:
- Natural Language API para analizar la sintaxis y la composición de los artículos, extraer las etiquetas documentales, y evaluar el sentimiento de todos los artículos escritos por los periodistas del medio.
- Vision API para entender el contenido de una imagen, que aparece en ella y sus propiedades fotográficas.
- Perspective API para tener una mejor comprensión de la sección de comentarios y comentarios pre moderados cuando se perciben como tóxicos.
Esto fue posible gracias a que EL PAÍS se asoció con Google con el fin de desarrollar este modelo de aprendizaje automático en español.
Una de las características claves de esta transformación fue BigQuery, un almacén de datos empresarial rápido donde la compañía podía orquestar los datos usando una interfaz de usuario web o una línea de comandos dentro de Google Cloud.
Resultados
Gracias a BigQuery la compañía ha logrado democratizar sus datos y generar dashboards operacionales , editoriales y analiticos accesibles a todos los empleados
La creación de un dashboard ha permitido ser un 80% más eficiente en el tiempo de entrega de los proyectos, pasando de desarrollos que duraban entre 4 y 6 semanas a 3 y 5 días.
Ya se han creado más de 20 dashboards orientados a todo tipo de perfiles en la organización.
Esto ha permitido rebajar el tiempo de entrega de los informes relacionados con contenido en un 27%. Además la información está más democratizada que nunca con más de 50 destinatarios de los diferentes informes. Gracias a ser más eficaces en la optimización del tiempo, el equipo de data se ha reorganizado pudiendo centrarse ahora en tareas mucho más estratégicas y de valor para la empresa.