Asteriscos, incoherencias y opacidad: 15 problemas del Ministerio con la gestión de datos del coronavirus

Este lunes el Ministerio de Sanidad cambió los datos que ofrece sobre el coronavirus y ha provocado un desbarajuste en mal momento. Pero no es la primera vez. Al comienzo los problemas eran comprensibles porque la epidemia fue un golpe por sorpresa. Pero han pasado tres meses y la gestión de información sigue siendo deficiente. Este último lío llega, además, en un momento sensible: la desescalada exige números precisos y transparentes para seguir los posibles rebrotes. ¿Pero cómo hacer eso con datos borrosos? A continuación recopilamos los principales problemas de la gestión de los datos por parte del Ministerio.

1. Las cifras del día son una foto incompleta. El centro de su comunicación es una foto fija diaria en formato PDF, un documento de texto con los datos de infectados, hospitalizados o fallecidos. Pero seguir el ritmo del virus exige series temporales, para ver su evolución, que no pueden reconstruirse a partir de las cifras estáticas del día (el PDF) que se comentan en las ruedas de prensa. Al menos por dos motivos: porque las cifras de días anteriores cambian continuamente (el dato de hoy miércoles se cambiará quizás mañana y nunca lo sabremos mirando solo los PDF), y porque la información recogida en esos PDF ha ido cambiando.
 
2. El Ministerio no mantiene la serie en una semana clave. El único lugar donde se ofrecen evoluciones de datos válidas para el análisis, descargables y en un formato reusable (un archivo csv), es el Panel de Situación que mantiene el Centro Nacional de Epidemiología y que enlaza el Ministerio. Pero esta web es limitada. Solo ofrece la evolución de algunos indicadores —como el total de infectados, fallecidos y hospitalizados— y no siempre se actualiza. La semana pasada lo hizo intermitentemente y desde el día 20 de mayo no lo ha hecho en absoluto. Desde entonces se han dejado de publicar, por ejemplo, los datos en bruto de cada indicador y las cifras del ritmo de contagios, que son fundamentales para detectar posibles rebrotes.

3. Malabarismos con las fechas. Una fuente de confusiones ha sido el concepto de “nuevos casos. Al principio el ministerio reflejaba en su informe diario el número de casos notificados por cada comunidad en un día determinado, es decir, cuántos casos le habían comunicado ese día con independencia de la fecha de síntomas o diagnóstico. Pero luego se hicieron excepciones. Cuando algunas comunidades empezaron a notificar casos antiguos dejaron de incluirse como nuevos. Un ejemplo son los datos de la Comunidad de Madrid entre el 10 y el 16 de mayo. La suma de los nuevos casos del PDF diario es 335. Sin embargo, consultando la última serie actualizada, del archivo csv, en esa semana constan 970 más que en la anterior. Algo parecido ocurrió con los datos de Cataluña: el 10 de mayo, ya en plena desescalada, el PDF informaba de 83 “nuevos casos”, con una nota que indicaba otros 2.700 positivos sin fecha, pero notificados ese día. La solución en general sería reportar ambos datos —nuevos casos por fecha de notificación y de diagnóstico—, pero sin mezclarlos en una serie híbrida de difícil interpretación.

4. Otros 600 fallecidos confirmados, ¿pero cuándo? El mismo problema se ha producido con cifras de muertes. El a 22 de mayo Cataluña notificó 600 muertos nuevos, pero en el PDF se decía con un asterisco que no eran realmente nuevos, porque habían fallecido un tiempo atrás sin determinar. La realidad es que sí eran muertes recién notificadas.

5. Los curados en cambio sí se consideran nuevos. El criterio de “nuevo” no ha sido consistente: al hablar de curados, el Ministerio ha dado por buena la fecha de notificación. Por ejemplo, el día 29 de abril, Galicia incluyó unos 3.500 recuperados nuevos de golpe, que tampoco eran todos del día anterior, como es obvio, pero que el PDF en ese caso sí incluía en la columna de nuevos.

6. Cambios incesantes en la comunicación en las notas diarias. Cambian los textos, las explicaciones, las definiciones. Hay tablas que se incorporaron que luego desaparecieron. El 18 de abril se añadió una tabla con el total de positivos —para incluir los detectados con pruebas de anticuerpos—, que siete días después ya no estaba. Las estadísticas de curados se reportaron durante semanas, para luego desaparecer el 5 de mayo. La serie, que nunca pareció fiable, ya no existe tampoco en el csv. Estos cambios añaden opacidad a la comunicación de los datos, dificultan su interpretación y hacen más complejos los análisis.

7. Sin aclarar qué es un caso confirmado. Al comienzo eran los positivos por PCR. Luego se empezaron a hacer test de anticuerpos y los positivos pasaron a ser la suma de los dos. Después se mantuvieron ambos datos, pero se separaron: eran las dos positivos pero solo las PCR —que permiten vincularse a una fecha de síntomas— se llamaban casos confirmados. Durante un par de días, la nota del Ministerio incluyó los positivos por anticuerpos incluyendo a los asintomáticos, que luego desaparecieron. Desde hace unos días los anticuerpos ya no se hacen apenas y no vienen en el informe, aunque siguen apareciendo en algunas gráficos. Lo complejo que es seguir la lógica del párrafo que acaba de leer da buena cuenta del baile de estos datos.

8. Los asteriscos. Otra práctica habitual ha sido modificar el sentido de los datos de algunas algunas columnas y notificarlo con notas al pie: el PDF del domingo tenía 6 asteriscos, el csv tiene 9 y el nuevo informe tiene 4. Los periodistas de ‘Datadista’ han contabilizado 40 notas con matices y aclaraciones a los datos del Ministerio. Eso puede hacerse en un PDF, que es una foto fija, pero esas excepciones son muy difíciles de integrar en una serie: ¿El dato de un día se debe interpretar diferente al anterior?

9. Incoherencia en los datos. Durante semanas los datos sobre hospitalizados y UCI representaron cosas diferentes en una misma columna. El informe diario del Ministerio reportaba el número de personas ingresadas en ese momento para Madrid, Cataluña, Castilla La Mancha y Galicia, mientras que para el resto daba el número total de personas ingresadas hasta esa fecha. La confusión duró un mes, hasta que el 2 de abril aparec un nuevo asterisco que señalaba el desajuste. Pero la inconsistencia se mantuvo hasta finales de ese mes. La fuente del problema está en la orden ministerial del 15 de marzo, que pedía a las comunidades esos datos (de hospitalizados y UCI) sin especificar si tenían que ser el acumulado o la foto fija del día.

10. No se garantiza la continuidad. El cambio del sistema de información de esta semana ha roto las series —porque ya no tenemos los indicadores de la semana pasada, que dejaron de publicarse, pero los nuevos no han tenido todavía tiempo de avanzar—. Pero eso algo que podría evitarse, simplemente manteniendo en paralelo ambos sistemas durante un tiempo de transición.

11. Gráficos y datos que no se corresponden. Este problema ocurre en el Panel de Situación y lo hemos detectado en Extremadura. Los datos del csv descargables desde allí dicen que el 18 de mayo se sumaron 90 casos nuevos… y sin embargo, en los gráficos del panel solo parecen 2 casos. ¿Y los 88 restantes? Las cifras del gráfico y el csv encajan los días anteriores y siguientes, solo ese día parece haberse sustraído el pico. Quizás eran positivos que se notificaron con retraso, pero es una práctica cuestionable representar unos datos en los gráficos y publicar valores diferentes en su repositorio.

12. Falta de coordinación. El Ministerio exige información a las comunidades desde la orden ministerial del 15 de marzo. Algunos datos de los que se pidieron no sabemos si se han remitido desde entonces, porque nunca se han publicado: camas de agudos ocupadas por pacientes de Covid-19, plazas de UCI, disponibilidad de material, etc. Entre los datos que sí se han publicado, , como el de muertes, hay varios ejemplos de descoordinación entre el ministerio y las autonomías. Uno de los más llamativos fue el conteo de muertes en Galicia. El 29 de abril, el Ministerio reportó 7 nuevas muertes, a las que acompañaba de una nota con otras 128 defunciones de fechas anteriores (el 23% de las muertes totales durante la crisis). Sin embargo, este salto no se observó en las notas de prensa diarias que publicaba la Xunta de Galicia, cuya cifra de fallecidos había ido creciendo paulatinamente desde tres semanas antes.

13. Sin los datos (prometidos) de provincias. Al anunciar el plan para la desescalada el 28 de abril, Pedro Sánchez aseguró que se había elaborado de acuerdo a criterios transparentes y que se apoyaría en ua serie de indicadores que constituirían un panel integral que iba a ser público. No solo se han usado indicadores elaborados con datos que solo maneja Sanidad, sino que el Ministerio nunca ofrece información para provincias y áreas sanitarias, unidades clave en la desescalda. La información existente a este nivel la publica cada comunidad autónoma sin un criterio unificado. El único sitio donde puede consultarse estos datos de forma sistematizada y agregada es la página del proyecto colaborativo esCovid19Data, formado por 15 voluntarios que recogen a diario esta información.

14. Sin datos de test durante un mes. España pasó lo peor de la crisis sin informar del número de test que se hacían. Las primeras cifras que se conoce fueron los entre 15.000 y 20.000 test diarios” que Sánchez antes y Salvador Illa después difundieron, sin soporte documental, desde el 20 de marzo. Las primera cifra detallada llegó el 13 de abril (930.000 pruebas), que desde entonces han sido semanales. Para el día 27 de ese mes el Ministerio presumía de ser el octavo país de la OCDE que más test hacía. Sin embargo, el dato de España que agregó la OCDE no era comparable con los datos del resto de países, porque al millón de pruebas PCR sumaba 300.000 test de anticuerpos, y la organización acabó por rectificar su listado.

15. Faltan datos para la desescalada. No tenemos cifras a nivel nacional sobre cuestiones importantes ahora. De los contagios que siguen produciéndose, por ejemplo, ignoramos cuántos son en hogares, hospitales y centros residenciales. Pero quizás la mayor incógnita sean los esfuerzos de rastreo de contactos: no sabemos con qué intensidad se está haciendo, con qué personal y con qué resultados. La orden ministerial del día 11 de mayo pedía que las comunidades informasen de eso al Ministerio, pero si los datos le están llegando desde luego no son públicos.


PAPEL

Asteriscos, incoherencias y opacidad: los problemas en la gestión del Ministerio con los datos del coronavirus
Borja Andrino, Daniele Grasso, Kiko Llaneras

Este lunes el Ministerio de Sanidad cambió los datos que ofrece sobre el coronavirus y ha provocado un desbarajuste en mal momento. Pero no es la primera vez. Al comienzo los problemas eran comprensibles porque la epidemia fue un golpe por sorpresa. Pero han pasado tres meses y la gestión de información sigue siendo deficiente. Este último lío llega, además, en un momento sensible: la desescalada exige números precisos y transparentes para seguir los posibles rebrotes. ¿Pero cómo hacer eso con datos borrosos? A continuación recopilamos los principales problemas de la gestión de los datos por parte del Ministerio.

1. Las cifras del día son una foto incompleta. El centro de su comunicación es una foto fija diaria en formato PDF, un documento de texto con los datos de infectados, hospitalizados o fallecidos. Pero seguir el ritmo del virus exige series temporales, para ver su evolución, que no pueden reconstruirse a partir de las cifras estáticas del día (el PDF) que se comentan en las ruedas de prensa. Al menos por dos motivos: porque las cifras de días anteriores cambian continuamente (el dato de hoy miércoles se cambiará quizás mañana y nunca lo sabremos mirando solo los PDF), y porque la información recogida en esos PDF ha ido cambiando.
 
2. El Ministerio no mantiene la serie en una semana clave. El único lugar donde se ofrecen evoluciones de datos válidas para el análisis, descargables y en un formato reusable (un archivo csv), es el Panel de Situación que mantiene el Centro Nacional de Epidemiología y que enlaza el Ministerio. Pero esta web es limitada. Solo ofrece la evolución de algunos indicadores —como el total de infectados, fallecidos y hospitalizados— y no siempre se actualiza. La semana pasada lo hizo intermitentemente y desde el día 20 de mayo no lo ha hecho en absoluto. Desde entonces se han dejado de publicar, por ejemplo, los datos en bruto de cada indicador y las cifras del ritmo de contagios, que son fundamentales para detectar posibles rebrotes.

3. Malabarismos con las fechas. Una fuente de confusiones ha sido el concepto de “nuevos casos. Al principio el ministerio reflejaba en su informe diario el número de casos notificados por cada comunidad en un día determinado, es decir, cuántos casos le habían comunicado ese día con independencia de la fecha de síntomas o diagnóstico. Pero luego se hicieron excepciones. Cuando algunas comunidades empezaron a notificar casos antiguos dejaron de incluirse como nuevos. Un ejemplo son los datos de la Comunidad de Madrid entre el 10 y el 16 de mayo. La suma de los nuevos casos del PDF diario es 335. Sin embargo, consultando la última serie actualizada, del archivo csv, en esa semana constan 970 más que en la anterior. Algo parecido ocurrió con los datos de Cataluña: el 10 de mayo, ya en plena desescalada, el PDF informaba de 83 “nuevos casos”, con una nota que indicaba otros 2.700 positivos sin fecha, pero notificados ese día. La solución en general sería reportar ambos datos —nuevos casos por fecha de notificación y de diagnóstico—, pero sin mezclarlos en una serie híbrida de difícil interpretación.

4. Otros 600 fallecidos confirmados, ¿pero cuándo? El mismo problema se ha producido con cifras de muertes. El a 22 de mayo Cataluña notificó 600 muertos nuevos, pero en el PDF se decía con un asterisco que no eran realmente nuevos, porque habían fallecido un tiempo atrás sin determinar. La realidad es que sí eran muertes notificadas.