Manipulación por parte de empresas de Big Data en redes sociales: el caso de Dathos DB

Nota: este artículo proviene de Twitter. Se agradece difusión. twitter.com/Martinez__Rafa/status/1262405189388156930?s=20

Recientemente he encontrado otro ejemplo de manipulación deliberada. Como, pasados unos días, los autores se niegan a rectificar, procedo a escribir este artículo. La manipulación, en este caso, proviene de @DathosBD. Dathos es una asociación del sector de Big Data, Algorithms & Risk Analysis, como ellos mismos se definen (dathorizon.com). Por lo que se intuye de su perfil de Twitter y de su página web son expertos en Estadística y análisis de datos. 

Bien, @DathosBD lleva un tiempo haciendo simulaciones y modelos para estimar el número de fallecidos por #COVID19. Recientemente, han comenzado a utilizar los datos del informe MoMo de mortalidad para "verificar" los datos de sus simulaciones.

Aquí hacen un análisis similar, con el mismo modus operandi pero con datos actualizados a otra fecha.

Bien, vayamos al grano. Verifiquemos el primero de sus análisis(7 de Mayo). Las conclusiones que saquemos para este son válidas para el resto de análisis que @DathosBD ha publicado usando datos MoMo, pues en todos hace las mismas suposiciones (por ejemplo, el del 12 de Mayo).

Bien. La hipótesis del hilo es que, a 5 de Mayo, en España habrían muerto 45.000 personas por #COVID19. Según @DathosBD, esta cifra se deduce del informe de mortalidad MoMo analizando los datos nacionales y autonómicos, y refuerza sus simulaciones. 

Dathos parte de los datos del informe MoMo desde el 17 de Marzo al 2 de Mayo, donde se presenta una cifra observada de 82409 fallecidos. La cifra de defunciones estimadas es de 51703, por lo que en ese período hay un exceso de fallecimientos respecto al esperado de 30706 (59%)

Continuemos. @DathosBD añade más datos a la ecuación, aunque esta vez sin indicar claramente la fuente. Indican que, haciendo el mismo recuento por CCAA, los datos totales son 37345 fallecidos estimados, y 68253 fallecidos observados.

Pues bien, estos son todos los datos que @DathosBD utiliza para su análisis. La pregunta es, ¿cómo con 4 datos tan simples y que, además, son inconsistentes (la suma de las CCAA debería ser igual al total nacional) se puede hacer una estimación de las muertes por #COVID19

Bien, el método que @DathosBD utiliza, que es erróneo, es restar al valor observado más alto (el nacional, 82409) el valor estimado más bajo (la suma de los regionales, 37345). Esta diferencia es 45064 fallecidos. ¿Alguna explicación de por qué se eligen esos valores? No.

Creo que no hay que dar demasiadas explicaciones de por qué escoger valores de manera arbitraria y sin justificar es una práctica incorrecta. Un ejemplo muy sencillo, el mismo cálculo podría hacerse escogiendo el valor observado más bajo (68253) y el estimado más alto (51703). 

Esto entregaría una cifra de fallecidos 16550, lo cual es absurdo, ya que esta cifra sería incluso inferior al número de fallecidos notificados por @sanidadgob en aquellas fechas. Aún así, asumamos que la hipótesis de @DathosBD es correcta, y es riguroso utilizar justo esos datos 

¿Es correcta entonces la estimación y las conclusiones de @DathosBD ? Rotundamente no. Lo explico. ¿Recordáis que la suma de los datos de cada CCAA no coincidía con el total entregado por MoMo a nivel nacional? Resulta extraño teniendo en cuenta que ambos datos son de MoMo, ¿no? 

Bien, la explicación es sencilla. Los periodos de ambos datos (los de cada CCAA y los nacionales) son diferentes. Mientras que el dato de España cubre todo el período analizado, los de cada región son diversos. En la tabla adjunta (via @elespanolcom) se observa esta discrepancia.

Es decir, combinan datos a escala nacional y a escala autonómica, cuando cubren periodos totalmente diferentes, lo cual es evidentemente incorrecto desde un punto de vista estadístico. @DathosBD hace trampas al solitario e intenta manipular datos para reforzar sus estimaciones. 

Con esto cierro. Me resulta increíble como supuestos expertos, con presencia en medios y audiencias amplias son capaces de manipular tan abiertamente. Y digo manipular, porque cualquier persona con conocimientos mínimos de análisis de datos es capaz de ver estos errores a leguas.