Número ISSN |
 2706-5421

Picture of Javier Cladellas

Javier Cladellas

Investigador del ICTI, Centro de Modelaje Matemático Carlos Castillo Chávez de la UFG:

Un análisis matemático de los valores atípicos en los datos oficiales

Existe un desfase entre las fechas en que las personas dan positivo a la prueba de COVID-19, y la fecha en la que adquirieron el virus. Por eso pretendemos aproximar, usando los datos oficiales, las fechas reales en las cuales las personas fueron infectadas. El objetivo es el de evaluar el peso que han tenido ciertos eventos en la curva de infectados, y a relacionar valores atípicos reportados con incidentes precisos que han sucedido en el país. 

En los últimos días hemos observado cambios drásticos y valores atípicos en la curva de individuos recuperados. Por ejemplo, este valor pasó de 129 casos recuperados el 27 de mayo, a 13 recuperados el día siguiente. Por esta razón, se estimará el número de recuperados según la cantidad de casos confirmados, y se comparará con el valor oficial de ese día. Este análisis permitirá tanto comprender la forma en la que los datos son reportados, como explicar la existencia de los valores atípicos en los datos.  

Es evidente que el verdadero número de infectados es superior a la cantidad de pruebas con resultado positivo. Por lo que, en la última parte de este texto, se estimará la magnitud del verdadero número de casos de COVID-19 en El Salvador. Esta tarea resulta difícil, y su resultado poco preciso, ya que se desconoce con exactitud la manera en la que se realizan las pruebas de COVID-19. 

Este estudio utiliza una metodología que consiste en servirse de los datos actuales, para estimar y aproximar ciertos valores del pasado, para los cuales se desconoce la cantidad exacta.  

Hay que remarcar que el análisis es válido, únicamente, bajo el supuesto que los datos oficiales corresponden a la realidad. 

Análisis de casos positivos según la fecha de infección 

Los datos publicados por cada país indicando el número de nuevos infectados por COVID-19 en realidad muestran la cantidad de pruebas con resultado positivo de ese día. Si se asume que todos los casos reportados son la totalidad infectados, la gráfica de individuos que se infectan por día tendría un desfase con respecto a la gráfica de individuos que dan positivo a la prueba, ya que el virus tiene un cierto periodo de incubación y los individuos tardan un tiempo en ser aislados. 

Con datos obtenidos de https://github.com/midas-network/COVID-19/tree/master/parameter_estimates/2019_novel_coronavirus, se obtiene un aproximado de los siguientes valores:  

Tiempo de incubación: Cinco días. 

Tiempo desde que presenta síntomas a ser aislado: Tres días. 

En la figura uno se observa, bajo estas hipótesis, el número de casos positivos por día (azul) y la fecha aproximada en la que las personas se infectaron (naranja). La línea roja representa la media móvil con período de cinco días de los nuevos infectados diarios. Este gráfico puede ayudar a identificar ciertas fechas que tuvieron un fuerte peso en la propagación del virus. 

Los segmentos negros representan, de izquierda a derecha, las fechas 30 de marzo, 25 de abril, 1 de mayo, y 21 de mayo. A continuación, se presenta una lista con los eventos ocurridos en dichas fechas: 

30 de marzo: Aglomeración en las instalaciones del CENADE, para la entrega de $300. 
25 de abril: Publicación de fotografía de reclusos sin ningún distanciamiento social, en la prisión de Izalco en Sonsonate. 
1 de mayo: Marcha del día del trabajo. 
21 de mayo: Supuesto fin de cuarentena especial en el país. 

Figura 1: Pruebas  positivas e  infectados  diarios  de COVID-19. 

Se puede observar que el valor de los nuevos casos según la fecha de infección tiene correspondencia a los eventos citados es atípica. Esta cantidad es relativamente elevada con respecto a los datos de los días cercanos a la fecha. 

Análisis de valores atípicos de recuperados 

Una manera de predecir un aproximado del número de recuperados que habrá en el futuro, es servirse de los nuevos casos reportados en el pasado. Se determina un período infeccioso de la enfermedad (el tiempo promedio que tarda una persona en recuperarse desde que comienza a presentar síntomas), y desfasar la cantidad de infectados de esa cantidad de tiempo. El período infeccioso es un promedio (poco preciso cuando se trata de un bajo número de valores) en el que se toma en cuenta una media móvil con un período de cinco días tanto para el número estimado como el reportado, de recuperados.  

Se tomó un valor de 14 días para el periodo infeccioso de la enfermedad. 

En la figura dos se observa la predicción de recuperados según los nuevos infectados diarios (naranja), con su respectiva media móvil (línea roja). Estos elementos se pueden comparar con el valor reportado de recuperados por día (azul) y su media móvil (línea azul). 

La diferencia entre ambas medias móviles permite obtener un valor de “heterogeneidad” de los datos. Si la diferencia es muy grande para cierta fecha, se puede interpretar como un valor atípico de recuperados. 

Figura 2 :  Predicción de recuperados por medio del número de casos diarios positivos. 

Por medio de esta gráfica, se puede conjeturar que los valores atípicos no corresponden a fenómenos relacionados con el virus, sino a cómo se maneja la recuperación de los pacientes o los datos.  

Estimación del número real de casos  

Se puede obtener un resultado de la magnitud de verdaderos infectados por COVID-19 por medio de la tasa de mortalidad de la enfermedad, y del tiempo promedio que toma un individuo en fallecer desde que comienza a presentar síntomas. 

Se estimó con ayuda del mismo sitio https://github.com/midas-network/COVID-19/tree/master/parameter_estimates/2019_novel_coronavirus el tiempo promedio que tarda en morir un individuo desde que presenta síntomas. Este valor se consideró de 15 días.  

Se debe tomar en cuenta que estos valores no son oficiales, y que pueden ser modificados. Lo que se pretende mostrar es la metodología utilizada.  

Se considera que la tasa de mortalidad de la enfermedad se encuentra en el intervalo [0.006, 0.05]. Para propósitos demostrativos, se supondrá que la tasa de mortalidad en el país es del 1 %.  

Si la tasa de mortalidad es de 1 %, esto significa que aproximadamente uno de cada 100 individuos enfermos muere. Por lo que, si un individuo muere el día de hoy, significaría que aproximadamente 100 personas se infectaron 20 días antes (5 días de incubación + 15 días que tarda una persona en morir desde que presenta síntomas). 

Figura  3 :  Estimación  de  casos  no  detectados  de COVID-19. 

Las curvas de la figura tres muestran estimaciones de la magnitud de individuos enfermos no detectados. 

La curva en rojo presenta la cantidad (acumulada) de pruebas de COVID-19 con resultado positivo, es decir, los datos que presenta el gobierno de El Salvador en la página web http://covid19.gob.sv/. 

Las otras tres curvas representan respectivamente el máximo de casos reales que puede haber (con tasa de mortalidad baja de 0.006), un estimado con tasa de mortalidad moderada de 0.01 y el mínimo (tasa de mortalidad alta de 0.05). 

Las estimaciones se detienen veinte días antes del día de hoy. Para proyectar el resto de la curva, se deberá utilizar otro método.  

La gráfica indica que hace veinte días, hubo como máximo 7667 infectados, y como mínimo 920. El estimado más realista (de 1 %) es de 4600 individuos infectados, mientras que solo se reportaron 881 personas infectadas hasta la fecha. 

Comparte disruptiva