Óscar Picardo
El análisis de datos: Datalectis
El análisis de datos es la ciencia que se encarga de examinar un conjunto de números con el propósito de sacar conclusiones sobre la información para poder tomar decisiones, o simplemente ampliar los conocimientos sobre diversos temas. Este análisis es una herramienta cognitiva y epistemológica que nos permite descubrir la identidad estadística del comportamiento de cifras; ya sabemos que el dato es una unidad numérica que al organizarlo se transforma en información y al interpretarlo se convierte en conocimiento. Así, los datos, la información y el conocimiento adquieren una identidad y se logra llegar a una ingeniería de datos: “Datalectics”.
Cuando hablamos de datos, matemáticas, modelos o estadísticas nos encontramos con muchos términos que explican los comportamientos numéricos: márgenes de error, probabilidades posibles e imposibles, desviación, media, varianza, etcétera. Existen enfoques cuantitativos o cualitativos para observar los datos; fue el estadístico John Tukey quien definió el análisis de datos en 1961 de esta manera: «Son los procedimientos para analizar datos, utilizando técnicas para interpretar los resultados de dichos procedimientos y formas de planear la recolección para hacer el análisis”. Los métodos de análisis factoriales y lineales que se utilizan son: análisis de componentes principales, correspondencia binaria, correspondencia múltiple y análisis discriminante.
Apliquemos la teoría con un caso concreto, los datos de COVID-19 en El Salvador. Nuestra metodología consiste en analizar –en 100 días- tres puntos de vista: a) el estudio de las medias aritméticas y su proporcionalidad; b) las correlaciones entre pruebas y contagios; y c) el resultado entre contagiados y recuperados cono cociente. Las gráficas y bases de datos que día a día se van alimentando presentan fotos estadísticas para el análisis y se descubren comportamientos:
Al analizar los datos de la pandemia de COVID-19 en El Salvador, por ejemplo, reflejan tres comportamientos atípicos en función de series temporales, a cada hallazgo le hemos puesto un nombre para identificarlos; para esta lectura recomendamos en cada tabla observar los casos de contagios:
1) El modelo de pares: entre el 1 y el 23 de mayo, observamos registros de pares crecientes y decreciente; puede notarse en el siguiente cuadro:
Fecha | Pruebas | Contagiados |
1 de mayo | 1447 | 22 |
2 de mayo | 1592 | 44 |
3 de mayo | 1726 | 65 |
4 de mayo | 1611 | 32 |
5 de mayo | 1598 | 46 |
6 de mayo | 1783 | 62 |
7 de mayo | 1895 | 45 |
8 de mayo | 1773 | 42 |
9 de mayo | 2011 | 105 |
10 de mayo | 1953 | 69 |
11 de mayo | 1883 | 40 |
12 de mayo | 1866 | 39 |
13 de mayo | 2082 | 75 |
14 de mayo | 2229 | 98 |
15 de mayo | 2270 | 55 |
16 de mayo | 2282 | 73 |
17 de mayo | 2114 | 75 |
18 de Mayo | 2458 | 85 |
19 de Mayo | 2497 | 73 |
20 de Mayo | 2388 | 69 |
21 de Mayo | 2437 | 85 |
22 de Mayo | 2562 | 94 |
23 de Mayo | 2391 | 96 |
2) El Segundo modelo es de rangos: No encontramos un comportamiento de rangos estables antes de los 100 casos, pero sí, hay dos escalas regulares en los rangos de 100 y 200 casos, tal como se puede ver en los bloques del 11 al 25 de junio, y del 26 de junio al 11 de julio; aquí observamos una tendencia progresiva regular, la curva de datos crece y decrece, pero siempre asciende:
Fecha | Pruebas | Casos | Fecha | Pruebas | Casos |
11-jun | 2456 | 108 | 26-jun | 2572 | 210 |
12-jun | 2458 | 122 | 27-jun | 2498 | 207 |
13-jun | 2419 | 117 | 28-jun | 2417 | 239 |
14-jun | 2399 | 106 | 29-jun | 2495 | 265 |
15-jun | 2445 | 115 | 30-jun | 2450 | 298 |
16-jun | 2473 | 125 | 1-jul | 2423 | 264 |
17-jun | 2474 | 134 | 2-jul | 2433 | 267 |
18-jun | 2419 | 129 | 3-jul | 2438 | 240 |
19-jun | 2426 | 146 | 4-jul | 2475 | 270 |
20-jun | 2433 | 151 | 5-jul | 2436 | 250 |
21-jun | 2457 | 182 | 6-jul | 2496 | 280 |
22-jun | 2455 | 165 | 7-jul | 2499 | 259 |
23-jun | 2430 | 177 | 8-jul | 2470 | 278 |
24-jun | 2481 | 186 | 9-jul | 2485 | 298 |
25-jun | 2477 | 181 | 10-jul | 2430 | 249 |
|
|
| 11-jul | 2460 | 283 |
3.- El tercer modelo es de rango progresivo: Aquí se puede observar un crecimiento progresivo sistemático, los datos crecen cada día y no se nota regresión parcial, es una curva radicalmente ascendente.
Fecha | Pruebas | Contagios |
16-jul | 2483 | 250 |
17-jul | 2415 | 301 |
18-jul | 2422 | 338 |
19-jul | 2450 | 361 |
20-jul | 2547 | 375 |
21-jul | 2473 | 393 |
22-jul | 2475 | 402 |
23-jul | 2429 | 415 |
Los fenómenos estadísticos humanos, a gran escala, tienen comportamientos estables, ya que no hay una planificación de sucesos, sino que los fenómenos simplemente ocurren; las tasas típicas de natalidad, morbilidad, homicidios, deserción escolar, entre muchas otras presentan comportamientos con una cadencia y ritmo recurrente. Cuando en series de datos encontramos “sobresaltos” o cambios drásticos se quiebran las “tendencias”.
La tendencia estadística de un sujeto, de una muestra en particular, o del universo en general, es el comportamiento o forma de ser de ese sujeto u opción, muestra o universo. En términos de probabilidad, la tendencia individual de un sujeto u opción queda manifestada, de forma inmediata, en la probabilidad empírica y a nivel muestral en la serie de estadísticos muestrales, y la tendencia del universo dependiendo si la inferencia estadística, de acuerdo a la razón crítica, determina si una tendencia es suficientemente racional para aplicarse de forma provisional al universo del que forma parte la muestra, transformándose la hipótesis empírica en hipótesis racional, una hipótesis simultáneamente universal y provisional, en cuanto el margen de error aceptado por la política científica en la razón crítica no se muestre inevitable.
Del ejemplo anterior y desde el enfoque de dataletics, observamos, en una serie de tiempo corta de tres meses sobre un mismo fenómeno –COVID-19 en El Salvador- tres identidades, de lo que podemos concluir que: Hay irregularidad en la administración de los datos, por traslado de registros o una simple manipulación de los mismos para extender el tiempo por alguna razón desconocida…