graficos

El análisis de datos: Datalectis

El análisis de datos es la ciencia que se encarga de examinar un conjunto de números con el propósito de sacar conclusiones sobre la información para poder tomar decisiones, o simplemente ampliar los conocimientos sobre diversos temas. Este análisis es una herramienta cognitiva y epistemológica que nos permite descubrir la identidad estadística del comportamiento de cifras; ya sabemos que el dato es una unidad numérica que al organizarlo se transforma en información y al interpretarlo se convierte en conocimiento. Así, los datos, la información y el conocimiento adquieren una identidad y se logra llegar a una ingeniería de datos: “Datalectics”.

Cuando hablamos de datos, matemáticas, modelos o estadísticas nos encontramos con muchos términos que explican los comportamientos numéricos: márgenes de error, probabilidades posibles e imposibles, desviación, media, varianza, etcétera. Existen enfoques cuantitativos o cualitativos para observar los datos; fue el estadístico John Tukey quien definió el análisis de datos en 1961 de esta manera: «Son los procedimientos para analizar datos, utilizando técnicas para interpretar los resultados de dichos procedimientos y formas de planear la recolección para hacer el análisis”. Los métodos de análisis factoriales y lineales que se utilizan son: análisis de componentes principales, correspondencia binaria, correspondencia múltiple y análisis discriminante.

Apliquemos la teoría con un caso concreto, los datos de COVID-19 en El Salvador. Nuestra metodología consiste en analizar –en 100 días- tres puntos de vista: a) el estudio de las medias aritméticas y su proporcionalidad; b) las correlaciones entre pruebas y contagios; y c) el resultado entre contagiados y recuperados cono cociente. Las gráficas y bases de datos que día a día se van alimentando presentan fotos estadísticas para el análisis y se descubren comportamientos:

Al analizar los datos de la pandemia de COVID-19 en El Salvador, por ejemplo, reflejan tres comportamientos atípicos en función de series temporales, a cada hallazgo le hemos puesto un nombre para identificarlos; para esta lectura recomendamos en cada tabla observar los casos de contagios:

1) El modelo de pares: entre el 1 y el 23 de mayo, observamos registros de pares crecientes y decreciente; puede notarse en el siguiente cuadro: 

Fecha 

Pruebas 

Contagiados 

1 de mayo 

1447 

22 

2 de mayo 

1592 

44 

3 de mayo 

1726 

65 

4 de mayo 

1611 

32 

5 de mayo 

1598 

46 

6 de mayo 

1783 

62 

7 de mayo 

1895 

45 

8 de mayo 

1773 

42 

9 de mayo 

2011 

105 

10 de mayo 

1953 

69 

11 de mayo 

1883 

40 

12 de mayo 

1866 

39 

13 de mayo 

2082 

75 

14 de mayo 

2229 

98 

15 de mayo 

2270 

55 

16 de mayo 

2282 

73 

17 de mayo 

2114 

75 

18 de Mayo 

2458 

85 

19 de Mayo 

2497 

73 

20 de Mayo 

2388 

69 

21 de Mayo 

2437 

85 

22 de Mayo 

2562 

94 

23 de Mayo 

2391 

96 

 

2) El Segundo modelo es de rangos: No encontramos un comportamiento de rangos estables antes de los 100 casos, pero sí, hay dos escalas regulares en los rangos de 100 y 200 casos, tal como se puede ver en los bloques del 11 al 25 de junio, y del 26 de junio al 11 de julio; aquí observamos una tendencia progresiva regular, la curva de datos crece y decrece, pero siempre asciende: 

 

Fecha 

Pruebas 

Casos 

Fecha 

Pruebas 

Casos 

11-jun 

2456 

108 

26-jun 

2572 

210 

12-jun 

2458 

122 

27-jun 

2498 

207 

13-jun 

2419 

117 

28-jun 

2417 

239 

14-jun 

2399 

106 

29-jun 

2495 

265 

15-jun 

2445 

115 

30-jun 

2450 

298 

16-jun 

2473 

125 

1-jul 

2423 

264 

17-jun 

2474 

134 

2-jul 

2433 

267 

18-jun 

2419 

129 

3-jul 

2438 

240 

19-jun 

2426 

146 

4-jul 

2475 

270 

20-jun 

2433 

151 

5-jul 

2436 

250 

21-jun 

2457 

182 

6-jul 

2496 

280 

22-jun 

2455 

165 

7-jul 

2499 

259 

23-jun 

2430 

177 

8-jul 

2470 

278 

24-jun 

2481 

186 

9-jul 

2485 

298 

25-jun 

2477 

181 

10-jul 

2430 

249 

 

 

 

11-jul 

2460 

283 

 

3.- El tercer modelo es de rango progresivo: Aquí se puede observar un crecimiento progresivo sistemático, los datos crecen cada día y no se nota regresión parcial, es una curva radicalmente ascendente. 

 

Fecha 

Pruebas 

Contagios 

16-jul 

2483 

250 

17-jul 

2415 

301 

18-jul 

2422 

338 

19-jul 

2450 

361 

20-jul 

2547 

375 

21-jul 

2473 

393 

22-jul 

2475 

402 

23-jul 

2429 

415 

 

Los fenómenos estadísticos humanos, a gran escala, tienen comportamientos estables, ya que no hay una planificación de sucesos, sino que los fenómenos simplemente ocurren; las tasas típicas de natalidad, morbilidad, homicidios, deserción escolar, entre muchas otras presentan comportamientos con una cadencia y ritmo recurrente. Cuando en series de datos encontramos “sobresaltos” o cambios drásticos se quiebran las “tendencias”. 

La tendencia estadística de un sujeto, de una muestra en particular, o del universo en general, es el comportamiento o forma de ser de ese sujeto u opción, muestra o universo. En términos de probabilidad, la tendencia individual de un sujeto u opción queda manifestada, de forma inmediata, en la probabilidad empírica y  a nivel muestral en la serie de estadísticos muestrales, y la tendencia del universo dependiendo si la inferencia estadística, de acuerdo a la razón crítica, determina si una tendencia es suficientemente racional para aplicarse de forma provisional al universo del que forma parte la muestra, transformándose la hipótesis empírica en hipótesis racional, una hipótesis simultáneamente universal y provisional, en cuanto el margen de error aceptado por la política científica en la razón crítica no se muestre inevitable.  

Del ejemplo anterior y desde el enfoque de dataletics, observamos, en una serie de tiempo corta de tres meses sobre un mismo fenómeno –COVID-19 en El Salvador- tres identidades, de lo que podemos concluir que: Hay irregularidad en la administración de los datos, por traslado de registros o una simple manipulación de los mismos para extender el tiempo por alguna razón desconocida…  

Comparte disruptiva

Share on facebook
Share on twitter
Share on linkedin
Share on whatsapp
Share on pinterest
Share on print
Share on email