Guía básica de análisis estadístico de datos
La información es poder y por eso el análisis estadístico de datos es cada vez más importante. Y es que de nada sirve contar con una buena recogida de datos si, tras la obtención de los mismos, no sabemos lo más importante: organizarlos, tabularlos, graficarlos y hacer inferencia con ellos para probar nuestras hipótesis de investigación.
Vamos a tratar, pues, de explicar de manera breve y concisa y para lectores que poseen una mínima base de conocimientos estadísticos, cómo sacarle el máximo partido al análisis estadístico de datos.
¿Qué es el análisis de datos?
En primer lugar, es imprescindible recordar que el análisis de datos es el proceso que permite examinar minuciosamente una muestra con el fin de obtener información que nos resulte de utilidad.
Un análisis completo de datos permite determinar el impacto de un trabajo, evaluar la calidad de una investigación y comunicar los datos obtenidos de forma segmentada a los todos aquellos interesados en la investigación.
Datos cuantitativos y cualitativos
En primer lugar recordar que solemos trabajar con variables cuantitativas o variables cualitativas (categóricas):
En el caso de las cuantitativas revelan información numérica (edad, peso,…) y en el caso de las cualitativas, nos permiten identificar en que categoría de la variable se encuentra el sujeto (estado civil, nivel de estudios,…).
El procedimiento a la hora de realizar un análisis descriptivo es diferente dependiendo de la naturaleza de la variable (cuantitativa o cualitativa) y las técnicas de inferencia varían también dependiendo de la naturaleza de las variables y de los supuestos e hipótesis que se cumplen y queremos probar.
Análisis descriptivo de datos
Este tipo de analítica sirve para describir e informar sobre las cualidades básicas de los datos de la variable. El análisis descriptivo revela mínimos, máximos, frecuencias, porcentajes,… Además, en las variables cuantitativas también se incorpora medidas de tendencia central (media, mediana, moda), medidas de dispersión (varianza, desviación típica, coeficiente de variación) y medidas de posición y forma (percentiles, asimetría, curtosis).
Dentro del análisis descriptivo es muy importante el análisis gráfico de la variable, siendo los gráficos más utilizados el diagrama de barras, histograma, diagrama de sectores o el diagrama de cajas.
Análisis inferencial de datos
A diferencia del análisis descriptivo de datos, que revela lo que nuestros datos parecen ser, el inferencial permite ir un paso más allá con la finalidad de probar nuestras hipótesis y objetivos.
Para ello se sirve de pruebas estadísticas que ayudan a determinar si los patrones hallados se deben al azar o son consecuencia de una intervención. A menudo es utilizada para averiguar si los datos obtenidos son consecuencia o no de una posible intervención que ha alterado los resultados de la investigación.
Antes de comenzar con el análisis inferencial es necesario confirmar la distribución de los datos de las variables cuantitativas, es decir, debemos saber si nuestras variables tienen o no tienen distribución normal para saber si debemos aplicar test paramétricos o no paramétricos, para ello se debe aplicar la prueba de normalidad de Kolmogorov Smirnov o la de Shapiro Wilk en el caso de tener menos de 50 encuestados.
La distribución normal confirma que casi todos los datos están agrupados en torno a un número valor central. Si los datos son normales elegimos para realizar nuestro análisis estadístico de datos entre las denominadas pruebas paramétricas.
Una parte mínima de la muestra o las respuestas que rompen con la tendencia pueden hacer que nuestros datos no estén distribuidos normalmente. Cuando nuestros datos no son normales para llevar a cabo nuestro análisis estadístico de datos escogemos entre las llamadas pruebas no paramétricas.
Tipos de distribuciones no normales:
Sesgada a la derecha o la izquierda: se trata de una distribución asimétrica que desplaza nuestra representación gráfica, o bien hacia la derecha (positiva) o bien hacia la izquierda (negativa).
Curtosis: hace referencia al grado de agudeza que presenta la distribución de datos. Como vemos en la gráfica estas pueden ser leptocúrticas (agudas), mesocúrticas (normales) y platicúrticas (planas).
Análisis estadísticos de datos más comunes
Analizados la distribución de los datos toca realizar distintas pruebas estadísticas que determinen si el patrón observado es real o se debe exclusivamente a la casualidad. En función del diseño, la investigación, la distribución de datos, el tipo de variables utilizadas y la hipótesis a probar recurriremos a un tipo de prueba o a otra.
Tipos de pruebas más comunes y cuándo se usan:
- Correlación de Pearson: cuando buscamos conocer la fuerza de la asociación entre dos variables cuantitativas con distribución normal.
- Correlación de Spearman: cuando buscamos determinar la fuerza de la asociación entre dos variables cuantitativas sin distribución normal.
- Chi-cuadrado: cuando buscamos determinar la dependencia o independencia entre dos variables cualitativas.
Comparación de medias, en busca de la diferencia entre las medias de las diferentes categorías de variable:
- Prueba T para muestras independientes: para encontrar diferencias entre dos medias de grupos no vinculados, su equivalente no paramétrico es la prueba U de Mann Whitney.
- ANOVA: para encontrar diferencias entre 3 o más medias de grupos, su equivalente no paramétrico es la prueba de Kruskal Wallis.
La regresión nos sirve para crear un modelo de predicción de una variable dependiente a través de una o varias variables independientes o predictoras. Las regresiones más utilizadas suelen ser la simple, múltiple o la regresión.
Para ver si hay diferencia entre datos pareados (PRE-POST), tenemos la prueba T para muestras pareadas, su equivalente no paramétrico es la prueba de Wilcoxon.
A cada prueba estadística le está asociado un p-valor que es el que nos indica si el resultado es estadísticamente significativo o no. Los resultados se consideran significativos si el p-valor es de 0.05 o menor.
Resulta imprescindible saber que un resultado estadísticamente significativo no quiere decir que el efecto sea verdaderamente importante. A menudo, los efectos pequeños pueden ser estadísticamente significativos como consecuencia de la gran muestra tomada durante el estudio de campo.