Prueba Chi Cuadrado para tablas de contingencia

Prueba chi-cuadrado para tablas de contingencia

Las tablas de contingencia (también llamadas tabulaciones cruzadas o tablas de doble entrada) se utilizan en estadística para resumir la relación entre varias variables categóricas. Una tabla de contingencia es un tipo especial de tabla de distribución de frecuencias, donde dos variables se muestran simultáneamente.

El procedimiento donde se utilizan dos variables categóricas produce tablas de recuentos y porcentajes para la distribución conjunta de las dos variables. Por lo tanto, estas tablas se conocen como tablas de contingencia, de tabulación cruzada o de tabulación cruzada.

¿Qué es una tabla de contingencia?

Una tabla de contingencia es una representación tabular de datos categóricos. Una tabla de contingencia generalmente muestra frecuencias para combinaciones particulares de valores de dos variables aleatorias discretas X e Y. Cada celda de la tabla representa una combinación mutuamente excluyente de valores XY.

A continuación, se muestra una tabla de contingencia del tipo 2×2 muy utilizada en las investigaciones de las áreas de medicina y odontología:

Tabla de contingencia

 CasosControlesTotal (filas)
Expuestosaba+b
No Expuestoscdc+d
Total (columnas)a+cb+da+b+c+d

Se puede apreciar que en la primera columna tenemos las categorías correspondientes a una primera variable, en este caso la variable sería la ‘exposición a determinado factor de riesgo’, supongamos ‘Fumar’ o ‘Consumo de azúcar’, etc.

Mientras que las etiquetas de la primera fila corresponden a una segunda variable, que puede ser ‘tener cierta enfermedad’, donde los casos son los positivos y los controles sería un grupo que no tiene la enfermedad pero que están expuestos al factor de riesgo.

La tabla de contingencia será, por lo tanto, el resultado de las frecuencias resultantes representará la distribución conjunta de las características observadas, por ejemplo:

  • La casilla con la letra a, representa todos los individuos de la muestra que están expuestos al factor de riesgo y tienen la enfermedad;
  • La casilla con la letra b, representa todos los individuos de la muestra que están expuestos al factor de riesgo y no tienen la enfermedad;
  • La casilla con la letra c, representa todos los individuos de la muestra que no están expuestos al factor de riesgo y tienen la enfermedad; y,
  • La casilla con la letra d, representa todos los individuos de la muestra que no están expuestos al factor de riesgo y no tienen la enfermedad.

Saber más sobre estadística: ¿Para qué sirve el muestreo estadístico?


Análisis Chi-Cuadrado

Se puede realizar una prueba de chi² en tablas de contingencia para comprobar si existe o no una relación entre las variables. Estos efectos se definen como relaciones entre filas y columnas.

Por lo general, la prueba chi cuadrado de tablas de contingencia permite identificar si existe una “asociación estadística significativa entre las variables categóricas”, a partir del estudio de la variabilidad entre las frecuencias.

La prueba de chi² de tablas de contingencia opera de la siguiente manera:

  • La tabla muestra los valores observados, denotados por O(ij)
  • Se calculan los valores esperados para cada casilla, denotado por E(ij)
  • Se calculan las diferencias y se elevan al cuadrado
  • Se calcula:
Fórmula Chi Cuadrado

Este resultado se contrasta con un valor de Chi cuadrado con una tabla chi² para grados de libertad según:

g.d.l. = (filas – 1) x (columnas – 1)

Resumen de la prueba Chi-Cuadrado

Interpretación del análisis chi-cuadrado

Cuando procesamos la tabla de contingencia en un software estadístico, lo más seguro es que tendremos un resultado que muestra el valor de chi- cuadrado y el p-valor (valor de probabilidad). Este último es el que interpretaremos directamente.

El p-valor indica la probabilidad de obtener un efecto por lo menos tan extremo como el de los datos de la muestra; es decir, el valor p se refiere a la probabilidad de obtener un resultado similar o más extremo al observado.

Mientras más pequeño es el p-valor (cercano a cero) mayor será la probabilidad de asociación estadística entre las variables categóricas que estamos analizando estadísticamente.

Al establecer un valor para la significancia, por lo general un alfa de 0,05 comparamos el resultado del p-valor contra dicho valor.

Llegaremos a una conclusión con la siguiente regla:

Si el p-valor es menor que alfa, entonces diremos que la asociación es estadísticamente significativa; de lo contrario, si el p-valor es de 0,05 o mayor, entonces la asociación no es significativa.

Ejemplo de un análisis chi-cuadrado

Supongamos que los registros de la muestra proporcionan el siguiente resultado de las ventas de tres productos en 4 regiones; queremos saber si las regiones representan un cambio significativo en las ventas suponiendo una significancia de 0,05 (α=0,05):

Ejemplo de tabla de contingencia

Resultado:

Chi-Cuadrado = 38,2484

Grados de libertad = 6

p-valor = 0,00000100449

Interpretación: el p-valor es un valor inferior a 0,05, por lo tanto, existe una asociación (relación) estadísticamente significativa entre las regiones y los productos.

Significa que, los cambios en las regiones implican cambios en las cantidades vendidas de los productos, o viceversa.

Espero haberte ayudado con este artículo, ya que muchas veces no es bien explicado en clases. Con esto podrás interpretar mejor los resultados en tus trabajos de investigación y análisis estadísticos.


Revisa estos temas de nuestro Blog