Etiquetas
bioestadística, correlación, correlación lineal, covarianza, estadística, Galton, Pearson
El pasado 20 de octubre se celebró el segundo Día Mundial de la Estadística, este año se ha destacado la importancia que tiene para la toma de decisiones en políticas enfocadas a tener un desarrollo sostenible, también la importancia de tener indicadores significativos del progreso del país.
Una gran herramienta en el mundo sanitario es el “índice de correlación” en la toma de decisiones.
En las investigaciones clínico-epidemiológicas, los profesionales de la salud:
- Definen relaciones entre las características de un fenómeno.
- Prueban la fiabilidad de sus observaciones
Así cotejan:
- La asociación entre el volumen máximo expirado en una expiración forzosa (FEV) y la talla medida en centímetros en un grupo de adolescentes.
- En atención primaria la nefropatía diabética mediante la relación entre excreción urinaria de albúmina en 24 horas (EUA) y cociente de albúmina/creatinina en orina matinal.
- En un Centro de Salud la relación entre tensión arterial de los pacientes y el sobrepeso.
La teoría de la correlación son muy recientes su descubrimiento se debe al médico inglés Sir Francis Galton.
Galton nació en 1822 en Birminghan en una familia acomodada. Estudió en Hospital General de Birmingham, en el King´s College de Londres y en el Trinity de Cambridge. Sus trabajos se desarrollaron en torno al estudio de la herencia y la expresión matemática de los fenómenos vinculados a ella. En 1869, publicó el libro Hereditary Genius, llegando al concepto de correlación, siendo el primero en asignar a un conjunto de variables un número que permitía obtener una medida del grado de relación existente entre ellas. Los trabajos de Galton fueron continuados y mejorados, por Karl Pearson.
Karl Pearson, nació en Londres en 1857, comenzó estudiando derecho. A los 27 años comenzó a impartir clases de matemáticas aplicadas en la Universidad de Londres. En 1901 fundó la revista Biométrica, donde publicó la biografía de Galton. Fue un científico y matemático que estableció métodos estadísticos en la biología y fue el fundador de la bioestadística.
El coeficiente de correlación lineal mide el grado de intensidad de la relación entre dos variables. Lo mejor es representar los pares de valores en un gráfico y ver qué forma describen.
Se calcula aplicando la siguiente fórmula:
El coeficiente de correlación lineal de Pearson se define matemáticamente con la ecuación siguiente:
r= Sxy / Raiz ( Sx2 x Sy2)
Donde:
r = coeficiente de correlación de Pearson.
Sxy = sumatoria de los productos de ambas variables.
Sx = sumatoria de los valores de la variable independiente.
Sy = sumatoria de los valores de la variable dependiente.
Sx2 = sumatoria de los valores al cuadrado de la variable independiente.
Sy2 = sumatoria de los valores al cuadrado de la variable dependiente.
N = tamaño de la muestra en función de parejas.
Este procedimiento estadístico es aplicable cuando las observaciones se miden según una escala de intervalo, por otra parte, el fenómeno debe ser lineal.
La varianza de las variables X y Y deben guardar homogeneidad.
Numerador: se denomina covarianza y se calcula en cada par de valores (x,y) se multiplica la “x” menos su media, por la “y” menos su media. Se suma el resultado obtenido de todos los pares y este resultado se divide por el tamaño de la muestra.
Denominador: se calcula el producto de las varianzas “x” y de “y”, y a este producto se le calcula la raíz cuadrada.
Los valores que puede tomar el coeficiente de correlación “r” son: -1 <r<1
- Si r>0, la correlación lineal es positiva , el valor de una variable sube al de la otra. La correlación es tanto más fuerte cuanto más se aproxime a 1. Ejemplo: altura y peso, los pacientes cuanto más altos suelen pesar más.
- Si r<0, la correlación lineal es negativa, si sube el valor de una variable disminuye el de la otra. La correlación negativa es más fuerte cuanto más se aproxime a -1.Ejemplo: peso y velocidad, los pacientes cuanto más gordos suelen correr menos.
- Si r=0, no existe correlación lineal entre las variables, puede existir correlación que no sea lineal: parabólica, exponencial, etc…
- +1 ó -1 = Correlación perfecta.
- -1 a -0.5 o 0.5 a 1= Correlación fuerte.
- -0.5 a -0.3 o 0.3 a 0.5 = Correlación moderada.
- -0.3 a -0.1 o 0.1 a 0.3 = Correlación débil.
- -0.1 a 0.1= No hay correlación o muy débil.
Desventajas del coeficiente de correlación:
- Solo mide una relación lineal, cuando es no lineal como exponencial o parabólica, r estará cerca de 0 o es igual a 0. El diagrama de dispersión nos aclarará la situación.
- Al interpretar la “r”, hay que ver que tenga sentido, evaluando dos variables relacionadas, por Ejemplo relación entre sueño y horas de luz, no entre sueño y uso del paraguas.
Links relacionados
- Instituto Nacional de Estadística
- Sistema Nacional de Salud Español
http://www.msssi.gob.es/organizacion/sns/libroSNS.htm
- Relación entre dos variables cuantitativas y el coeficiente de Pearson