Coeficiente de Correlación: Conceptos y Aplicaciones

En la estadística se utilizan una gran cantidad de medidas, a través de las cuales se pueden cuantificar ciertas características esenciales de una población o muestra. Esto se hace mucho más útil en el momento en que se comparan dos variables estadísticas de un mismo objeto de estudio, pues la relación entre ellas es un factor fundamental para conocer la razón de los resultados. Esto se puede medir mediante el coeficiente de correlación.

El coeficiente de correlación es fundamental para el análisis de modelos estadísticos o probabilísticos, por lo que en este artículo te explicaremos de qué se trata este importante concepto, cuáles son sus tipos con sus respectivas fórmulas y cómo puedes calcularlo.

¿Qué es el coeficiente de correlación?

El coeficiente de correlación es una medida estadística que cuantifica la relación entre dos variables, es decir, la manera en que una de ellas influye sobre los resultados de la otra. Entre mayor es la relación, los datos se agrupan formando una línea recta con pendiente creciente o decreciente según el tipo de interdependencia (la cual puede ser directa o inversamente proporcional).

¿Para qué sirve el coeficiente de correlación?

El coeficiente de correlación es ampliamente utilizado debido a que se puede considerar la manera en que influye una variable sobre otra, lo que es útil al momento de gestionar los resultados de un proceso y realizar los ajustes necesarios para alcanzar ciertos objetivos.

En un contexto real, existen una gran cantidad de variables que intervienen sobre unos resultados, como lo puede ser un proceso de producción, el número de accidentes de tránsito por día, el rendimiento académico, entre otros ejemplos. Por esto es necesario conocer la relación entre las variables, con el fin de reducir la influencia de la variable independiente sobre la dependiente, si es posible, o realizar las mejoras necesarias.

Propiedades del coeficiente de correlación

Existen tres propiedades que el coeficiente de correlación cumple en todo momento, las cuales se debe verificar al momento de calcular esta medida estadística, con el fin de conocer si el resultado es correcto o no. Estas son:

El coeficiente de correlación no es sensible a la escala de medición utilizada para medir las variables. Esto quiere decir que el resultado es igual tanto para gramos como para kilogramos, por ejemplo.

El coeficiente de correlación se relaciona con la covarianza en cuanto a su signo. Así, si la covarianza es positiva, se dice que la correlación entre las variables es directa. Por otra parte, si la primera es negativa, la correlación es inversa. En caso de que la covarianza sea nula, la correlación es inexistente.

Los valores que el coeficiente de correlación puede adoptar se encuentran en un intervalo cerrado entre -1 y 1. Entre más cercano sea el valor que adopte a -1, se dice que la correlación es inversa y fuerte. Si se acerca más a 1, la correlación es directa. Por último, si el valor es 0, la correlación es débil o inexistente.

Tipos de coeficiente de correlación

Karl Pearson, Charles Spearman y Maurice Kendal, tres matemáticos contemporáneos, desarrollaron diferentes maneras de calcular el coeficiente de correlación y explicar, así, la interdependencia entre dos variables. Por lo tanto, es importante conocer los métodos existentes para realizar este tipo de análisis según sea la ocasión, lo cual te explicaremos a continuación:

Coeficiente de correlación de Pearson

El coeficiente de correlación de Pearson se utiliza con mayor frecuencia y, generalmente, se emplea su fórmula como forma general para definir esta medida estadística. Así, este tipo de coeficiente de correlación se define como la covarianza de unas variables aleatorias cuantitativas X e Y, dividida entre el producto de las desviaciones estándar de cada una de las variables mencionadas. Es decir:

Generalmente, se utiliza la letra griega ⍴ (rho) para denotar el coeficiente de correlación, para cualquiera de los tipos existentes.

Coeficiente de correlación de Spearman

El coeficiente de correlación de Spearman se basa en la atribución de unos rangos específicos a cada uno de los datos de las dos variables estudiadas. En primer lugar, los datos de una de las variables se deben ordenar de mayor a menor para realizar dicha atribución, los cuales, posteriormente, se enumeran. La enumeración también se realiza para los datos de la otra variable (de menor a mayor), pero en este caso no se ordenan.

Dicho esto, se puede explicar la siguiente fórmula:

Donde:

d es la diferencia entre los rangos de cada dato. Por ejemplo, la diferencia entre un dato cuyo rango es 1 (al ser el menor) y otro cuyo rango es 5, entonces se calcula 1 – 5 = -4.

n es el número de datos de cada variable.

Coeficiente de correlación de Kendall

El coeficiente de correlación de Kendall es una prueba no paramétrica (es decir, un análisis de datos que no tiene una distribución normal) en la que se hace una valoración de los pares concordantes y discordantes de la muestra.

Así, el coeficiente de correlación de Kendall es similar al coeficiente de correlación de Spearman, en cuanto que los datos de la primera variable se ordenan de menor a mayor. En este caso, el rango asignado son los datos de la segunda variable, que no se encuentran ordenados.

Para determinar el número de pares concordantes y discordantes, se evalúan, en primera instancia, los valores mayores y menores respecto al primer dato de la lista. Dicho procedimiento se realiza, sucesivamente, para el siguiente. Consideremos lo siguiente:

3
5	+
1	–	–
4	+	–	+
2	–	–	+	–

Por lo tanto, se observa que, en primer lugar, sólo dos valores son mayores que 3, mientras que en la segunda evaluación, todos los valores son menores que 5. En consecuencia, los pares concordantes son 4 (todos los signos positivos) y los pares discordantes, 6 (todos los signos negativos).

La fórmula, en este caso, es:

Donde:

C es el número de pares concordantes.

D es el número de pares discordantes.

En este caso, se emplea la letra griega τ (tau) para denotar el coeficiente de correlación de Kendall.

Diferencia entre coeficiente de correlación y determinación

En estadística, se utilizan diferentes modelos matemáticos en los que es necesario recurrir a ciertos coeficientes con el fin de evaluar el comportamiento y resultados de la variable experimental. Entre estos se encuentran el coeficiente de correlación y el coeficiente de determinación, que se hacen similares por el contexto en el que se implementan. Sin embargo, es necesario conocer sus diferencias, las cuales son:

El coeficiente de determinación cuantifica la proporción de variabilidad entre los resultados de un experimento, con el fin de evaluar la exactitud de un modelo estadístico y, así, predecir futuros resultados. Por otra parte, el coeficiente de correlación, únicamente, mide la interdependencia entre las dos variables.

El coeficiente de correlación puede tomar valores desde -1 hasta 1. El coeficiente de determinación, solo lo puede hacer desde 0 hasta 1.

El coeficiente de determinación se conoce como el cuadrado del coeficiente de correlación, por lo que se hace necesario conocer el segundo para calcular el primero.

¿Cómo calcular el coeficiente de correlación en Excel?

Tanto a nivel escolar como profesional, Microsoft Excel se ha posicionado como una herramienta indispensable para la realización de cálculos, así como para la organización de los datos en tablas y gráficos estadísticos. Esto se debe a las diversas opciones que ofrece para llevar a cabo este tipo de análisis y a sus funciones estadísticas. Por esta razón, te explicaremos cómo calcular el coeficiente de correlación en Excel fácilmente.

En primera instancia, el cálculo del coeficiente de correlación en Excel se puede realizar de manera manual, es decir, introduciendo la fórmula según los datos que se tengan. Sin embargo, los métodos que se presentan a continuación permiten automatizar dicho cálculo:

Función COEF.DE.CORREL: el primer método que te enseñaremos a utilizar se trata de utilizar esta función, cuya sintaxis es COEF.DE.CORREL(matriz1;matriz2), donde cada matriz equivale a los datos de una de las dos variables estudiadas.

Análisis de datos: esta herramienta puede que no se encuentre instalada en nuestros dispositivos de manera predeterminada, por lo que es necesario seguir los siguientes pasos para utilizarla:

Dirígete a la pestaña Archivo. En la parte inferior izquierda, haz clic sobre Más y luego en Opciones.

Pestaña - Archivo - Más - Opciones | Habilitar análisis de datos en Excel

En la nueva ventana, dirígete a Complementos y, luego, haz clic en el botón Ir, el cual se encuentra al lado del campo Administrar, en la parte inferior. Asegúrate de que se encuentre seleccionada la opción Complementos de Excel, como se muestra en la imagen.

Ahora, selecciona Herramientas para análisis y haz clic en Aceptar.

Una vez se ha instalado la herramienta, la puedes encontrar en la parte derecha de la pestaña Datos, en la barra de herramientas de Excel.

Análisis de datos en la cinta de opciones

Al hacer clic sobre ella, selecciona la opción Coeficiente de correlación.

Análisis de datos | Coeficiente de correlación

En la siguiente ventana, puedes seleccionar el rango de entrada, es decir, los datos para los cuales se debe realizar el análisis. Finalmente, se elige un rango de salida, donde aparecerá el resultado del cálculo.

Ejemplo de cálculo del coeficiente de correlación en Excel

Ahora, veamos un breve ejemplo de cómo calcular el coeficiente de correlación en Excel. Para este caso, se ha hecho un registro de las diferentes velocidades alcanzadas por varios automóviles, los cuales, a su vez, tienen un peso distinto. Los datos obtenidos fueron los siguientes:

Ejemplo de coeficiente de correlación - Datos

El método más sencillo de implementar es utilizando la función COEF.DE.CORREL, por lo que simplemente se hace lo siguiente:

Escribimos la función en la barra de fórmulas y, en el primer argumento de la función, seleccionamos el rango donde se encuentran registrados los pesos:

Ejemplo de coeficiente de correlación - Aplicar función en Excel - Paso 1

En el segundo argumento se hace lo mismo, pero esta vez con la segunda columna de la tabla:

Ejemplo de coeficiente de correlación - Aplicación de función en Excel - Paso 2

Finalmente, presionamos la tecla Enter y obtenemos el coeficiente de correlación entre las dos variables.

Ejemplo de coeficiente de correlación en Excel

En este caso, el coeficiente de correlación es negativo, lo que implica que entre más pesados sean los automóviles, menor es la velocidad que pueden alcanzar en su recorrido.

Interpretación del coeficiente de correlación

Dependiendo del resultado que se obtenga al momento de calcular el coeficiente de correlación, se pueden realizar diferentes interpretaciones respecto a la interdependencia entre las variables estudiadas. Se pueden presentar tres casos, a partir de los cuales se puede una u otra conclusión, los cuales son:

Si el coeficiente de correlación es mayor que 0: en este caso, se dice que la correlación es fuerte y directa, es decir, que si los resultados de una variable son positivos, también lo serán los de la otra y lo mismo si fueran negativos.

Si el coeficiente de correlación es igual a 0: no existe correlación entre las dos variables, por lo que los resultados de una no afectan directamente sobre los de la otra.

Si el coeficiente de correlación es menor que 0: en este caso, se dice que la correlación es fuerte e inversamente proporcional, lo que implica que si los resultados de una variable son, por ejemplo, positivos, los de la otra son negativos, y viceversa.

En cualquiera de los casos, la interpretación se expresa de manera porcentual, es decir, por ejemplo, si se obtiene que el coeficiente de correlación entre el volumen de producción por día y la inversión realizada por una empresa en cuanto a maquinaria es igual a 0,77, se dice que el 77% de la producción se debe a dicha inversión.

Conclusiones

El coeficiente de correlación es una de las medidas estadísticas más importantes, ya que no solo considera una variable, lo que limitaría el análisis preciso de las características o comportamiento de una población o resultados de un experimento, sino que considera varias variables. Por lo tanto, el modelo se hace más completo y real, pues evalúa las diferentes relaciones entre los factores que afectan al objeto de estudio.

La estadística posee una gran amplitud en cuanto a temas a abordar, los cuales son útiles para diferentes ramas del conocimiento. Por esto, te invitamos a visitar nuestro blog, donde encontrarás una gran cantidad de artículos relacionados a este ámbito, entre los cuales te recomendamos leer:

Coeficiente de correlación