Indice di correlazione di Pearson
La correlazione tra due variabili ci dà un’idea del grado di associazione o covariazione che esiste tra le due. Così, i coefficienti di correlazione sono una rappresentazione numerica della relazione tra due variabili. Ma cos’è l’indice di correlazione di Pearson?
Bravais realizzò nel 1846 un’approssimazione di quello che oggi conosciamo come indicce di correlazione di Pearson. Tuttavia, fu Karl Pearson che descrisse per primo, nel 1896, il metodo di calcolo standard e dimostrò che si trattava del migliore.
Pearson offrì anche alcuni commenti su un possibile ampliamento dell’idea di Galton. Fu quest’ultimo ad applicarlo ai dati antropometrici. Pearson chiamò questo approccio il metodo dei momenti del prodotto“ (o la funzione di Galton per il coefficiente di correlazione r).
L’indice di correlazione di Pearson è associato alla regolazione di modelli molto comuni in statistica, come l’analisi di regressione utilizzando il suo quadrato (coefficiente di determinazione) come indicatore di bontà di adattamento.
Pearson stesso (1896) parlò della necessità che le variabili analizzate soddisfino certe ipotesi, come la normalità. D’altra parte, in Spearman (1904) si sottolinea:
“Il requisito fondamentale è quello di poter misurare la nostra corrispondenza osservata con un semplice simbolo numerico. Non c’è motivo di accontentarsi di vaghe generalità come “grande”, “medio”, “piccolo” o, d’altra parte, di complicate tabelle e compilazioni. La prima persona a vedere la possibilità di questo immenso progresso sembra essere stato Galton”.
– Spearman, 1904-
Definizione dell’indice di correlazione di Spearman
L’indice di correlazione di Spearman è una misura statistica per ranghi non parametrica (senza distribuzione di probabilità associata). È stato proposto come misura della forza dell’associazione tra due variabili.
È una misura di un’associazione monotona che viene utilizzata quando la distribuzione dei dati rende fuorviante l’indice di correlazione di Pearson.
Quest’ultimo non è una misura della relazione lineare tra due variabili, come invece sostengono alcuni statistici. Esso valuta il grado in cui una funzione monotona arbitraria può descrivere la relazione tra due variabili.
A differenza dell’indice di correlazione di Pearson, non presuppone che la relazione tra le variabili sia lineare né che vengano misurate su scale di intervallo; può anche essere usato per variabili misurate a livello ordinale.
In linea di principio, il coefficiente di Spearman è semplicemente un caso speciale del coefficiente di Pearson. In esso, i dati sono convertiti in gradi prima di calcolare il coefficiente.
Ipotesi alla base del coefficiente di correlazione
Le ipotesi alla base dell’indice di correlazione di Pearson sono le seguenti:
- La distribuzione congiunta delle variabili (X, Y) deve essere una normale bivariata. In parole semplici, per convalidare questa ipotesi, ogni variabile deve essere distribuita normalmente. Se solo una delle variabili devia dalla normalità, anche la distribuzione congiunta non sarà normale.
- Deve sussistere una relazione lineare tra le variabili (X, Y).
- Per ogni valore di X c’è una sottopopolazione di valori Y normalmente distribuiti.
- Le sottopopolazioni di valori Y hanno una varianza costante.
- Le medie delle sottopopolazioni di Y hanno posizione sulla stessa linea retta.
- Le sottopopolazioni di X hanno una varianza costante.
- Le medie delle sottopopolazioni di X giacciono sulla stessa linea retta.
- Per ogni valore di Y c’è una sottopopolazione dei valori di X che sono normalmente distribuiti.
Conclusioni
Analizzando l’indice di correlazione di Pearson e di Spearman, ci si potrebbe aspettare che il significato di uno implichi il significato dell’altro. Al contrario, un’implicazione inversa non sembra essere necessariamente vera dal punto di vista logico.
Così, la significatività della correlazione di Spearman può portare alla significatività o non significatività del coefficiente di correlazione di Pearson. Questo accade anche per grandi insiemi di dati.
È preferibile, tuttavia, non utilizzare l’indice di correlazione di Spearman come misura di accordo, per esempio per calibrare uno strumento. In compenso, risulta una misura molto utile quando si hanno numerosi valori estremi (l’ipotesi di normalità è quindi violata).
Tutte le fonti citate sono state esaminate a fondo dal nostro team per garantirne la qualità, l'affidabilità, l'attualità e la validità. La bibliografia di questo articolo è stata considerata affidabile e di precisione accademica o scientifica.
-
Müller, R., & Büttner, P. (1994). A critical discussion of intraclass correlation coefficients. Statistics in medicine, 13(23‐24), 2465-2476.
-
Restrepo, L. F., & González, J. (2007). From pearson to Spearman. Revista Colombiana de Ciencias Pecuarias, 20(2), 183-192.
-
Altman, D. G. (1990). Practical statistics for medical research. CRC press.