Analisi della regressione lineare

3 minuti

Ipotizziamo di dover condurre una ricerca per un'azienda che vuole conoscere la relazione tra le vendite e le spese di pubblicità. Come possiamo procedere?

Scritto e verificato la psicologa Paula Villasante.

Ultimo aggiornamento: 25 gennaio, 2023

A volte ci interessa sapere se esiste una relazione lineare tra due variabili casuali. È questo il caso in cui si ricorre all’analisi della regressione lineare.

Il coefficiente di correlazione lineare r di Pearson, il cui valore è compreso tra -1 e +1 (1), ci permette di ottenere questo dato. Nei casi in cui il coefficiente di regressione lineare si avvicini a +1 o -1, ha senso considerare come modello accettabile dell’associazione tra le due variabili l’equazione della retta che “meglio si adatta” alla nuvola di punti.

Questa linea ci consente principalmente di stimare i valori di Y che otterremmo per diversi valori di X. Tali concetti saranno rappresentati in quello che chiamiamo grafico di dispersione. D’altra parte, la procedura più comune per determinare la migliore linea di adattamento è quella dei minimi quadrati.

Persona consulta un grafico su un tablet.

Un esempio di analisi della regressione lineare

Ipotizziamo di dover condurre una ricerca per un’azienda che vuole conoscere la relazione tra le vendite e le spese di pubblicità. Cosa possiamo fare? L’analisi della regressione lineare ci permette di sapere in che misura le spese pubblicitarie determinano la variabile “vendita”.

Quest’ultima sarà la variabile dipendente del modello, mentre la variabile esplicativa o indipendente sarà la spesa pubblicitaria.

L’uso del suddetto modello consentirà di osservare che influenza hanno le spese di pubblicità sul fatturato o sulle vendite dell’azienda (1). Per scoprirlo, possiamo ricorrere all’equazione della retta di regressione lineare.

Per quantificare la relazione tra le due variabili e avere un’idea approssimativa dell’influenza della spesa pubblicitaria sulle vendite dell’azienda, possiamo ricorrere ai minimi quadrati ordinari (OLS) dove la somma dei quadrati dei residui è minimizzata.

Questo residuo è la differenza tra un valore osservato e il valore stimato. Ma a cosa ci servono queste informazioni? Ebbene, l’obiettivo è ridurre al minimo la somma dei quadrati dei residui. Tuttavia, dobbiamo tenere presente che quando si esegue questa analisi, non tutti i punti si troveranno all’interno della linea di regressione (capita di rado).

Se li trovassimo tutti, e se il numero di osservazioni fosse abbastanza grande, non ci sarebbe alcun errore di stima. In tal caso, non esisterebbe differenza alcuna tra il valore osservato e il valore di previsione (1).

L’errore standard della stima

Nei casi reali non si verificano adattamenti assoluti del modello alla realtà, motivo per cui esiste una misura che descrive quanto sia accurata la previsione di Y in funzione di X. Oppure, viceversa, quanto può essere imprecisa la stima.

Questa misura è chiamata errore standard della stima. Viene usata nell’analisi della regressione lineare per misurare la dispersione attorno alla linea di regressione.

Presupposti del modello della regressione lineare

Se le nostre osservazioni sono un campione casuale basato su un gruppo di persone, allora trarre inferenze al riguardo è ciò che ci interessa.

Affinché queste inferenze siano “statisticamente ragionevoli”, devono essere soddisfatte le seguenti condizioni:

Nel gruppo di persone, la relazione tra le variabili X e Y deve essere approssimativamente lineare.
I residui sono distribuiti secondo una curva normale con media 0.
Inoltre, i residui sono indipendenti l’uno dall’altro.
I residui hanno varianza costante.

Il modello della regressione lineare è dunque robusto. Ciò significa che le condizioni di cui sopra non devono essere soddisfatte con esattezza (in particolare le ultime tre).

Inferenza nel modello della regressione

Una volta calcolata la retta di regressione e la bontà di adattamento ottenuta con il modello della regressione lineare, il passo successivo consisterà nell’esecuzione di un test di ipotesi. L’ipotesi nulla corrisponderà all’assenza di una relazione, mentre il rifiuto dell’ipotesi nulla corrisponderà alla presenza di una relazione significativa.

A tale scopo, dobbiamo verificare se la correlazione tra entrambe le variabili è diversa da zero o se il modello della regressione è valido, ossia dovremo verificare se l’analisi della nostra variabile endogena (Y) è valida attraverso l’influenza della variabile esogena (X).

In breve, l’analisi della regressione lineare si applica a innumerevoli aspetti della vita reale. È impiegata in campo sociale e scientifico ed è fondamentale per comprendere alcune relazioni tra le variabili nell’ambito delle statistiche.

Tutte le fonti citate sono state esaminate a fondo dal nostro team per garantirne la qualità, l'affidabilità, l'attualità e la validità. La bibliografia di questo articolo è stata considerata affidabile e di precisione accademica o scientifica.

Vila, A., Sedano, M., López, A., & Juan, A. (2004). Correlación lineal y análisis de regresión. Barcelona: Universidad Oberta de Catalunya.
Anderson, D. R., Sweeney, D. J., Williams, T. A., Roa, M. D. C. H., & Álvarez, T. L. (2001). Estadística para administración y economía (No. 311 A54Y). International Thomson.
Levin, R. I., Rubin, D. S., & Samaniego, A. H. F. (1996). Estadística para administradores (No. 519.5 L47Y 1994). Prentice-Hall Hispanoamericana.

Questo testo è fornito solo a scopo informativo e non sostituisce la consultazione con un professionista. In caso di dubbi, consulta il tuo specialista.