Riflessioni conclusive della sezione

La sezione dedicata ai modelli di regressione ci ha permesso di esplorare uno degli strumenti più importanti della statistica applicata in psicologia. Abbiamo visto che la regressione lineare nasce come modello fenomenologico: descrive le relazioni tra le variabili, ma non pretende di spiegare i meccanismi sottostanti. Proprio per questo motivo, la regressione è onnipresente nella ricerca empirica: fornisce un linguaggio comune per riassumere i dati, stimare le differenze e formulare previsioni.

Il percorso compiuto

Abbiamo iniziato dalla regressione lineare bivariata per comprendere i concetti di base, come l’intercetta, la pendenza e la variabilità residua, e abbiamo visto come la regressione verso la media rappresenti un fenomeno statistico inevitabile che ci mette in guardia dal rischio di interpretazioni affrettate. In seguito, abbiamo introdotto l’approccio bayesiano alla regressione che ci permette di esprimere l’incertezza in modo diretto e di integrare le conoscenze pregresse, trasformando la regressione da uno strumento puramente descrittivo a una parte di un quadro inferenziale più ampio.

Con l’introduzione di Stan, abbiamo visto come l’approccio bayesiano possa essere applicato anche a modelli più complessi. Abbiamo poi riformulato i problemi classici, come la stima della media, il confronto tra due gruppi e la valutazione dell’ampiezza dell’effetto, come casi particolari del modello lineare, mettendo in evidenza l’obiettivo reale della ricerca psicologica: non solo stabilire se una differenza “esiste”, ma anche comprenderne l’ampiezza, la plausibilità e la rilevanza pratica. L’ANOVA a una via e i modelli multilivello si inseriscono nello stesso quadro concettuale, confermando che regressione e ANOVA non sono strumenti distinti, ma espressioni diverse dello stesso impianto metodologico.

Oltre il modello fenomenologico

La parte finale della sezione ha però segnato un cambiamento di prospettiva. Dopo aver acquisito familiarità con la “meccanica” della regressione bayesiana, ci siamo chiesti: “Quando possiamo fidarci dei risultati che otteniamo?”. La risposta, spesso sottovalutata nella formazione statistica tradizionale, è che i risultati della regressione “funzionano” solo se si verificano determinate condizioni, che negli studi osservazionali non sono quasi mai soddisfatte.

Il capitolo sull’errore di misurazione ha mostrato come l’uso di variabili misurate con rumore produca sistematicamente stime attenuate dei coefficienti di regressione. Questo problema non è un dettaglio tecnico, ma un fenomeno pervasivo nella ricerca psicologica, in cui i predittori sono spesso costrutti latenti approssimati da questionari e scale psicometriche. L’approccio bayesiano offre una soluzione elegante: modellare esplicitamente il processo di misurazione, separando il livello strutturale (le relazioni tra i costrutti) dal livello di misura (il modo in cui i punteggi osservati riflettono i costrutti latenti). Questa distinzione tra “tratto” e “metodo” non è un esercizio formale, ma una pratica che migliora l’interpretazione sostanziale e l’affidabilità inferenziale.

I capitoli sulla causalità hanno poi affrontato una questione ancora più fondamentale: cosa possiamo davvero concludere da un’analisi di regressione? La risposta, come sottolineano McElreath e altri, è che la regressione descrive associazioni, non relazioni causali. La correlazione tra due variabili può emergere per ragioni molto diverse: perché una causa l’altra, perché condividono una causa comune o perché abbiamo considerato una variabile che non avremmo dovuto controllare.

Il framework dei DAG (Directed Acyclic Graphs) ci ha fornito gli strumenti per pensare in modo sistematico a queste possibilità. Le quattro configurazioni fondamentali, ovvero catena, biforcazione, collider e discendente, rappresentano i “mattoni” con cui si costruiscono tutti i modelli causali più complessi. La distinzione tra i confondenti (che vanno controllati), i mediatori (che trasmettono l’effetto) e i collider (che non vanno mai controllati) è essenziale per evitare errori nell’inferenza. Abbiamo visto che inserire variabili in una regressione “perché disponibili” o “per essere conservativi” può introdurre distorsioni invece di correggerle, un messaggio controintuitivo ma cruciale.

La lezione metodologica

In sintesi, la sezione ha mostrato come il modello lineare costituisca un quadro unificante per gran parte delle analisi psicologiche e come l’approccio bayesiano renda tale quadro più trasparente e interpretabile. Ci ha però anche ricordato, con forza crescente nei capitoli finali, che si tratta di modelli fenomenologici che descrivono delle associazioni senza entrare nel merito dei processi che le generano.

Due lezioni emergono con particolare chiarezza:

  1. i dati da soli non “parlano”: hanno bisogno di un modello teorico. Un’analisi statistica, per quanto sofisticata, non può dirci nulla di causale se prima non abbiamo formulato ipotesi chiare sul meccanismo che vogliamo studiare.

  2. controllare “di più” non è sempre meglio: la scelta delle variabili da includere in un modello richiede un ragionamento causale esplicito, non automatismi. Controllare un collider introduce una distorsione invece di rimuoverla.

Queste considerazioni non rendono la regressione uno strumento meno utile, ma uno strumento da utilizzare con consapevolezza critica. Nel prosieguo del manuale, vedremo come sia possibile andare oltre introducendo modelli più ricchi e meccanicistici, capaci non solo di descrivere, ma anche di simulare e spiegare i processi cognitivi e affettivi alla base dei dati psicologici. Tuttavia, la consapevolezza dei limiti della regressione e delle condizioni necessarie per interpretare correttamente i suoi risultati rimarrà un punto di riferimento costante.