“Statistical models are not about the data, they are about how the data are generated.”
— David A. Freedman, Statistical Models and Causal Inference
Introduzione
Quando utilizziamo modelli statistici, il nostro obiettivo non è semplicemente descrivere i dati, ma soprattutto comprendere i processi che li hanno generati.
Questa distinzione porta a differenziare due famiglie di modelli:
i modelli fenomenologici, che si limitano a rappresentare le associazioni osservabili tra variabili. Sono descrittivi, ma spesso vulnerabili a errori di specificazione;
i modelli meccanicistici, che cercano invece di formalizzare il processo generativo sottostante ai dati. Sono più impegnativi da costruire, ma hanno un potenziale esplicativo molto maggiore.
Attenzione
I modelli fenomenologici (come la regressione) possono adattarsi bene ai dati osservati, ma rischiano di fallire completamente quando applicati a nuove situazioni. Per avanzare nella conoscenza scientifica è cruciale sviluppare e confrontare modelli che riflettano i processi reali.
Il quadro concettuale per la modellizzazione e l’analisi statistica è illustrato nella figura seguente. Il punto di partenza è un problema reale e un corrispondente insieme di dati. Sulla base dei dati, costruiamo un modello probabilistico che riflette sia ciò che sappiamo sulla realtà, sia le ipotesi implicite del nostro ragionamento. All’interno del modello eseguiamo analisi e calcoli, che portano a conclusioni sul modello stesso. Infine, traduciamo queste conclusioni in affermazioni sulla realtà.
Figura 43.1: Modellizzazione e analisi statistica (figura tratta da Chan & Kroese, 2025).
La statistica matematica utilizza la teoria della probabilità e altri rami della matematica per studiare i dati. In questo approccio, i dati sono considerati come realizzazioni di variabili casuali la cui distribuzione congiunta è specificata (almeno in parte) dal modello. Alcuni parametri della distribuzione restano sconosciuti e vanno stimati. L’analisi si concentra quindi sul modello e sui suoi parametri, con l’obiettivo di avvicinarsi al processo reale che ha generato i dati.
Panoramica del capitolo
Cosa significa descrivere i dati rispetto a spiegare i processi che li generano.
I limiti dei modelli fenomenologici e perché possono indurre in errore.
Il ruolo delle distribuzioni di probabilità per rappresentare l’incertezza.
Come confrontare modelli alternativi e scegliere quelli che meglio descrivono i dati e generalizzano a nuovi contesti.
Prerequisiti
Leggere il capitolo Common Statistical Models del testo di Chan & Kroese (2025).
Questa ipotesi (iid) è alla base di moltissimi modelli statistici di uso comune.
Esempio
Pensiamo a un test psicologico somministrato a 100 persone. Se assumiamo che ciascuna risposta sia indipendente dalle altre e provenga dalla stessa distribuzione, stiamo implicitamente adottando un modello iid.
43.3 Modelli fenomenologici: descrivere le associazioni
Un modello fenomenologico cerca di sintetizzare i dati osservati attraverso relazioni statistiche. Un esempio tipico è la regressione lineare:
\[
y_i = \alpha + \beta x_i + \varepsilon_i .
\]
Questa formula descrive come varia la media di \(y\) in funzione di \(x\). È utile per riassumere e predire, ma non dice nulla sul meccanismo psicologico che produce la relazione.
43.3.1 Il problema dell’errore di specificazione
I modelli fenomenologici sono esposti a gravi rischi:
possono adattarsi bene ai dati osservati ma essere falsi nel rappresentare la realtà;
trascurano variabili latenti o meccanismi che non vengono osservati direttamente;
possono generare correlazioni spurie e interpretazioni fuorvianti.
Esempio: una regressione che mostra un legame tra “tempo sui social” e “ansia” non ci dice nulla sul ruolo di mediazione di variabili cognitive o sociali.
43.4 Modelli meccanicistici: spiegare i processi
I modelli meccanicistici non si limitano a descrivere relazioni, ma cercano di rappresentare il processo generativo.
43.4.1 Esempi in psicologia
Rescorla-Wagner: formalizza come le aspettative di un soggetto vengono aggiornate in base agli errori di previsione durante l’apprendimento associativo.
Drift Diffusion Model (DDM): descrive scelte binarie e tempi di reazione come risultato di un processo di accumulo di evidenza.
Questi modelli sono più vicini a una teoria psicologica esplicita, e possono essere testati confrontando le loro previsioni con i dati osservati.
Differenza intuitiva
Un modello fenomenologico può dire: “più ore di studio → voti più alti”.
Un modello meccanicistico può dire: “ogni sessione di studio incrementa la memoria con un tasso di apprendimento definito, che a sua volta determina la probabilità di rispondere correttamente”.
43.5 Valutazione e confronto dei modelli
In un approccio bayesiano, il confronto tra modelli è parte integrante della pratica scientifica. Non si tratta solo di “adattare” un modello ai dati, ma di chiedersi:
Quanto bene il modello descrive i dati osservati?
Quanto bene si generalizza a nuovi dati?
Quanto è coerente con la teoria psicologica di riferimento?
Queste domande permettono di superare la visione ingenua secondo cui “un modello buono è quello che si adatta bene ai dati”.
Riflessioni conclusive
La distinzione tra modelli fenomenologici e meccanicistici è centrale per la ricerca psicologica:
i modelli fenomenologici sono utili come strumenti descrittivi e predittivi a breve termine, ma rischiano di produrre conclusioni fuorvianti se presi come spiegazioni;
i modelli meccanicistici permettono di andare oltre la descrizione, offrendo ipotesi concrete sui processi psicologici che generano i dati;
la modellazione bayesiana fornisce strumenti potenti per confrontare modelli alternativi, scegliere quelli più predittivi e verificare la loro generalizzabilità.
In sintesi, il compito della scienza psicologica non è trovare correlazioni, ma sviluppare e testare modelli dei processi. È lì che si decide se la conoscenza prodotta è robusta e utile.
Problemi
Qual è il processo concettuale alla base della modellizzazione e dell’analisi statistica?
Cosa significa che un campione è indipendente e identicamente distribuito (iid) e perché questa assunzione è importante nei modelli statistici?
Come si differenziano i modelli di campionamento da una singola distribuzione rispetto ai modelli di campioni multipli indipendenti?
Qual è la differenza tra regressione lineare semplice e regressione lineare multipla?
In che modo i modelli computazionali, come il modello di apprendimento associativo e il modello drift-diffusion, si differenziano dai modelli statistici tradizionali?
Consegna: Rispondi con parole tue e carica il file .qmd, convertito in PDF su Moodle.
Soluzioni
Il processo concettuale della modellizzazione e analisi statistica inizia con un problema reale e i dati raccolti su tale problema. Si costruisce quindi un modello probabilistico che rappresenta le conoscenze disponibili e il modo in cui i dati sono stati ottenuti. L’analisi viene condotta all’interno del modello, producendo conclusioni sui suoi parametri. Infine, i risultati vengono tradotti in inferenze sulla realtà, con lo scopo di migliorare la comprensione del fenomeno studiato.
Un campione è detto indipendente e identicamente distribuito (iid) se le osservazioni sono indipendenti tra loro e seguono la stessa distribuzione di probabilità. Questa assunzione è fondamentale perché semplifica le analisi statistiche e permette di applicare risultati teorici importanti, come la legge dei grandi numeri e il teorema del limite centrale.
Nei modelli di campionamento da una singola distribuzione, si assume che tutte le osservazioni provengano da una stessa popolazione e seguano la stessa distribuzione. Nei modelli di campioni multipli indipendenti, invece, si confrontano più gruppi distinti, ciascuno con la propria distribuzione, per studiare differenze tra le popolazioni. Un esempio è il confronto tra altezze di individui con madri fumatrici e non fumatrici.
La regressione lineare semplice analizza la relazione tra una variabile dipendente e una sola variabile indipendente attraverso una relazione lineare. La regressione lineare multipla, invece, estende questo concetto a più variabili indipendenti, permettendo di modellare fenomeni più complessi e controllare l’effetto di più fattori simultaneamente.
I modelli computazionali, come il modello di apprendimento associativo e il modello drift-diffusion, differiscono dai modelli statistici tradizionali perché mirano a simulare i processi mentali e decisionali sottostanti il comportamento umano. I modelli statistici descrivono principalmente relazioni tra variabili nei dati osservati, mentre i modelli computazionali cercano di rappresentare dinamicamente i meccanismi cognitivi e comportamentali che generano tali dati.