Introduzione
L’Inferenza Bayesiana nella Ricerca Psicologica: Un Approccio Integrato
Nel campo della psicologia, la valutazione dell’efficacia di un trattamento clinico rappresenta una sfida metodologica centrale. Immaginiamo, per esempio, di voler testare l’utilità di una nuova psicoterapia per la depressione. Come possiamo concludere, in modo credibile, che il trattamento funzioni? L’approccio tradizionale, di matrice frequentista, risponde a questa domanda confrontando le medie dei punteggi tra un gruppo sperimentale e un gruppo di controllo, producendo un p-value. Questo valore quantifica quanto sarebbe improbabile osservare una differenza così grande o più estrema se il trattamento non avesse alcun effetto. Tuttavia, tale procedura presenta limiti sostanziali, soprattutto quando applicata a fenomeni complessi e variabili come quelli psicologici.
Limiti dell’approccio frequentista nella ricerca applicata
L’inferenza frequentista, pur ampiamente diffusa, non fornisce risposte alla domanda che davvero interessa chi fa ricerca: qual è la probabilità che il trattamento sia efficace, dati i risultati osservati? Il p-value non esprime questa probabilità, ma si riferisce alla possibilità di osservare i dati ottenuti assumendo che l’effetto non esista, ovvero sotto l’ipotesi nulla. È una misura indiretta e controfattuale, che spesso viene fraintesa.
Un secondo limite importante è l’incapacità dell’approccio frequentista di integrare conoscenze pregresse. Ogni studio viene trattato come un evento isolato, ignorando le evidenze precedenti e le ipotesi teoriche consolidate. Inoltre, il confronto tra medie non permette di modellare i meccanismi psicologici sottostanti, come i processi di mediazione o moderazione, che sono invece centrali per comprendere il funzionamento degli interventi.
Va considerato anche che la significatività statistica dipende fortemente dalla dimensione campionaria: un effetto piccolo può risultare “statisticamente significativo” in un campione molto ampio, e viceversa. Infine, la logica binaria “significativo/non significativo” imposta una dicotomia artificiosa su fenomeni che sono, per loro natura, continui e incerti. In psicologia, dove le sfumature e le differenze individuali sono cruciali, questa rigidità metodologica si rivela particolarmente problematica.
L’approccio bayesiano: un’alternativa coerente e flessibile
L’inferenza bayesiana propone un modo differente di pensare l’analisi dei dati: più naturale, flessibile e informativo. Si basa sull’idea che possiamo iniziare con una convinzione preliminare — rappresentata da una distribuzione a priori — e aggiornarla alla luce delle nuove osservazioni — attraverso la verosimiglianza — per ottenere una distribuzione a posteriori. Questo procedimento riflette il modo in cui ragioniamo quotidianamente. Per esempio, se ci svegliamo e vediamo il cielo coperto, possiamo stimare intuitivamente che c’è una probabilità del 70% che piova: un’inferenza soggettiva basata su esperienze pregresse, che può essere aggiornata osservando altri segnali, come il meteo sul telefono.
Applicando questo approccio alla ricerca psicologica, possiamo non solo rispondere alla domanda se un trattamento funziona, ma anche formulare stime probabilistiche dirette sull’efficacia, integrare conoscenze precedenti e modellare i processi psicologici sottostanti. In questo contesto, il modello bayesiano consente una lettura più profonda dei dati, sia teoricamente che praticamente.
Un Esempio Concreto: Modellizzazione di un Effetto di Mediazione con un Approccio Bayesiano
In psicologia clinica, spesso si ipotizza che un intervento non agisca direttamente su un esito, ma attraverso un meccanismo intermedio. Questo è noto come effetto di mediazione.
Consideriamo un’ipotesi di ricerca comune: una psicoterapia (variabile indipendente, \(X\)) non riduce i sintomi depressivi (variabile dipendente, \(Y\)) in modo diretto, ma agendo su una variabile mediatrice, come l’autoefficacia (mediatore, \(M\)).
Il modello di mediazione può essere scomposto in tre percorsi:
- Percorso a: L’effetto del trattamento (\(X\)) sul mediatore (\(M\)). La psicoterapia aumenta l’autoefficacia?
- Percorso b: L’effetto del mediatore (\(M\)) sull’esito (\(Y\)), tenendo sotto controllo l’effetto del trattamento. Una maggiore autoefficacia riduce la depressione?
- Percorso c’ (c-primo): L’effetto diretto del trattamento (\(X\)) sull’esito (\(Y\)), al netto del mediatore.
L’effetto indiretto (o mediato) è quantificato dal prodotto dei percorsi a e b (\(a \times b\)). L’approccio bayesiano è particolarmente potente per stimare questo effetto, poiché ci permette di ottenere una distribuzione di probabilità completa per \(a \times b\), invece di un singolo valore puntuale e un p-value.
Per illustrare, simuliamo dei dati in R che rispecchino la nostra ipotesi.
set.seed(42)
n_per_group <- 40
n <- n_per_group * 2
# Gruppo 0: Controllo, Gruppo 1: Trattamento
group <- rep(c(0, 1), each = n_per_group)
# Path 'a': Il trattamento aumenta l'autoefficacia di circa 8 punti.
# Aggiungiamo un termine di errore con deviazione standard 5.
a_path <- 8
self_efficacy <- rnorm(n, mean = 40 + a_path * group, sd = 5)
# Path 'b': Ogni punto di autoefficacia riduce la depressione di 0.7 punti.
# Path 'c'': Ipotizziamo un piccolo effetto diretto del trattamento (-1.5 punti).
# Aggiungiamo un termine di errore con deviazione standard 4.
b_path <- -0.7
c_prime_path <- -1.5
depression <- rnorm(n, mean = 30 + b_path * self_efficacy + c_prime_path * group, sd = 4)
# Creazione del dataframe
dati <- tibble(
group = factor(group, labels = c("Controllo", "Psicoterapia")),
self_efficacy,
depression
)
Un Primo Sguardo: Confronto tra le Medie
Un’analisi preliminare può confrontare i livelli medi di depressione tra i due gruppi.
Questo mostra un effetto complessivo (il gruppo “Psicoterapia” ha una media di depressione più bassa), ma non ci permette di capire come l’intervento funzioni, ovvero se l’effetto sia mediato dall’autoefficacia.
Costruzione del Modello di Mediazione Bayesiano
Per stimare l’effetto indiretto, definiamo un sistema di due equazioni di regressione che corrispondono ai percorsi del nostro modello:
- Modello per il mediatore (\(M\)): \(self\_efficacy \sim \mathcal{N}(\alpha_M + a \cdot group, \sigma_M)\)
- Modello per l’esito (\(Y\)): \(depression \sim \mathcal{N}(\alpha_Y + c' \cdot group + b \cdot self\_efficacy, \sigma_Y)\)
Usiamo il pacchetto brms
per fittare questi due modelli.
# Modello 1: Stima del percorso 'a' (group -> self_efficacy)
fit1 <- brm(
bf(self_efficacy ~ group),
data = dati,
family = gaussian(),
seed = 42,
refresh = 0,
backend = "cmdstanr"
)
# Modello 2: Stima dei percorsi 'b' (self_efficacy -> depression) e 'c'' (group -> depression)
fit2 <- brm(
bf(depression ~ self_efficacy + group),
data = dati,
family = gaussian(),
seed = 42,
refresh = 0,
backend = "cmdstanr"
)
Stima e Interpretazione dell’Effetto Indiretto
Ora combiniamo i risultati. Estraiamo i campioni dalla distribuzione a posteriori per il coefficiente del percorso a (b_groupPsicoterapia
da fit1
) e per il percorso b (b_self_efficacy
da fit2
). Il loro prodotto ci fornirà la distribuzione a posteriori dell’effetto indiretto (\(a \times b\)).
# Estrazione dei campioni dalle distribuzioni a posteriori
post_fit1 <- as_draws_df(fit1)
post_fit2 <- as_draws_df(fit2)
# Calcolo della distribuzione a posteriori dell'effetto indiretto
indirect_effect <- post_fit1$b_groupPsicoterapia * post_fit2$b_self_efficacy
Analizziamo la distribuzione dell’effetto indiretto calcolandone la media e l’intervallo di credibilità al 95%.
L’analisi bayesiana restituisce una stima media dell’effetto indiretto di circa -5.4 e un intervallo di credibilità al 95% che va da circa -7.7 a -3.4.
Interpretazione Clinica
Poiché l’intervallo di credibilità non contiene lo zero, abbiamo una forte evidenza a favore di un effetto di mediazione. Possiamo comunicare il risultato in modo intuitivo e probabilistico:
“C’è una probabilità del 95% che la riduzione media dei sintomi depressivi, attribuibile all’aumento di autoefficacia indotto dalla psicoterapia, sia compresa tra 3.4 e 7.7 punti sulla scala della depressione.”
Questa formulazione è più informativa di un semplice p-value. Non solo ci dice che l’effetto è “statisticamente significativo”, ma ne quantifica la magnitudine e la nostra incertezza su di essa, fornendo uno strumento molto più ricco per la valutazione clinica e la presa di decisioni. Invece di un p-value, otteniamo un intervallo di credibilità, ad esempio: “Con probabilità del 95%, l’intervento riduce la depressione attraverso l’autoefficacia di almeno 3.4 punti.” Questa formulazione è più intuitiva e direttamente utile per decisioni cliniche.
Vantaggi principali dell’inferenza bayesiana
L’approccio bayesiano presenta diversi vantaggi chiave: le assunzioni del modello sono esplicitate attraverso le distribuzioni a priori; la modellizzazione è flessibile e adattabile a processi psicologici complessi; le conclusioni si esprimono in termini probabilistici e non binari; l’approccio si adatta bene anche a campioni piccoli, grazie all’incorporazione di conoscenze pregresse.
Applicazioni pratiche
L’inferenza bayesiana non è una curiosità teorica: è ampiamente utilizzata in moltissimi contesti applicativi. Nei sistemi di raccomandazione (Netflix, Spotify), le preferenze degli utenti vengono aggiornate in tempo reale attraverso modelli bayesiani. Nei test A/B su larga scala (Google, Meta), il framework bayesiano consente di monitorare gli esperimenti in tempo reale, di interromperli precocemente se necessario, e di sfruttare esperienze passate per informare nuovi studi.
In medicina, l’approccio bayesiano è implicito nel modo in cui i medici interpretano i test diagnostici: combinano la prevalenza della malattia, la sensibilità e la specificità del test per stimare la probabilità che il paziente sia malato. Lo stesso accade nella finanza comportamentale, nella guida autonoma e nell’epidemiologia, come dimostrato durante la pandemia da COVID-19, dove i modelli bayesiani hanno permesso di stimare in tempo reale la diffusione del virus e l’efficacia delle misure di contenimento.
Anche nella ricerca psicologica l’inferenza bayesiana offre strumenti preziosi: consente di aggregare evidenze da studi precedenti, modellare la variabilità individuale, personalizzare gli interventi in tempo reale e formulare inferenze utili per la pratica clinica. È uno strumento che rafforza il legame tra teoria, dati e decisione.
Perché queste applicazioni funzionano?
Il successo dei metodi bayesiani si fonda su tre caratteristiche fondamentali: la capacità di aggiornarsi continuamente con l’arrivo di nuovi dati, l’integrazione sistematica delle conoscenze pregresse, e una gestione sofisticata dell’incertezza, che non si riduce a un singolo valore ma si esprime come una distribuzione completa.
Oltre la differenza tra medie: inferenza bayesiana unidimensionale
In questa sezione esploreremo i fondamenti dell’inferenza bayesiana applicata alla stima di un singolo parametro scalare, una situazione molto frequente nella ricerca psicologica e nelle scienze sociali. Esempi tipici includono la stima della proporzione di pazienti che rispondono a un trattamento, della media di un punteggio di ansia in una popolazione, della frequenza di un evento raro, o della durata media di un episodio clinico.
Analizzeremo quattro modelli statistici fondamentali:
- il modello binomiale per la stima di proporzioni;
- il modello normale per la stima di medie di variabili continue;
- il modello di Poisson per il conteggio di eventi;
- il modello esponenziale per l’analisi del tempo tra eventi.
Per ciascuno di questi modelli, approfondiremo il processo di aggiornamento bayesiano: come la verosimiglianza interagisce con la distribuzione a priori per produrre la distribuzione a posteriori. Presenteremo due metodi principali per ottenere quest’ultima: l’approssimazione numerica tramite griglia, adatta per problemi didattici e semplici, e l’impiego delle distribuzioni coniugate, che permettono soluzioni analitiche eleganti ed efficienti.
Dedicheremo particolare attenzione all’influenza delle scelte a priori, alla sintesi della distribuzione a posteriori attraverso medie, intervalli di credibilità e rappresentazioni grafiche, e al significato delle inferenze bayesiane in un contesto psicologico.
Nel quadro della crisi di replicabilità che ha colpito la psicologia, l’inferenza bayesiana si distingue come una risposta metodologica matura. Essa evita le decisioni arbitrarie basate su soglie di significatività e promuove un’interpretazione più sfumata, trasparente e cumulativa dei risultati empirici, aprendo la strada a una scienza psicologica più affidabile e teoricamente informata (Gelman et al., 1995; McElreath, 2020).