here::here("code", "_common.R") |>
source()
# Load packages
if (!requireNamespace("pacman")) install.packages("pacman")
pacman::p_load(mice)
Appendice J — Altre famiglie coniugate
Nei capitoli precedenti abbiamo visto come il concetto di coniugazione renda particolarmente semplice l’aggiornamento bayesiano. L’esempio Beta–Binomiale ci ha permesso di osservare in modo diretto come i parametri della distribuzione vengano modificati dai dati senza cambiare la forma della distribuzione stessa.
In questa appendice presentiamo altri casi di famiglie coniugate, meno immediati ma ugualmente interessanti. L’obiettivo non è memorizzare formule o cataloghi di distribuzioni, ma cogliere un principio generale: in alcune situazioni fortunate, i calcoli bayesiani diventano particolarmente trasparenti, perché il posterior appartiene alla stessa famiglia della prior.
Dal punto di vista della ricerca psicologica, non è indispensabile padroneggiare tutti questi casi. Nella pratica, la maggior parte dei modelli che incontreremo non ammetterà una forma coniugata, e dovremo ricorrere a metodi computazionali generali come il campionamento MCMC. Tuttavia, conoscere queste famiglie ha due vantaggi didattici:
- permette di consolidare l’intuizione su come i dati aggiornano i parametri, in contesti diversi da quello binomiale;
- aiuta a riconoscere situazioni in cui i calcoli possono essere svolti senza simulazioni, facilitando l’analisi.
Se è la prima volta che affronti questi argomenti, puoi leggere questa sezione in modo rapido, come un approfondimento facoltativo. Nei capitoli successivi torneremo a concentrarci sui metodi computazionali, che costituiscono lo strumento essenziale per affrontare i problemi psicologici reali.
Panoramica del capitolo
- Introdurre il modello Normale-Normale come esempio di famiglia coniugata.
- Mostrare come combinare prior e verosimiglianza per ottenere la distribuzione a posteriori.
- Calcolare media e varianza a posteriori in forma chiusa.
- Interpretare il ruolo relativo di prior e dati nell’aggiornamento bayesiano.
- Applicare il modello a casi concreti (tempi di reazione, punteggi di QI).
J.1 Perché scegliere una distribuzione normale?
La scelta di una distribuzione a priori (e di una verosimiglianza) Normale offre numerosi vantaggi, sia dal punto di vista teorico che pratico:
Simmetria e Adattabilità: La caratteristica forma “a campana” e simmetrica della distribuzione Normale ben si adatta a descrivere molti fenomeni naturali, psicologici e cognitivi, come i tempi di reazione, i punteggi di abilità, o gli errori di misurazione. Questa simmetria facilita l’interpretazione della media \(\mu\) come misura di tendenza centrale e della varianza \(\sigma^2\) come misura della dispersione o incertezza.
Efficienza Parametrica: Nel modello Normale-Normale con varianza nota, l’incertezza sulla media \(\mu\) nella distribuzione a priori è descritta dal singolo parametro \(\sigma_0^2\) (la varianza della prior). Analogamente, la variabilità dei dati è descritta da \(\sigma^2\). Questa parsimonia parametrica semplifica sia la fase di modellizzazione sia la comunicazione dei risultati.
Convergenza con l’Inferenza Classica: Per campioni di dati sufficientemente ampi, le stime bayesiane ottenute con il modello Normale tendono a convergere verso quelle dell’inferenza frequentista. Questa proprietà, legata al teorema di Bernstein-von Mises, è talvolta indicata come calibrazione asintotica e fa sì che il modello Normale-Normale possa agire da ponte tra i due paradigmi inferenziali.
Semplicità Computazionale: Le operazioni matematiche tra distribuzioni Normali (come il prodotto richiesto dal teorema di Bayes) risultano in un’altra distribuzione Normale. Questo permette di ottenere soluzioni analitiche in forma chiusa per i parametri della distribuzione a posteriori, evitando la necessità di ricorrere a metodi di approssimazione numerica complessi, come le simulazioni Monte Carlo Markov Chain (MCMC), almeno nei casi più semplici.
In sintesi: se le nostre conoscenze preliminari suggeriscono una distribuzione unimodale e simmetrica per il parametro di interesse, o se ci aspettiamo che la distribuzione a posteriori abbia tali caratteristiche (cosa spesso favorita dal Teorema del Limite Centrale quando si ha un campione ampio), la distribuzione Normale rappresenta una scelta robusta, elegante e computazionalmente vantaggiosa per condurre un’inferenza rigorosa.
J.2 Inferenza bayesiana per la media di una popolazione normale (varianza nota)
Immaginiamo di voler stimare il tempo medio di reazione \(\mu\) (in millisecondi, ms) di una popolazione di studenti impegnati in un compito Stroop. Supponiamo di aver raccolto i tempi di reazione \(y_1, \dots, y_n\) da un campione di \(n\) studenti. Assumiamo che questi dati provengano da una distribuzione Normale \(y_i \sim \mathcal{N}(\mu, \sigma^2)\) e, per semplificare inizialmente il modello, assumiamo che la varianza \(\sigma^2\) della popolazione sia nota (ad esempio, da studi precedenti o dalla natura standardizzata del compito). Sia \(\sigma = 50\) ms la deviazione standard nota.
J.2.1 I tre passi fondamentali dell’inferenza bayesiana
Il processo di inferenza bayesiana si articola nei seguenti passaggi chiave:
Passo | Significato Intuitivo | Formalizzazione Matematica (Modello Normale-Normale) |
---|---|---|
A. Distribuzione a Priori | Le nostre convinzioni iniziali sulla media \(\mu\). | \(\mu \sim \mathcal{N}(\mu_0, \sigma_0^2)\) |
B. Verosimiglianza dei Dati | L’informazione su \(\mu\) contenuta nei dati osservati. | \(y_i \stackrel{\text{iid}}{\sim} \mathcal{N}(\mu, \sigma^2)\) |
C. Distribuzione a Posteriori | Le nostre convinzioni aggiornate su \(\mu\) dopo i dati. | \(\mu \mid \mathbf{y} \sim \mathcal{N}(\mu_p, \sigma_p^2)\) |
Quando la varianza \(\sigma^2\) dei dati è nota e la prior per \(\mu\) è Normale, la distribuzione Normale è coniugata per la media \(\mu\). Ciò significa che la distribuzione a posteriori per \(\mu\) sarà anch’essa Normale, mantenendo la stessa forma funzionale attraverso l’aggiornamento bayesiano.
J.2.2 Distribuzione a priori
\(\mu \sim \mathcal{N}(\mu_0,\sigma_0^2)\): descrive dove crediamo sia \(\mu\) e quanta incertezza abbiamo, una varianza grande significa poca informazione.
J.2.3 Verosimiglianza
\[ p(y\mid\mu,\sigma)=\prod_{i=1}^{n}\frac{1}{\sigma\sqrt{2\pi}} \exp\!\Bigl[-\tfrac{(y_i-\mu)^2}{2\sigma^2}\Bigr]. \]
J.2.4 Teorema di Bayes
Il teorema di Bayes combina prior e verosimiglianza attraverso un prodotto ponderato:
\[ p(\mu\mid y)=\frac{p(y\mid\mu)\,p(\mu)}{p(y)} \;\; \propto\;\; \underbrace{\mathcal{N}(\mu_0,\sigma_0^2)}_{\text{prior}} \; \times \; \underbrace{\mathcal{N}(\bar y,\sigma^2/n)}_{\text{verosimiglianza}} . \] Il prodotto di due distribuzioni gaussiane è una distribuzione gaussiana: basta aggiornare media e varianza.
J.2.5 Media a posteriori
\[ \mu_p=\frac{\tfrac{1}{\sigma_0^2}\,\mu_0 + \tfrac{n}{\sigma^2}\,\bar y} {\tfrac{1}{\sigma_0^2} + \tfrac{n}{\sigma^2}}, \qquad \bar y=\frac{1}{n}\sum_{i=1}^{n}y_i. \tag{J.1}\]
\(\mu_0\): l’idea iniziale.
\(\sigma_0^2\): la fiducia in quell’idea.
\(\bar y\): ciò che dicono i dati.
\(n/\sigma^2\): la quantità di informazione empirica, aumenta con più casi e diminuisce con misure rumorose.
-
Interpretazione: Il peso relativo di prior e dati dipende dalla loro credibilità:
- La prior è influente se ha alta precisione, ovvero 1/\(\sigma_0^2\) è grande, o se ci sono pochi dati, \(n\) piccolo.
- I dati sono dominanti se la prior ha bassa precisione o se c’è un ampio campione.
J.2.6 Varianza a posteriori
\[ \sigma_p^2=\frac{1}{\tfrac{1}{\sigma_0^2}+\tfrac{n}{\sigma^2}}. \tag{J.2}\]
- Proprietà Chiave: \(\sigma_p^2 \le \min(\sigma_0^2, \sigma^2/n)\). L’incertezza diminuisce monotonicamente all’aumentare di \(n\).
- Dialogo Costruttivo: L’inferenza bayesiana è un processo dinamico di dialogo tra le nostre ipotesi iniziali (prior) e l’evidenza empirica (dati/verosimiglianza).
- Calcoli Trasparenti: Con la varianza della popolazione \(\sigma^2\) nota, i calcoli per la media e la varianza a posteriori sono diretti e possono essere eseguiti analiticamente (anche “a mano” per esempi semplici).
- Riduzione Garantita dell’Incertezza: Dopo aver osservato i dati, l’incertezza sul parametro (misurata dalla varianza a posteriori) non può che diminuire o, al limite, rimanere uguale (caso teorico di dati non informativi), rispetto alla varianza a priori.
- Peso dell’Evidenza: Con pochi dati o dati molto “rumorosi” (alta \(\sigma^2\)), la distribuzione a priori esercita un’influenza maggiore sulla stima finale. Con molti dati o dati molto precisi (bassa \(\sigma^2\)), l’informazione proveniente dai dati tende a dominare, e l’influenza della prior sulla stima a posteriori diminuisce.
- Applicabilità Vasta: Lo schema concettuale e matematico del modello Normale-Normale si applica a una vasta gamma di problemi in diverse discipline, inclusa la psicologia sperimentale (es. tempi di reazione, punteggi a test, ampiezze di segnali EEG), l’ingegneria, l’economia, e molte altre aree dove si misurano quantità continue. :::
Riflessioni conclusive
Nei capitoli precedenti abbiamo visto come il concetto di coniugazione renda particolarmente semplice l’aggiornamento bayesiano. L’esempio Beta–Binomiale ci ha permesso di osservare in modo diretto come i parametri della distribuzione vengano modificati dai dati senza cambiare la forma della distribuzione stessa.
In questa appendice presentiamo altri casi di famiglie coniugate, meno immediati ma ugualmente interessanti. L’obiettivo non è memorizzare formule o cataloghi di distribuzioni, ma cogliere un principio generale: in alcune situazioni fortunate, i calcoli bayesiani diventano particolarmente trasparenti, perché il posterior appartiene alla stessa famiglia della prior.
Dal punto di vista della ricerca psicologica, non è indispensabile padroneggiare tutti questi casi. Nella pratica, la maggior parte dei modelli che incontreremo non ammetterà una forma coniugata, e dovremo ricorrere a metodi computazionali generali come il campionamento MCMC. Tuttavia, conoscere queste famiglie ha due vantaggi didattici:
- permette di consolidare l’intuizione su come i dati aggiornano i parametri, in contesti diversi da quello binomiale;
- aiuta a riconoscere situazioni in cui i calcoli possono essere svolti senza simulazioni, facilitando l’analisi.
Se è la prima volta che affronti questi argomenti, puoi leggere questa sezione in modo rapido, come un approfondimento facoltativo. Nei capitoli successivi torneremo a concentrarci sui metodi computazionali, che costituiscono lo strumento essenziale per affrontare i problemi psicologici reali.