52  Sintesi a posteriori

In questo capitolo imparerai a
  • verificare, pulire e trasformare i dati
  • applicare regole coerenti per denominazione e codifica
Prerequisiti
  • Leggere il capitolo Posterior Inference & Prediction del testo di Johnson et al. (2022).
Preparazione del Notebook
here::here("code", "_common.R") |> 
  source()

# Load packages
if (!requireNamespace("pacman")) install.packages("pacman")
pacman::p_load(mice)

52.1 Introduzione

In questo capitolo, concentriamo la nostra attenzione sulla sintesi dell’informazione racchiusa nella distribuzione a posteriori, la quale rappresenta il nostro livello di incertezza riguardo al parametro o ai parametri incogniti oggetto dell’inferenza.

52.2 Riepilogo numerico

La distribuzione a posteriori contiene in sé tutte le informazioni disponibili sui potenziali valori del parametro. Nel caso di un parametro unidimensionale o bidimensionale, possiamo rappresentare la distribuzione a posteriori mediante un grafico \(p(\theta \mid y)\).

Tuttavia, quando ci troviamo di fronte a vettori di parametri con più di due dimensioni, risulta vantaggioso eseguire una sintesi numerica della distribuzione a posteriori. Possiamo distinguere due forme di sintesi numerica della distribuzione a posteriori:

  • Stima puntuale;
  • Intervallo di credibilità.

52.3 Stima puntuale

Nel contesto dell’inferenza bayesiana, stimare il valore più credibile di un parametro \(\theta\) a partire dalla distribuzione a posteriori può avvenire attraverso tre statistiche principali: moda, mediana e media. La scelta tra queste dipende dalla forma della distribuzione a posteriori.

Queste statistiche forniscono una stima puntuale della tendenza centrale della distribuzione, ossia il valore a cui attribuiamo il massimo grado di fiducia soggettiva, basandoci sia sui dati osservati sia sulle credenze a priori.

1. Moda (Massimo a Posteriori, MAP)

La moda è il valore più probabile del parametro, ovvero quello che massimizza la distribuzione a posteriori. Questo valore è noto come massimo a posteriori (MAP).

Il concetto di MAP deriva dalla stima di massima verosimiglianza (MLE), che individua il valore di \(\theta\) che massimizza la funzione di verosimiglianza:

\[ \hat{\theta}_{ML} = \arg \max_\theta L(\theta \mid y). \]

Nell’inferenza bayesiana, consideriamo \(\theta\) come una variabile casuale con una distribuzione a priori \(p(\theta)\). Incorporando questa informazione nella funzione di verosimiglianza, otteniamo la stima MAP:

\[ \hat{\theta}_{MAP} = \arg \max_\theta L(\theta \mid y)p(\theta). \]

Questa formula mostra che il MAP è il valore che massimizza la densità a posteriori di \(\theta\) dato il set di dati osservati \(y\).

Limitazioni della stima MAP:

  • Difficoltà computazionali: con metodi MCMC, è complesso individuare con precisione il MAP nello spazio delle distribuzioni posteriori.
  • Sensibilità alla forma della distribuzione: se la distribuzione a posteriori è asimmetrica o multimodale, il MAP potrebbe non rappresentare adeguatamente la tendenza centrale.
  • Minor robustezza rispetto ad altre misure: il MAP si basa esclusivamente sul valore massimo della distribuzione e non tiene conto della distribuzione complessiva della probabilità.

2. Media a posteriori

La media a posteriori è il valore atteso di \(\theta\) secondo la distribuzione a posteriori:

\[ E(\theta \mid y) = \int_{-\infty}^{\infty} \theta \, p(\theta \mid y) \, d\theta. \]

Questa stima è spesso preferita perché considera l’intera distribuzione e minimizza l’errore quadratico medio (Mean Squared Error, MSE). Tuttavia, se la distribuzione a posteriori è asimmetrica, la media potrebbe non rappresentare bene la posizione della maggior parte della probabilità.

3. Mediana a posteriori

La mediana a posteriori è il valore che divide la distribuzione a posteriori in due parti uguali, con il 50% della probabilità a sinistra e il 50% a destra.

La mediana è una stima robusta della tendenza centrale ed è particolarmente utile in distribuzioni asimmetriche o multimodali, dove la moda e la media potrebbero risultare fuorvianti.

Misurare l’incertezza: varianza a posteriori

Oltre a stimare la tendenza centrale, è utile valutare l’incertezza associata alla stima di \(\theta\). La varianza a posteriori misura la dispersione della distribuzione:

\[ V(\theta|y) = E[((\theta - E[(\theta|y)])^2 |y) = \int_{-\infty}^{\infty} (\theta - E[\theta | y])^2 p(\theta | y) d\theta = E[\theta^2 |y] - E[\theta|y]^2. \]

La deviazione standard a posteriori (radice quadrata della varianza) esprime l’incertezza sulla stima \(\theta\) con la stessa unità di misura dei dati.

In sintesi, la moda (MAP), la media e la mediana a posteriori offrono diverse prospettive sulla stima puntuale di un parametro \(\theta\). Ciascuna ha vantaggi e limiti, e la scelta migliore dipende dalla forma della distribuzione a posteriori e dal contesto applicativo.

Insieme alla varianza a posteriori, queste statistiche forniscono un quadro completo della distribuzione a posteriori, permettendo di esprimere non solo la stima più credibile, ma anche l’incertezza associata.

52.4 Intervallo di credibilità

Nell’inferenza bayesiana, l’intervallo di credibilità è uno strumento utilizzato per definire un intervallo che contiene una determinata percentuale della massa della distribuzione a posteriori del parametro \(\theta\). Questo intervallo riflette l’incertezza associata alla stima del parametro: un intervallo più ampio suggerisce una maggiore incertezza. Lo scopo principale dell’intervallo di credibilità è fornire una misura quantitativa dell’incertezza riguardante \(\theta\).

A differenza degli intervalli di confidenza frequentisti, non esiste un unico intervallo di credibilità per un dato livello di confidenza \((1 - \alpha) \cdot 100\%\). In effetti, è possibile costruire un numero infinito di tali intervalli. Per questo motivo, è necessario stabilire criteri aggiuntivi per selezionare l’intervallo di credibilità più appropriato. Tra le opzioni più comuni ci sono l’intervallo di credibilità simmetrico e l’intervallo di massima densità posteriore (HPD).

1. Intervallo di Credibilità Simmetrico

Questo tipo di intervallo è centrato rispetto al punto di stima puntuale. Se \(\hat{\theta}\) rappresenta la stima del parametro, l’intervallo simmetrico avrà la forma \((\hat{\theta} - a, \hat{\theta} + a)\), dove \(a\) è un valore positivo scelto in modo tale che la massa totale inclusa sia pari a \((1 - \alpha)\). Più formalmente, un intervallo di credibilità simmetrico al livello \(\alpha\) può essere espresso come:

\[ I_{\alpha} = [q_{\alpha/2}, q_{1 - \alpha/2}], \]

dove \(q_z\) rappresenta il quantile \(z\) della distribuzione a posteriori. Ad esempio, un intervallo di credibilità simmetrico al 94% sarà:

\[ I_{0.06} = [q_{0.03}, q_{0.97}], \]

dove il 3% della massa a posteriori si trova in ciascuna delle due code della distribuzione.

2. Intervallo di Credibilità Più Stretto (Intervallo di Massima Densità Posteriore, HPD)

L’intervallo di massima densità posteriore (HPD) è l’intervallo più stretto possibile che contiene il \((1 - \alpha) \cdot 100\%\) della massa a posteriori. A differenza dell’intervallo simmetrico, l’HPD include tutti i valori di \(\theta\) che hanno la maggiore densità a posteriori. Per costruirlo, si disegna una linea orizzontale sulla distribuzione a posteriori e si regola l’altezza della linea in modo che l’area sotto la curva corrisponda a \((1 - \alpha)\). L’HPD risulta essere il più stretto tra tutti gli intervalli possibili per lo stesso livello di confidenza. Nel caso di una distribuzione a posteriori unimodale e simmetrica, l’HPD coincide con l’intervallo di credibilità simmetrico.

52.4.1 Interpretazione

Il calcolo degli intervalli di credibilità, in particolare dell’intervallo di massima densità posteriore (HPD), richiede spesso l’uso di software statistici avanzati. Questo perché determinare manualmente tali intervalli può essere complicato, soprattutto nei modelli bayesiani con distribuzioni posteriori complesse o quando sono necessarie simulazioni numeriche per stimare la distribuzione a posteriori.

Un aspetto cruciale dell’inferenza bayesiana riguarda l’interpretazione dell’incertezza. Nel contesto frequentista, si considera il parametro, come ad esempio la media della popolazione \(\mu\), come un valore fisso ma sconosciuto. L’inferenza frequentista si basa sull’immaginare un numero infinito di campioni ripetuti dalla popolazione. Per ogni campione, si può calcolare una media campionaria \(\bar{x}\) e formare un intervallo di confidenza al \(100(1-\alpha)\%\). L’interpretazione corretta in termini frequentisti è che, nel lungo periodo, il \(100(1-\alpha)\%\) degli intervalli di confidenza costruiti con questo metodo conterrà il vero valore del parametro \(\mu\). Tuttavia, per un singolo intervallo calcolato, la probabilità che contenga effettivamente \(\mu\) è o 0 o 1, poiché \(\mu\) è considerato un valore fisso.

Nel framework bayesiano, invece, il parametro è trattato come una variabile aleatoria con una distribuzione di probabilità. Campionando dalla distribuzione a posteriori dei parametri, possiamo ottenere quantili che ci permettono di calcolare direttamente la probabilità che un parametro rientri in un determinato intervallo. Ad esempio, un intervallo di credibilità al 95% indica che c’è una probabilità del 95% che il parametro sia contenuto all’interno di quell’intervallo, data l’evidenza osservata. Questa interpretazione differisce profondamente da quella frequentista e risulta più intuitiva, poiché riflette direttamente il grado di incertezza che abbiamo riguardo al parametro.

In sintesi, mentre l’intervallo di confidenza frequentista riguarda la ripetizione ipotetica del campionamento, l’intervallo di credibilità bayesiano fornisce una misura diretta dell’incertezza attuale sul valore di un parametro, basata sui dati osservati e sulle informazioni a priori. Questo approccio è spesso considerato più vicino al senso comune quando si tratta di interpretare la probabilità associata ai parametri.

52.5 Verifica di ipotesi bayesiana

L’inferenza bayesiana può essere applicata anche nel contesto della verifica di ipotesi, in un approccio noto come verifica di ipotesi bayesiana. In questo tipo di inferenza, l’obiettivo è valutare la plausibilità che un parametro \(\theta\) assuma valori all’interno di un determinato intervallo. Ad esempio, possiamo voler sapere quanto è probabile che \(\theta\) sia maggiore di 0.5 o che rientri in un intervallo specifico, come [0.5, 1.0].

In questo approccio, si calcola la probabilità a posteriori che \(\theta\) si trovi all’interno dell’intervallo di interesse. Questa probabilità viene ottenuta integrando la distribuzione a posteriori su tale intervallo. Quindi, invece di rifiutare o accettare un’ipotesi come nel test di ipotesi frequentista, la verifica di ipotesi bayesiana fornisce una misura diretta della probabilità che un parametro rientri in un intervallo specifico, dato l’evidenza osservata e le informazioni a priori.

In altre parole, questo approccio consente di quantificare la nostra incertezza rispetto all’affermazione che \(\theta\) rientri in un certo intervallo, fornendo una probabilità che rappresenta direttamente la plausibilità di quell’ipotesi.

Esempio 52.1 Per illustrare l’approccio bayesiano, consideriamo i dati relativi ai punteggi del BDI-II (Beck Depression Inventory - Second Edition) di 30 soggetti clinici, come riportato nello studio condotto da Zetsche et al. (2019). Il BDI-II è uno strumento per valutare la gravità dei sintomi depressivi.

I punteggi del BDI-II per i 30 soggetti sono:

# Dati del BDI-II
bdi <- c(
  26, 35, 30, 25, 44, 30, 33, 43, 22, 43, 
  24, 19, 39, 31, 25, 28, 35, 30, 26, 31, 
  41, 36, 26, 35, 33, 28, 27, 34, 27, 22
)
bdi
#>  [1] 26 35 30 25 44 30 33 43 22 43 24 19 39 31 25 28 35 30 26 31 41 36 26 35
#> [25] 33 28 27 34 27 22

Un punteggio BDI-II \(\geq 30\) indica un livello grave di depressione. Nel nostro campione, 17 pazienti su 30 manifestano un livello grave:

# Conteggio di depressione grave
sum(bdi >= 30)
#> [1] 17

Stima della distribuzione a posteriori.

Supponiamo di voler stimare la probabilità \(\theta\) di depressione grave nei pazienti clinici utilizzando una distribuzione a priori \(Beta(8, 2)\). I dati possono essere visti come una sequenza di prove Bernoulliane indipendenti, dove la presenza di depressione grave è un “successo”. La verosimiglianza è quindi binomiale con parametri \(n = 30\) e \(y = 17\).

Con una distribuzione a priori \(Beta(8, 2)\), la distribuzione a posteriori di \(\theta\) sarà:

\[ \text{Beta}(\alpha = 8 + 17, \beta = 2 + 30 - 17) = \text{Beta}(25, 15). \]

Tracciamo la distribuzione a posteriori.

# Parametri della distribuzione Beta
alpha <- 25
beta <- 15

# Calcolo della densità per valori di theta
theta <- seq(0, 1, length.out = 200)
posterior_density <- dbeta(theta, alpha, beta)

# Grafico della distribuzione a posteriori
ggplot(data = data.frame(theta, posterior_density), aes(x = theta, y = posterior_density)) +
  geom_line() +
  labs(
    title = "Distribuzione a Posteriori Beta(25, 15)",
    x = expression(theta),
    y = "Densità di probabilità"
  ) 

Stime puntuali.

  1. Media a Posteriori
    La media della distribuzione a posteriori è calcolata come:

\[ \mathbb{E}(\theta | y = 17) = \frac{\alpha}{\alpha + \beta} = \frac{25}{25 + 15} = 0.625. \]

In R:

# Calcolo della media a posteriori
posterior_mean <- alpha / (alpha + beta)
posterior_mean
#> [1] 0.625
  1. Moda a Posteriori (MAP)
    La moda della distribuzione a posteriori è:

\[ Mo(\theta | y = 17) = \frac{\alpha - 1}{\alpha + \beta - 2} = \frac{25 - 1}{25 + 15 - 2} = 0.6316. \]

In R:

# Calcolo della moda a posteriori
posterior_mode <- (alpha - 1) / (alpha + beta - 2)
posterior_mode
#> [1] 0.6316
  1. Mediana a Posteriori
    La mediana si ottiene utilizzando la funzione di distribuzione cumulativa inversa:
# Calcolo della mediana a posteriori
posterior_median <- qbeta(0.5, alpha, beta)
posterior_median
#> [1] 0.6271

Intervallo di credibilità.

L’intervallo di credibilità simmetrico al 94% è dato dai percentili 3% e 97%:

# Intervallo di credibilità simmetrico al 94%
cred_interval <- qbeta(c(0.03, 0.97), alpha, beta)
cred_interval
#> [1] 0.4781 0.7613

Possiamo interpretare questo intervallo come segue: c’è una certezza soggettiva del 94% che \(\theta\) sia compreso tra 0.478 e 0.761.

Verifica di ipotesi bayesiana.

Infine, calcoliamo la probabilità che \(\theta > 0.5\):

\[ P(\theta > 0.5 | y = 17) = \int_{0.5}^1 f(\theta | y = 17) d\theta. \]

In R:

# Probabilità P(theta > 0.5)
prob_theta_greater_0_5 <- pbeta(0.5, alpha, beta, lower.tail = FALSE)
prob_theta_greater_0_5
#> [1] 0.9459

In conclusione, utilizzando un approccio bayesiano, abbiamo stimato la distribuzione a posteriori di \(\theta\), ottenuto stime puntuali e costruito intervalli di credibilità. Abbiamo inoltre calcolato la probabilità che \(\theta\) superi una soglia specifica, mostrando la flessibilità e l’interpretabilità delle analisi bayesiane.

52.6 Sintesi della distribuzione a posteriori: questioni multivariate

Quando si affronta un’analisi bayesiana con più parametri, la complessità aumenta. Le principali difficoltà riguardano le interazioni tra i parametri e il modo in cui queste influenzano le distribuzioni marginali. Questi fattori possono complicare notevolmente la sintesi della distribuzione a posteriori e, se non considerati attentamente, possono portare a interpretazioni errate.

52.6.1 Correlazioni nascoste e distribuzioni marginali

Un problema comune nelle analisi con più parametri è rappresentato dalle correlazioni tra i parametri. Le distribuzioni marginali a posteriori, spesso riportate nei riassunti statistici, possono essere molto fuorvianti se considerate isolatamente. Quando i parametri sono fortemente correlati, le distribuzioni marginali possono apparire piatte o poco informative, inducendo a pensare che non ci sia molta informazione nella verosimiglianza.

Tuttavia, le correlazioni tra parametri possono restringere notevolmente lo spazio delle combinazioni plausibili, escludendo vaste aree dello spazio dei parametri. Questo significa che, nonostante le marginali possano sembrare non informative, l’analisi congiunta dei parametri può rivelare una struttura sottostante che riduce l’incertezza su specifiche combinazioni. Pertanto, è essenziale esaminare le correlazioni congiunte tra i parametri per ottenere una visione più completa dell’incertezza.

Con un numero maggiore di parametri, anche i grafici di correlazione bidimensionali possono diventare limitati, poiché potrebbero esistere correlazioni di ordine superiore che non emergono in rappresentazioni a due dimensioni.

52.6.2 Correlazioni non lineari

Un’altra difficoltà significativa riguarda le correlazioni non lineari tra i parametri. Quando queste correlazioni sono presenti, il massimo delle distribuzioni marginali non coincide necessariamente con il massimo della distribuzione congiunta. Per esempio, se due parametri presentano una correlazione complessa, come una forma a “banana”, il massimo delle distribuzioni marginali potrebbe trovarsi in una posizione diversa rispetto al massimo globale della distribuzione congiunta.

Questo fenomeno rende più difficile sintetizzare correttamente la distribuzione a posteriori. In tali casi, la stima del massimo a posteriori (MAP) o altri riassunti, come gli intervalli di credibilità (CI) o gli intervalli di massima densità a posteriori (HPD), calcolati sulle marginali, potrebbero essere fuorvianti. Quando la distribuzione a posteriori è asimmetrica nello spazio multivariato, le distribuzioni marginali non catturano adeguatamente le relazioni tra i parametri. Questa è una fonte comune di confusione, poiché si tende a sottovalutare l’importanza della struttura multivariata nella distribuzione a posteriori.

52.6.3 Strategie per affrontare queste sfide

  1. Confronto tra distribuzioni predittive:

    • Confrontare la distribuzione predittiva a priori con quella a posteriori offre una visione più completa della riduzione dell’incertezza.
    • Questo approccio è particolarmente utile in presenza di parametri multipli e correlazioni complesse, poiché la distribuzione predittiva a posteriori incorpora le interazioni tra i parametri, fornendo una rappresentazione più accurata della plausibilità dei diversi valori parametrici.
  2. Analisi congiunta:

    • Esaminare le distribuzioni congiunte dei parametri, oltre alle distribuzioni marginali.
    • Utilizzare grafici di dispersione bivariati o multivariati per visualizzare le relazioni tra i parametri.
    • Tecniche avanzate di visualizzazione, come i pair plots o le heatmap, possono essere utili per esplorare relazioni in spazi ad alta dimensionalità.
  3. Misure di dipendenza:

    • Utilizzare misure di dipendenza non lineare, come la correlazione di Spearman o l’informazione mutua, che possono catturare relazioni complesse che le misure lineari tradizionali potrebbero non rilevare.
  4. Analisi di sensibilità:

    • Condurre un’analisi di sensibilità per valutare come i cambiamenti in un parametro influenzano gli altri parametri e le previsioni del modello. Questo permette di capire meglio le relazioni tra i parametri e il loro impatto sulle inferenze.
  5. Tecniche di riduzione della dimensionalità:

    • Quando ci sono molti parametri, l’uso di metodi come l’analisi delle componenti principali (PCA) può aiutare a identificare strutture latenti e ridurre la complessità del problema, facilitando l’interpretazione dei risultati.

In sintesi, l’analisi multivariata in un contesto bayesiano richiede particolare attenzione nella sintesi delle distribuzioni a posteriori. Le distribuzioni marginali possono fornire informazioni utili, ma spesso nascondono importanti correlazioni e strutture di dipendenza tra i parametri. Un’analisi completa dovrebbe combinare l’esame delle marginali con una valutazione attenta delle relazioni congiunte tra i parametri, utilizzando tecniche di visualizzazione e misure di dipendenza adeguate. Questo approccio integrato permette di comprendere più a fondo la distribuzione a posteriori e di trarre inferenze più robuste e accurate.

52.7 Riflessioni Conclusive

In conclusione, la distribuzione a posteriori rappresenta la nostra conoscenza aggiornata sui parametri sconosciuti. L’impiego delle statistiche descrittive e l’analisi degli intervalli di credibilità contribuiscono a tracciare un quadro completo della distribuzione a posteriori e delle nostre inferenze riguardo al parametro di interesse.

Le stime puntuali, ottenute attraverso statistiche descrittive come media, mediana o moda a posteriori, offrono una singola valutazione numerica del parametro ignoto. Gli intervalli di credibilità forniscono un intervallo di valori all’interno del quale si ritiene, con un certo grado di probabilità soggettiva, che il parametro incognito possa rientrare. Questi intervalli quantificano l’incertezza associata al parametro e consentono di esprimere il livello di fiducia soggettiva riguardo ai possibili valori del parametro dopo l’analisi dei dati. Abbiamo inoltre esaminato il concetto di test di ipotesi bayesiano, il quale può essere condotto agevolmente calcolando l’area appropriata sotto la distribuzione a posteriori, in accordo con l’ipotesi in questione.

Esercizi

1. Quali sono le principali statistiche utilizzate per la stima puntuale di un parametro nella distribuzione a posteriori?

  • Spiega le differenze tra moda (MAP), media a posteriori e mediana.
  • In quali contesti è preferibile utilizzare una di queste statistiche rispetto alle altre?

2. Qual è la differenza tra un intervallo di credibilità bayesiano e un intervallo di confidenza frequentista?

  • Spiega le differenze concettuali tra i due approcci.
  • Quale dei due è più intuitivo in termini di incertezza sui parametri?

3. Cos’è un intervallo di massima densità posteriore (HPD) e in cosa si differenzia dall’intervallo di credibilità simmetrico?

  • Spiega il concetto di HPD e perché è più informativo in alcuni casi.
  • In quali situazioni l’HPD è preferibile rispetto all’intervallo di credibilità simmetrico?

4. Quali sono le problematiche associate alla moda (MAP) come stima puntuale?

  • Perché il MAP può essere meno affidabile rispetto ad altre statistiche?
  • Quali problemi si possono incontrare nei modelli bayesiani complessi?

5. In che modo la sintesi della distribuzione a posteriori cambia nel caso di più parametri incogniti?

  • Quali sono le principali difficoltà nell’interpretare la distribuzione congiunta di più parametri?
  • Come si possono visualizzare e sintetizzare distribuzioni posteriori multivariate?

📌 Domande applicative in R

Per queste domande, usa il dataset basato sulla Satisfaction with Life Scale (SWLS), supponendo che i dati seguano una distribuzione normale.

1. Calcola la media, la mediana e la moda a posteriori della distribuzione della media SWLS, assumendo una distribuzione a priori gaussiana molto diffusa. - Usa il metodo delle distribuzioni coniugate per ottenere la distribuzione a posteriori.

2. Costruisci un intervallo di credibilità simmetrico al 94% per la media SWLS.

  • Usa la distribuzione normale a posteriori per calcolare l’intervallo.

3. Visualizza la distribuzione a posteriori della media SWLS con un grafico di densità.

  • Genera un campione dalla distribuzione a posteriori e rappresentalo con ggplot2.

4. Confronta l’intervallo di credibilità simmetrico con l’intervallo di massima densità posteriore (HPD).

  • Usa la funzione hdi() del pacchetto bayestestR per calcolare l’HPD.

5. Calcola la probabilità a posteriori che la media SWLS sia minore di 23.

  • Usa la distribuzione a posteriori per calcolare questa probabilità.

1. Quali sono le principali statistiche utilizzate per la stima puntuale di un parametro nella distribuzione a posteriori?

Le tre principali statistiche usate per ottenere una stima puntuale del parametro \(\theta\) nella distribuzione a posteriori sono:

  1. Moda (Massimo a Posteriori, MAP)
    • È il valore di \(\theta\) che massimizza la distribuzione a posteriori \(p(\theta \mid y)\).
    • Se la distribuzione è unimodale e simmetrica, il MAP coincide con la media a posteriori.
    • Il MAP è spesso simile alla stima di massima verosimiglianza (MLE) quando il prior è uniforme.
  2. Media a Posteriori
    • È il valore atteso della distribuzione a posteriori:
      \[ E(\theta \mid y) = \int \theta \, p(\theta \mid y) \, d\theta \]
    • È la stima più utile quando si vuole minimizzare l’errore quadratico medio (MSE).
    • Risente dell’eventuale asimmetria della distribuzione, spostandosi verso le code.
  3. Mediana a Posteriori
    • È il valore che divide la distribuzione a posteriori in due parti uguali:
      \[ P(\theta \leq \theta_{\text{mediana}} \mid y) = 0.5 \]
    • È più robusta agli outlier rispetto alla media ed è utile quando la distribuzione è fortemente asimmetrica.

💡 Quando usarle? - Se la distribuzione è simmetrica, tutte e tre le statistiche coincidono. - Se la distribuzione è asimmetrica, la mediana è più robusta, la media può essere influenzata dalle code e il MAP è utile se si vuole un valore più probabile.

2. Qual è la differenza tra un intervallo di credibilità bayesiano e un intervallo di confidenza frequentista?

Caratteristica Intervallo di Credibilità (Bayesiano) Intervallo di Confidenza (Frequentista)
Significato Esprime la probabilità che il parametro sia nell’intervallo, dati i dati osservati. È una proprietà di un metodo di campionamento: se si ripetesse l’esperimento infinite volte, il \((1 - \alpha)100\%\) degli intervalli conterrebbe il vero valore del parametro.
Approccio Assume che il parametro sia una variabile casuale con una distribuzione di probabilità. Assume che il parametro sia fisso e sconosciuto, mentre i dati sono casuali.
Interpretazione “C’è il 95% di probabilità che il parametro sia tra questi valori.” “Se ripetessimo l’esperimento molte volte, il 95% degli intervalli conterrebbe il vero parametro.”

💡 Differenza fondamentale:

  • L’intervallo di credibilità è probabilistico e più intuitivo: si può direttamente dire che il parametro ha il 95% di probabilità di trovarsi nell’intervallo.
  • L’intervallo di confidenza è basato sulla ripetizione ipotetica dell’esperimento e non può essere interpretato in termini probabilistici sul singolo intervallo.

3. Cos’è un intervallo di massima densità posteriore (HPD) e in cosa si differenzia dall’intervallo di credibilità simmetrico?

L’intervallo di massima densità posteriore (HPD) è l’intervallo più stretto che contiene una percentuale fissata (es. 94%) della distribuzione a posteriori. Si distingue dall’intervallo di credibilità simmetrico perché:

Caratteristica Intervallo HPD Intervallo di Credibilità Simmetrico
Definizione Contiene il \((1 - \alpha)100\%\) della probabilità a posteriori, minimizzando la lunghezza dell’intervallo. È centrato attorno alla mediana e copre una frazione fissa della distribuzione.
Forma Può essere asimmetrico e discontinuo se la distribuzione è multimodale. È sempre simmetrico.
Vantaggio È più informativo se la distribuzione è asimmetrica o multimodale. È più facile da calcolare, specialmente per distribuzioni unimodali.

💡 Quando usarli?

  • Se la distribuzione è simmetrica, entrambi gli intervalli danno risultati simili.
  • Se la distribuzione è asimmetrica o multimodale, l’HPD è più informativo.

4. Quali sono le problematiche associate alla moda (MAP) come stima puntuale?

Sebbene il MAP sia un concetto intuitivo (il valore più probabile della distribuzione a posteriori), presenta alcune limitazioni:

  1. Difficoltà computazionale con MCMC
    • Con metodi di campionamento come Markov Chain Monte Carlo (MCMC), trovare il massimo della distribuzione a posteriori è difficile perché la funzione viene stimata in modo discreto.
    • Spesso si preferisce stimare media o mediana, più facili da calcolare con MCMC.
  2. Sensibilità ai dati e al prior
    • Il MAP dipende fortemente dal prior scelto.
    • Se il prior è informativo, il MAP può spostarsi troppo rispetto ai dati.
  3. Problemi con distribuzioni multimodali
    • Se la distribuzione a posteriori ha più di un massimo (moda), il MAP potrebbe non essere una buona rappresentazione della distribuzione.

💡 Quando evitarlo?
- Se la distribuzione a posteriori è asimmetrica o multimodale. - Se si usa un metodo MCMC, dove la media o la mediana sono più semplici da stimare.

5. In che modo la sintesi della distribuzione a posteriori cambia nel caso di più parametri incogniti?

Quando l’inferenza bayesiana coinvolge più parametri (es. \(\mu\) e \(\sigma\)), l’analisi diventa più complessa per diversi motivi:

  1. Interazioni tra parametri
    • I parametri spesso non sono indipendenti: la distribuzione a posteriori congiunta può mostrare correlazioni che non emergono dalle distribuzioni marginali.
  2. Difficoltà di visualizzazione
    • Per un parametro si usa un istogramma o una funzione di densità.
    • Per due parametri si usa un contour plot o un grafico 3D.
    • Con più di due parametri, si ricorre a pair plots o matrici di correlazione.
  3. Stimare margine e congiunta
    • La distribuzione marginale di un parametro si ottiene integrando la distribuzione congiunta rispetto agli altri parametri: \[ p(\theta_1) = \int p(\theta_1, \theta_2) d\theta_2 \]
    • Se i parametri sono fortemente correlati, le marginali possono nascondere informazioni importanti.
  4. Rischio di correlazioni non lineari
    • Le correlazioni non lineari tra i parametri possono portare a distribuzioni con forme complesse (es. a banana), rendendo difficile la sintesi con MAP o media.

💡 Strategie per affrontare il problema:
- Visualizzare le correlazioni tra i parametri con scatter plot o heatmap.
- Usare tecniche di riduzione della dimensionalità come PCA (Analisi delle Componenti Principali).
- Utilizzare il MCMC per campionare direttamente dalla distribuzione congiunta.

Esercizio in R con i dati SWLS

Nell’esercizio, usa i dati della SWLS che sono stati raccolti. Qui useremo i dati seguenti:

swls_data <- data.frame(
  soddisfazione = c(4.2, 5.1, 4.7, 4.3, 5.5, 4.9, 4.8, 5.0, 4.6, 4.4)
)

1. Calcola la media, la mediana e la moda a posteriori della distribuzione della media SWLS, assumendo una distribuzione a priori gaussiana molto diffusa.

  • Usa il metodo delle distribuzioni coniugate per ottenere la distribuzione a posteriori.
library(tibble)

# Dati
n <- nrow(swls_data)
mean_x <- mean(swls_data$soddisfazione)
sigma <- 1  # Deviazione standard nota

# Prior diffuso
mu_prior <- 4.5    
sigma_prior <- 10  

# Media a posteriori
mu_post <- (sigma_prior^2 * mean_x + sigma^2 * n * mu_prior) / (sigma_prior^2 + sigma^2 * n)

# Deviazione standard a posteriori
sigma_post <- sqrt((sigma_prior^2 * sigma^2) / (sigma_prior^2 + sigma^2 * n))

# Moda (MAP)
posterior_mode <- mu_post  # Per una distribuzione normale, MAP coincide con la media

# Mediana (simile alla media in una distribuzione normale)
posterior_median <- mu_post

tibble("Media a Posteriori" = mu_post,
       "Moda (MAP)" = posterior_mode,
       "Mediana" = posterior_median)

2. Costruisci un intervallo di credibilità simmetrico al 94% per la media SWLS.

  • Usa la distribuzione normale a posteriori per calcolare l’intervallo.
cred_interval <- qnorm(c(0.03, 0.97), mean = mu_post, sd = sigma_post)
cred_interval

3. Visualizza la distribuzione a posteriori della media SWLS con un grafico di densità.

  • Genera un campione dalla distribuzione a posteriori e rappresentalo con ggplot2.
library(ggplot2)

# Campionamento dalla distribuzione a posteriori
set.seed(123)
samples <- rnorm(1000, mean = mu_post, sd = sigma_post)

# Creazione del dataframe
samples_df <- tibble(media_campionata = samples)

# Grafico della distribuzione a posteriori
ggplot(samples_df, aes(x = media_campionata)) +
  geom_density(fill = "blue", alpha = 0.5) +
  labs(title = "Distribuzione a Posteriori della Media SWLS",
       x = "Media", y = "Densità")

4. Confronta l’intervallo di credibilità simmetrico con l’intervallo di massima densità posteriore (HPD).

  • Usa la funzione hdi() del pacchetto bayestestR per calcolare l’HPD.
library(bayestestR)

# Calcolo intervallo HPD al 94%
hpd_interval <- hdi(samples, ci = 0.94)
hpd_interval

5. Calcola la probabilità a posteriori che la media SWLS sia minore di 23 – per fare un esempio, qui caloleremo per i dati simulati la probabilità a posteriori per la media SWLS maggiore di 4.7.

  • Usa la distribuzione a posteriori per calcolare questa probabilità.
prob_greater_4_7 <- 1 - pnorm(4.7, mean = mu_post, sd = sigma_post)
prob_greater_4_7

Informazioni sull’Ambiente di Sviluppo

sessionInfo()
#> R version 4.4.2 (2024-10-31)
#> Platform: aarch64-apple-darwin20
#> Running under: macOS Sequoia 15.3.1
#> 
#> Matrix products: default
#> BLAS:   /Library/Frameworks/R.framework/Versions/4.4-arm64/Resources/lib/libRblas.0.dylib 
#> LAPACK: /Library/Frameworks/R.framework/Versions/4.4-arm64/Resources/lib/libRlapack.dylib;  LAPACK version 3.12.0
#> 
#> locale:
#> [1] C/UTF-8/C/C/C/C
#> 
#> time zone: Europe/Rome
#> tzcode source: internal
#> 
#> attached base packages:
#> [1] stats     graphics  grDevices utils     datasets  methods   base     
#> 
#> other attached packages:
#>  [1] mice_3.17.0      thematic_0.1.6   MetBrewer_0.2.0  ggokabeito_0.1.0
#>  [5] see_0.10.0       gridExtra_2.3    patchwork_1.3.0  bayesplot_1.11.1
#>  [9] psych_2.4.12     scales_1.3.0     markdown_1.13    knitr_1.49      
#> [13] lubridate_1.9.4  forcats_1.0.0    stringr_1.5.1    dplyr_1.1.4     
#> [17] purrr_1.0.4      readr_2.1.5      tidyr_1.3.1      tibble_3.2.1    
#> [21] ggplot2_3.5.1    tidyverse_2.0.0  rio_1.2.3        here_1.0.1      
#> 
#> loaded via a namespace (and not attached):
#>  [1] gtable_0.3.6      shape_1.4.6.1     xfun_0.51         htmlwidgets_1.6.4
#>  [5] lattice_0.22-6    tzdb_0.4.0        Rdpack_2.6.2      vctrs_0.6.5      
#>  [9] tools_4.4.2       generics_0.1.3    parallel_4.4.2    pan_1.9          
#> [13] pacman_0.5.1      jomo_2.7-6        pkgconfig_2.0.3   Matrix_1.7-2     
#> [17] lifecycle_1.0.4   compiler_4.4.2    farver_2.1.2      munsell_0.5.1    
#> [21] mnormt_2.1.1      codetools_0.2-20  htmltools_0.5.8.1 glmnet_4.1-8     
#> [25] nloptr_2.1.1      pillar_1.10.1     MASS_7.3-65       reformulas_0.4.0 
#> [29] iterators_1.0.14  rpart_4.1.24      boot_1.3-31       mitml_0.4-5      
#> [33] foreach_1.5.2     nlme_3.1-167      tidyselect_1.2.1  digest_0.6.37    
#> [37] stringi_1.8.4     labeling_0.4.3    splines_4.4.2     rprojroot_2.0.4  
#> [41] fastmap_1.2.0     grid_4.4.2        colorspace_2.1-1  cli_3.6.4        
#> [45] magrittr_2.0.3    survival_3.8-3    broom_1.0.7       withr_3.0.2      
#> [49] backports_1.5.0   timechange_0.3.0  rmarkdown_2.29    nnet_7.3-20      
#> [53] lme4_1.1-36       hms_1.1.3         evaluate_1.0.3    rbibutils_2.3    
#> [57] rlang_1.1.5       Rcpp_1.0.14       glue_1.8.0        minqa_1.2.8      
#> [61] rstudioapi_0.17.1 jsonlite_1.9.1    R6_2.6.1

Bibliografia

Johnson, A. A., Ott, M., & Dogucu, M. (2022). Bayes Rules! An Introduction to Bayesian Modeling with R. CRC Press.
Zetsche, U., Buerkner, P.-C., & Renneberg, B. (2019). Future expectations in clinical depression: biased or realistic? Journal of Abnormal Psychology, 128(7), 678–688.