77 Valutare i modelli bayesiani: Log-Score, LPPD, ELPD e LOO-CV
“Se uno scienziato è costretto a scegliere fra due ipotesi, il suo istinto sarà quello di scegliere la più semplice. Questa inclinazione non è un capriccio, ma una necessità logica.”
– E.T. Jaynes, Fisico e Statistico
Introduzione
Nei capitoli precedenti abbiamo visto due concetti fondamentali: l’entropia, che misura l’incertezza insita in una distribuzione, e la divergenza di Kullback–Leibler (\(D_{\text{KL}}\)), che quantifica la distanza tra due distribuzioni di probabilità. Ora possiamo fare un passo ulteriore: usare queste idee per valutare e confrontare modelli statistici nel contesto bayesiano.
Il punto di partenza è una domanda cruciale: quanto bene il modello riesce a prevedere nuovi dati? Un buon modello non deve solo adattarsi bene ai dati già osservati, ma anche saper generalizzare a situazioni future o a campioni mai visti. Questa distinzione — adattamento vs. generalizzazione — è il cuore della valutazione predittiva.
Per rendere concreta questa idea, immaginiamo di aver sviluppato un test psicologico per prevedere il livello di ansia degli studenti alla vigilia di un esame. Non basta sapere che il modello descrive bene i dati del campione che abbiamo usato per costruirlo: vogliamo anche essere ragionevolmente sicuri che le stesse previsioni funzionino per studenti che non hanno partecipato allo studio. In psicologia, scegliere tra due modelli non è diverso dal decidere quale test usare per prevedere un disturbo: entrambi mirano a capire quale strumento fornisce previsioni più affidabili sui dati futuri.
In questo capitolo esploreremo gli strumenti fondamentali per la valutazione e il confronto di modelli nell’ambito dell’inferenza bayesiana.
1. La distribuzione predittiva posteriore
Introdurremo la distribuzione predittiva posteriore, che incorpora l’incertezza sui parametri per generare previsioni coerenti con lo stato di conoscenza del modello. Questo strumento rappresenta il ponte naturale tra stima e previsione, garantendo una quantificazione probabilistica completa dell’incertezza.
2. Misure di accuratezza predittiva
Discuteremo il log-score, una metrica punto per punto che valuta la qualità delle previsioni, e due sue sintesi fondamentali:
- la LPPD (Log Pointwise Predictive Density), che misura la bontà di adattamento su dati osservati;
- l’ELPD (Expected Log Predictive Density), che stima l’abilità predittiva attesa su nuove osservazioni.
3. Validazione empirica e confronto tra modelli
Presenteremo la tecnica Leave-One-Out Cross-Validation (LOO-CV), un approccio efficiente per stimare l’ELPD senza bisogno di nuovi dati, dimostrando come questa metodologia fornisca una valutazione robusta delle prestazioni predittive.
4. Fondamenti teorici e interpretazione
Approfondiremo il legame tra ELPD e divergenza di Kullback-Leibler, che consente di interpretare il confronto tra modelli come una ricerca del modello più vicino alla vera distribuzione generatrice dei dati. Questa connessione teorica fornisce una solida giustificazione informazionale per le procedure di selezione bayesiana.
L’obiettivo del capitolo è offrire una panoramica completa e operativa, che unisca principi teorici a strumenti applicativi, guidando il lettore nella scelta razionale del modello più adatto al problema in esame.
Panoramica del capitolo
- Cos’è la distribuzione predittiva posteriore e come si costruisce.
- Cosa misura il log-score e come si calcola nella pratica.
- Distinzione tra LPPD ed ELPD e il loro significato;
- Come LOO-CV fornisce una stima dell’ELPD;
- Il confronto tra modelli alla divergenza di Kullback-Leibler.
77.1 Distribuzione predittiva posteriore
Nel capitolo precedente abbiamo usato la divergenza di Kullback–Leibler (KL) come misura teorica della distanza tra realtà e modello. Qui ci chiediamo: come stimiamo questa distanza quando la “vera” distribuzione generatrice è ignota? Un tassello fondamentale è la distribuzione predittiva posteriore.
Nel capitolo sul modello beta–binomiale l’abbiamo già incontrata: è lo strumento che, nell’approccio bayesiano, consente di prevedere nuovi dati incorporando sia la struttura del modello sia l’incertezza sui parametri.
In sintesi: dopo aver osservato i dati \(y\), non otteniamo un singolo “miglior” valore dei parametri, ma una distribuzione posteriore \(p(\theta \mid y)\) che quantifica i valori plausibili di \(\theta\) e la nostra incertezza.
Esempio. Uno psicologo che stima il livello medio di ansia in una popolazione, invece di affermare “la media è 4.7”, dirà: “il valore più plausibile è 4.7, ma è ragionevole che sia tra 4.2 e 5.1”, riflettendo la variabilità posteriore.
Per prevedere un nuovo dato \(\tilde y\), non fissiamo \(\theta\). Mediamo invece tutte le previsioni condizionate \(p(\tilde y \mid \theta)\) pesandole con la posteriore \(p(\theta\mid y)\):
\[ q(\tilde{y} \mid y) \;=\; \int p(\tilde{y} \mid \theta)\, p(\theta \mid y)\, d\theta . \]
Notazione. Useremo talvolta la forma compatta \(q(\cdot \mid y)\) per indicare la predittiva posteriore del modello. Quando ci servirà evidenziare la previsione marginale per una singola osservazione \(y_i\), scriveremo:
\[ p(y_i \mid y) \;=\; \int p(y_i \mid \theta)\, p(\theta \mid y)\, d\theta, \]
cioè la verosimiglianza \(p(y_i\mid\theta)\) integrata rispetto alla posteriore \(p(\theta\mid y)\).
Idea chiave: la predittiva posteriore propaga l’incertezza sui parametri alle previsioni. È questo passaggio a rendere le valutazioni predittive coerenti con il principio bayesiano, e quindi utilizzabili nel confronto tra modelli e nella stima di quantità legate alla “distanza” dal generatore dei dati.
77.1.1 Il problema della valutazione predittiva
Il nostro obiettivo è capire quanto la distribuzione predittiva posteriore \(q(\tilde{y} \mid y)\) si avvicini alla vera distribuzione generatrice dei dati futuri, \(p(\tilde{y})\). In teoria, questa distanza si misura con la divergenza di Kullback–Leibler (KL):
\[ D_{\text{KL}}(p \parallel q) \;=\; \mathbb{E}_p\!\left[ \log \frac{p(\tilde{y})}{q(\tilde{y} \mid y)} \right]. \]
Qui però incontriamo subito un problema concettuale: non conosciamo \(p(\tilde{y})\). Per superare questo ostacolo, possiamo ricorrere a misure surrogate che, pur non avendo accesso diretto a \(p(\tilde{y})\), permettono di stimare la qualità predittiva del modello utilizzando in modo ingegnoso i dati osservati. Tra queste, vedremo il log-score, la LPPD e l’ELPD, che forniscono stime indirette della bontà predittiva.
77.2 Il log-score: accuratezza predittiva punto per punto
Abbiamo definito la distribuzione predittiva posteriore. Ora chiediamoci: quanto bene il modello ha previsto ciascun dato osservato? Il log-score risponde proprio a questa domanda: per ogni osservazione \(y_i\) misura quanto il modello la considerava plausibile, cioè quanto avrebbe scommesso su quel dato.
Formalmente,
\[ \log p(y_i \mid y) \;=\; \log \int p(y_i \mid \theta)\, p(\theta \mid y)\, d\theta . \tag{77.1}\]
Se il modello assegna alta probabilità a \(y_i\), \(\log p(y_i \mid y)\) è vicino a 0 (buono). Se assegna bassa probabilità, il log-score è molto negativo (scarso).
77.2.1 Dal singolo dato al punteggio totale
Per avere una visione complessiva, sommiamo i contributi su tutte le osservazioni:
\[ S \;=\; \sum_{i=1}^n \log p(y_i \mid y) . \tag{77.2}\]
Più \(S\) è alto, più il modello “scommette” bene sui dati osservati (in-sample).
77.2.2 Parametri fissati vs. parametri incerti
Ci sono due modi concettualmente distinti per valutare il log-score.
Parametri fissati (impostazione classica). Usiamo una stima puntuale dei parametri (ad es. Massima Verosimiglianza o MAP) e ignoriamo l’incertezza:
\[ \log p(y_i \mid \hat{\theta}) . \]
Parametri incerti (impostazione bayesiana). Non fissiamo \(\theta\), ma lo trattiamo come incerto e “mescoliamo” le verosimiglianze pesandole per la plausibilità a posteriori:
\[ p(y_i \mid y) \;=\; \int p(y_i \mid \theta)\, p(\theta \mid y)\, d\theta . \tag{77.3}\]
77.2.3 Come stimare l’integrale in pratica: campioni MCMC
L’integrale nell’Equazione 77.3 raramente è calcolabile in forma chiusa. Con i campioni MCMC \(\theta^{(1)},\dots,\theta^{(S)} \sim p(\theta\mid y)\) possiamo approssimarlo così:
Per ciascun campione \(\theta^{(s)}\) calcoliamo la verosimiglianza del dato \(y_i\): \[ p\bigl(y_i \mid \theta^{(s)}\bigr). \] Questo produce una collezione di valori \[ \bigl\{\, p(y_i \mid \theta^{(1)}),\; p(y_i \mid \theta^{(2)}),\; \dots,\; p(y_i \mid \theta^{(S)}) \,\bigr\}, \] che rappresenta come la plausibilità di \(y_i\) varia al variare dei parametri plausibili.
Media sui campioni (mixing).
La probabilità predittiva puntuale di \(y_i\), che useremo nel log-score, è la media di quella collezione: \[ p(y_i \mid y) \;\approx\; \frac{1}{S}\sum_{s=1}^S p\bigl(y_i \mid \theta^{(s)}\bigr). \tag{77.4}\] Questa media è uno scalare: condensa l’incertezza sui parametri in un’unica previsione probabilistica per \(y_i\).
Mini-illustrazione: se per tre campioni otteniamo \(\{0.40, 0.50, 0.60\}\), la media è \(0.50\). Questo numero è \(p(y_i \mid y)\) da inserire nel log.
77.2.4 La LPPD: il log-score bayesiano complessivo
Ripetiamo i passi precedenti per ogni osservazione \(y_i\):
- calcoliamo la probabilità predittiva media \(p(y_i\mid y)\) con l’Equazione 77.4;
- ne prendiamo il logaritmo;
- sommiamo su tutte le osservazioni.
Il risultato è la Log Pointwise Predictive Density (LPPD):
\[ \text{LPPD} \;=\; \sum_{i=1}^n \log \left[ \frac{1}{S} \sum_{s=1}^S p\bigl(y_i \mid \theta^{(s)}\bigr) \right]. \tag{77.5}\]
In sintesi, il log-score classico usa un solo valore dei parametri \((\hat{\theta})\); la LPPD compie lo stesso calcolo ma tiene conto dell’incertezza, mediando su tutti i valori plausibili secondo la posterior.
77.2.5 Attenzione all’overfitting
La LPPD è calcolata sugli stessi dati usati per stimare il modello: modelli molto flessibili possono “scommettere bene” anche sul rumore, gonfiando la LPPD in-sample. Per valutare la capacità di generalizzazione, serve una stima out-of-sample. Nelle prossime sezioni introdurremo la validazione incrociata leave-one-out (LOO-CV) e l’ELPD (Expected Log Pointwise Predictive Density), che forniscono una versione “fuori campione” della LPPD per il confronto predittivo tra modelli.
77.2.6 Expected Log Predictive Density (ELPD): guardare oltre i dati osservati
Se vogliamo valutare la capacità di generalizzazione di un modello, la domanda chiave è: quanto bene predirebbe dati che non ha mai visto? L’ELPD (Expected Log Predictive Density) risponde a questa domanda con la stessa logica della LPPD, ma introduce una differenza fondamentale: la previsione di \(y_i\) viene calcolata escludendo \(y_i\) dall’adattamento del modello (Leave-One-Out, LOO):
\[ \text{ELPD} \;=\; \sum_{i=1}^n \log p(y_i \mid y_{-i}), \tag{77.6}\]
dove \(y_{-i}\) indica il dataset a cui è stata rimossa l’osservazione \(i\).
Esempio Nel caso di un test sull’ansia:
- LPPD → misura quanto bene il modello predice i punteggi di ansia degli studenti già presenti nel campione osservato.
- ELPD → misura quanto bene predirebbe il punteggio di un nuovo studente, usando solo i dati degli altri.
In sostanza, l’ELPD è una stima empirica (con segno cambiato) della divergenza di Kullback–Leibler tra la vera distribuzione dei dati futuri e la distribuzione predittiva del modello. Ci fornisce quindi un indicatore diretto di quanto le previsioni del modello si avvicinano a ciò che accadrà davvero, senza richiedere di conoscere la distribuzione reale.
77.2.7 LPPD vs. ELPD in sintesi
Misura | Dati usati per predire \(y_i\) | Valuta | Limite principale |
---|---|---|---|
LPPD | Tutti i dati, incluso \(y_i\) | Adattamento in-sample | Rischio di overfitting |
ELPD | Tutti i dati tranne \(y_i\) (LOO) | Generalizzazione | — |
Metafora In un esperimento di riconoscimento di volti, mostriamo a un partecipante 100 fotografie e lo alleniamo a riconoscerle:
- LPPD → misura quanto bene riconosce quelle stesse foto, già viste in fase di addestramento (in-sample).
- ELPD → misura quanto bene riconosce nuove foto, mai viste prima, cioè immagini fuori dall’insieme di addestramento (out-of-sample).
Se il punteggio LPPD è alto ma l’ELPD è basso, significa che il partecipante — o il modello — ha memorizzato i casi specifici, senza aver appreso regole generali utili per nuovi dati.
77.2.8 Il collegamento con la divergenza KL
La divergenza di Kullback–Leibler \(D_{\text{KL}}\) misura teoricamente la distanza tra la distribuzione vera dei dati, \(p(\tilde{y})\), e la distribuzione predittiva del modello, \(q(\tilde{y} \mid y)\).
Nel confronto tra due modelli \(A\) e \(B\), la differenza nelle loro \(D_{\text{KL}}\) equivale alla differenza nelle rispettive accuratezze predittive medie rispetto a \(p(\tilde{y})\).
Poiché \(p(\tilde{y})\) è sconosciuta, non possiamo calcolare direttamente la KL. L’ELPD fornisce una stima empirica di questa accuratezza predittiva: un valore più alto implica un modello più “vicino” alla distribuzione vera.
\[ \text{Massimizzare ELPD} \;\; \approx \;\; \text{Minimizzare la divergenza KL}. \]
77.3 Leave-One-Out Cross-Validation (LOO-CV): stimare l’ELPD nella pratica
Poiché la distribuzione vera dei dati futuri è inaccessibile, dobbiamo usare metodi indiretti per stimare quanto bene il nostro modello prevede nuove osservazioni. La validazione incrociata Leave-One-Out (LOO-CV) è uno di questi metodi e, se combinata con l’uso dell’Expected Log Predictive Density (ELPD), diventa uno strumento potente per il confronto tra modelli.
Abbiamo visto che l’ELPD è la misura ideale della capacità predittiva di un modello su dati futuri. Il problema è che, per definizione, richiede di calcolare un’aspettativa rispetto alla vera distribuzione generatrice \(p(\tilde{y})\), che non conosciamo.
Come possiamo stimarla in pratica? Usando la LOO-CV, che simula la previsione di nuovi dati sfruttando solo le informazioni presenti nei dati osservati.
77.3.1 Cos’è la LOO-CV
La LOO-CV è un esperimento concettuale semplice:
- Scegli un’osservazione \(y_i\) dal dataset.
- Escludila dal set di addestramento.
- Adatta il modello ai dati rimanenti \(y_{-i}\).
- Calcola la densità predittiva del modello per l’osservazione esclusa: \(p(y_i \mid y_{-i})\).
- Ripeti per ogni osservazione e somma i logaritmi ottenuti.
Formalmente:
\[ \text{ELPD}_{\text{LOO}} = \sum_{i=1}^{n} \log p(y_i \mid y_{-i}), \tag{77.7}\]
dove \(y_{-i}\) indica il dataset senza l’osservazione \(i\).
La struttura è identica a quella dell’ELPD “ideale”, ma ogni termine è calcolato fuori campione, escludendo il dato che viene valutato.
Un’analogia: è come escludere uno studente dall’allenamento e verificare se il modello riesce a predire il suo punteggio d’esame; ripetendo questo processo per tutti gli studenti otteniamo una misura diretta della capacità di generalizzazione.
77.3.2 Perché LOO-CV funziona
L’ELPD può essere scritto come:
\[ \mathbb{E}_p[\log q(\tilde{y} \mid y)], \tag{77.8}\]
dove \(q(\tilde{y} \mid y)\) è la distribuzione predittiva del modello.
Non possiamo calcolare l’aspettativa rispetto a \(p(\tilde{y})\), ma possiamo trattare ogni osservazione \(y_i\) come “nuovo dato” generato da \(p\) e usare la media empirica sulle osservazioni reali come stima dell’aspettativa:
\[ \text{ELPD}_{\text{LOO}} \approx \mathbb{E}_p[\log q(\tilde{y} \mid y)]. \]
In altre parole: LOO-CV misura quanto bene il modello predirebbe ciascun dato se non lo avesse mai visto.
77.3.3 Legame con la divergenza KL
La divergenza di Kullback–Leibler è definita come:
\[ D_{\text{KL}}(p \parallel q) = \mathbb{E}_p[\log p(\tilde{y})] - \mathbb{E}_p[\log q(\tilde{y} \mid y)]. \]
Il primo termine, l’entropia di \(p\), è lo stesso per tutti i modelli e scompare nel confronto.
Ne segue che, per due modelli \(q_1\) e \(q_2\):
\[ D_{\text{KL}}(p \parallel q_1) - D_{\text{KL}}(p \parallel q_2) = \mathbb{E}_p[\log q\_2(\tilde{y} \mid y)] - \mathbb{E}_p[\log q_1(\tilde{y} \mid y)]. \]
Vince il modello con ELPD più alto, perché corrisponde alla minore divergenza KL dalla distribuzione vera.
77.3.4 Confrontare i modelli con LOO-CV
Poiché \(p(\tilde{y})\) è sconosciuta, sostituiamo l’aspettativa teorica con la stima empirica via LOO:
\[ \Delta\text{ELPD} = \text{ELPD}*{\text{LOO}}(M_1) - \text{ELPD}*{\text{LOO}}(M_2) . \tag{77.9}\]
\(\Delta\text{ELPD}\) approssima la differenza tra le divergenze KL dei modelli.
Oltre alla differenza, possiamo stimare un errore standard per capire se la superiorità di un modello è robusta o dovuta al caso.
77.3.5 Punti chiave
-
Problema: L’ELPD teorico richiede \(p(\tilde{y})\), che è sconosciuta.
-
Soluzione: LOO-CV fornisce una stima empirica out-of-sample.
-
Teoria: L’ELPD è direttamente collegato alla parte “accuratezza” della KL-divergence.
- Pratica: Massimizzare l’ELPD stimato equivale a scegliere il modello più vicino alla distribuzione vera.
Direi che l’esempio che hai scritto è già molto chiaro e in linea con il testo precedente, ma per integrarlo meglio nel capitolo e mantenere continuità con la sezione teorica, potremmo:
- Aggiungere un’introduzione contestuale per collegarlo subito alla discussione ELPD–LOO–KL.
- Rendere più esplicito il parallelismo con la teoria (ELPD come somma delle log-predittive fuori campione).
- Sintetizzare il codice con commenti chiave, così che lo studente possa leggerlo senza perdersi nei dettagli secondari.
- Chiarire il senso della tabella subito dopo l’esecuzione del codice.
77.3.6 ELPD-LOO e il problema dell’overfitting
Valutare un modello sugli stessi dati usati per addestrarlo tende a gonfiare le stime della sua capacità predittiva (overfitting). È come se uno studente ottenesse un punteggio perfetto ripetendo esercizi già svolti: non sappiamo se saprebbe risolverne di nuovi.
La Leave-One-Out Cross-Validation (LOO-CV) aggira il problema valutando ciascuna osservazione \(y_i\) usando solo i dati rimanenti (\(y_{-i}\)). Il punteggio ottenuto (ELPD-LOO) è quindi una stima out-of-sample della bontà predittiva, meno sensibile all’overfitting.
Grazie a metodi come il Pareto-smoothed importance sampling (PSIS), oggi è possibile calcolare l’ELPD-LOO senza riadattare il modello \(n\) volte. In R, la funzione loo()
del pacchetto loo (integrata in brms
e rstanarm
) rende questa procedura rapida e diretta anche per modelli complessi.
77.4 Criteri di informazione come approssimazioni della divergenza \(D_{\text{KL}}\)
Oltre alla Leave-One-Out Cross-Validation, esistono altri strumenti per stimare la qualità predittiva di un modello senza dover conoscere la distribuzione vera dei dati. Molti di questi metodi derivano, in modo più o meno diretto, dalla divergenza di Kullback–Leibler \(D_{\text{KL}}\), che — come visto — misura la distanza tra la distribuzione reale e quella stimata dal modello.
L’idea di base è sempre la stessa:
- valutare quanto bene il modello spiega i dati (bontà di adattamento);
- penalizzare la complessità del modello, per ridurre il rischio di overfitting.
Questa logica si traduce in criteri di informazione che combinano due componenti:
- termine di fit: misura di quanto bene il modello si adatta ai dati osservati (es. log-verosimiglianza, MSE);
- termine di penalizzazione: aumenta con il numero di parametri o con la flessibilità del modello.
Tra i criteri più usati troviamo:
- MSE (Mean Squared Error) – semplice e intuitivo, basato sugli errori di previsione;
- AIC (Akaike Information Criterion) – approssima \(D_{\text{KL}}\) tra il modello e la verità, penalizzando il numero di parametri;
- BIC (Bayesian Information Criterion) – simile all’AIC, ma con penalizzazione più forte per modelli complessi, proporzionale al numero di osservazioni;
- WAIC (Widely Applicable Information Criterion) – versione pienamente bayesiana, basata sulle previsioni del modello integrate sull’intera distribuzione a posteriori.
Nelle sezioni seguenti vedremo come ciascun criterio si calcola, quali assunzioni richiede e in quali situazioni è preferibile rispetto agli altri.
77.4.1 Errore Quadratico Medio (MSE)
L’Errore Quadratico Medio misura la media delle differenze al quadrato tra valori osservati e previsti:
\[ MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2. \tag{77.10}\]
- Valori più bassi indicano previsioni più vicine ai dati osservati.
- Non tiene conto della complessità del modello, quindi può favorire modelli eccessivamente flessibili (overfitting).
Utile per valutare l’accuratezza, ma da solo non è adatto a scegliere tra modelli con diversa complessità.
77.4.2 Akaike Information Criterion (AIC)
L’AIC è un’approssimazione della divergenza \(D_{\text{KL}}\) e stima quanta informazione si perde usando un modello per descrivere i dati:
\[ AIC = -2 \sum_{i=1}^{n} \log p(y_i \mid \hat{\theta}_{\text{MLE}}) + 2k, \tag{77.11}\]
dove:
- \(\hat{\theta}_{\text{MLE}}\): stima dei parametri ottenuta massimizzando la verosimiglianza;
- \(k\): numero di parametri del modello.
Interpretazione
- Il primo termine valuta l’adattamento del modello ai dati.
- Il secondo penalizza la complessità per evitare overfitting.
- Un AIC più basso indica un miglior equilibrio tra accuratezza e semplicità.
Limiti
- Basato su assunzioni asintotiche (funziona meglio con campioni grandi).
- Usa solo stime puntuali, ignorando l’incertezza dei parametri.
- Non è pienamente coerente con l’approccio bayesiano.
77.4.3 Bayesian Information Criterion (BIC)
Il BIC valuta il compromesso tra adattamento ai dati e complessità del modello, applicando una penalizzazione più severa rispetto all’AIC — soprattutto quando il numero di osservazioni \(n\) è grande.
\[ BIC = -2 \log p(y \mid \hat{\theta}) + \log(n) \cdot k, \tag{77.12}\]
dove:
- \(p(y \mid \hat{\theta})\): massima verosimiglianza del modello (o MAP con prior piatti);
- \(n\): numero di osservazioni indipendenti;
- \(k\): numero di parametri stimati.
Interpretazione
- Il primo termine misura l’adattamento ai dati.
- Il secondo penalizza la complessità in modo crescente con \(n\) e \(k\).
- Un BIC più basso indica un compromesso migliore tra accuratezza e parsimonia.
Vantaggi
- Tende a favorire modelli più semplici quando \(n\) è elevato.
- Ha una giustificazione teorica bayesiana: in certe condizioni, approssima il log della marginal likelihood.
Limiti
- Si basa su assunzioni forti (indipendenza, modelli regolari, prior deboli).
- Può sottoselezionare modelli utili con campioni piccoli o strutture complesse.
77.4.4 Widely Applicable Information Criterion (WAIC)
Il WAIC è una versione pienamente bayesiana dell’AIC:
- utilizza tutta la distribuzione a posteriori dei parametri;
- fornisce una stima diretta della capacità predittiva del modello.
\[ WAIC = -2 \left[ \sum_{i=1}^{n} \log \left( \frac{1}{S} \sum_{s=1}^{S} p(y_i \mid \theta^{(s)}) \right) - \sum_{i=1}^{n} \mathrm{Var}_{\theta^{(s)}} \big( \log p(y_i \mid \theta^{(s)}) \big) \right], \tag{77.13}\]
dove:
- \(S\) = numero di campioni dalla distribuzione a posteriori;
- \(\theta^{(s)}\) = \(s\)-esimo campione;
- il secondo termine stima il numero effettivo di parametri basato sulla variabilità della log-verosimiglianza.
Vantaggi
- Adatto anche a modelli complessi o non regolari.
- Usa direttamente i campioni MCMC.
- Migliore dell’AIC per modelli bayesiani, perché incorpora l’incertezza dei parametri.
Nota. Il WAIC è strettamente collegato all’ELPD: è una sua stima approssimata ottenuta dalla distribuzione a posteriori, senza bisogno di eseguire la LOO-CV.
Riepilogo comparativo dei criteri di valutazione del modello | ||||
---|---|---|---|---|
Criterio | Tipo | Penalizza la complessità | Usa stime puntuali | Basato su campioni a posteriori (es. MCMC) |
MSE | Frequentista | No | Sì | No |
AIC | Frequentista | Sì (modesta) | Sì | No |
BIC | Frequentista/Bayesiano | Sì (forte) | Sì | No |
WAIC | Bayesiano | Sì (effettiva) | No | Sì |
LOO-CV | Bayesiano | Sì (empirica) | No | Sì |
Riflessioni conclusive
La selezione del modello, in ottica bayesiana, ruota attorno a una domanda essenziale: quanto bene il modello predice dati che non ha mai visto?
Il riferimento teorico è l’Expected Log Predictive Density (ELPD), che misura quanto la distribuzione predittiva del modello si avvicina alla vera (e ignota) distribuzione dei dati. In termini matematici, massimizzare l’ELPD equivale a minimizzare la divergenza di Kullback–Leibler rispetto alla vera generatrice: due facce dello stesso obiettivo, rappresentare al meglio la realtà sottostante.
Poiché \(p_{\text{vera}}(y)\) è sconosciuta, l’ELPD va stimato. Le principali approssimazioni sono:
- LOO-CV (Leave-One-Out Cross-Validation): oggi lo strumento più affidabile, valuta ogni osservazione come “nuova” e stima la capacità di generalizzazione del modello.
- WAIC: alternativa completamente bayesiana, calcolata direttamente dai campioni della posteriori.
- AIC e BIC: criteri frequenstisti più rapidi ma basati su stime puntuali; utili in contesti semplici.
- MSE: misura l’accuratezza sulle osservazioni note, ma non penalizza la complessità e quindi non è adatto alla selezione del modello.
Nel confronto tra modelli, la differenza di ELPD (stimata con LOO-CV o WAIC) andrebbe interpretata insieme al relativo errore standard: una regola pratica è considerare rilevante una differenza almeno doppia rispetto all’errore standard.
In sintesi:
- la buona statistica non si limita a spiegare il passato: sa anticipare il futuro;
- la divergenza KL fornisce la misura teorica della distanza tra modello e realtà;
- l’ELPD, stimato via LOO-CV o WAIC, traduce questa misura in una valutazione pratica della capacità predittiva;
- la scelta del modello ottimale richiede un equilibrio tra accuratezza, generalizzazione e parsimonia.
Con questi strumenti possiamo individuare modelli che colgono i veri pattern nei dati, evitando di farsi ingannare dal rumore e garantendo previsioni solide anche in contesti complessi.