::here("code", "_common.R") |>
heresource()
48 Inferenza bayesiana
- distribuzione marginale;
- approccio analitico e numerico per determinare la distribuzione a posteriori;
- linguaggi di programmazione probabilistici;
- inferenza predittiva.
- Leggere il capitolo Bayes’ Rule del testo di Johnson et al. (2022).
- Leggere Navigating the Bayes maze: The psychologist’s guide to Bayesian statistics, a hands-on tutorial with R code (Alter et al., 2025).
- Leggere Ten quick tips to get you started with Bayesian statistics (Gimenez et al., 2025).
48.1 Introduzione
Negli ultimi vent’anni l’inferenza bayesiana è passata da “curiosità matematica” a strumento di lavoro quotidiano in campi che vanno dalla biologia all’economia, dalla medicina alle scienze cognitive. In psicologia la sua popolarità è legata a due vantaggi pratici:
- integrare conoscenze pregresse (p.e. studi precedenti, expertise clinica) all’interno dell’analisi;
- gestire al meglio campioni piccoli o rumorosi, frequenti nei contesti sperimentali e clinici.
Per uno studente di psicologia la curva di apprendimento può sembrare ripida. Non è così: i concetti chiave si acquisiscono gradualmente e si ripagano in fretta. In questo capitolo mostreremo come.
48.2 Dove si colloca l’inferenza nel processo di ricerca?
Richiamiamo il diagramma di modellizzazione e analisi introdotto in Figura 47.1. L’inferenza occupa la parte centrale: partendo dai dati osservati vogliamo trarre conclusioni sul modello e sui suoi parametri \(\boldsymbol\theta\). Esistono due cornici teoriche:
Statistica Bayesiana | Statistica Frequentista | |
---|---|---|
Natura di \(\boldsymbol\theta\) | variabile aleatoria con distribuzione a priori | valore fisso ma ignoto |
Uso di informazioni pregresse | sì (explicita nella prior) | no (basata solo sui dati) |
Obiettivi tipici | posteriore, previsione, decisione | stima, test d’ipotesi |
Fondamento concettuale | probabilità come grado di credenza soggettivo | probabilità come frequenza a lungo termine |
Nel prosieguo ci concentreremo sul paradigma bayesiano, rimandando alla sezione … per il frequentista.
48.3 Il teorema di Bayes come regola di aggiornamento
L’idea centrale è semplice: si parte da una distribuzione a priori sui parametri, si osservano i dati, si ottiene una distribuzione a posteriori:
\[ p(\boldsymbol\theta\mid\mathbf{x})=\frac{p(\mathbf{x}\mid\boldsymbol\theta)\,p(\boldsymbol\theta)}{p(\mathbf{x})}, \]
dove
- \(p(\mathbf{x}\mid\boldsymbol\theta)\) è la verosimiglianza (il modello generativo dei dati);
- \(p(\boldsymbol\theta)\) è la prior (ciò che sapevamo prima);
- \(p(\mathbf{x})\) è la evidenza o marginal likelihood, costante di normalizzazione.
Il risultato è un meccanismo di apprendimento cumulativo: ogni nuova evidenza aggiorna coerentemente le nostre credenze. Questo rende l’approccio naturale in psicologia, dove le ricerche successive spesso si accumulano su temi simili (p.e. effetti di un trattamento cognitivo-comportamentale).
48.4 Un esempio intuitivo: la moneta sbilanciata
Supponiamo di lanciare una moneta \(N=10\) volte ottenendo \(y=8\) teste. Vogliamo inferire la probabilità \(\theta\) di ottenere “testa”.
- Model specification
\[ y\sim\text{Binomiale}(N,\theta). \]
Scelta della prior
Uniforme su \([0,1]\) (prior non informativo) oppure Beta(2,2) se riteniamo monete di solito quasi eque.Aggiornamento
Con prior Beta e verosimiglianza binomiale otteniamo una posteriore ancora Beta:
\[ \theta\mid y \sim \text{Beta}(\alpha\!+\!y,\;\beta\!+\!N-y). \]
- Risultati
- Stima puntuale: media \(\hat\theta=(\alpha+y)/(\alpha+\beta+N)\approx0{,}73\).
- Incertezza: intervallo di credibilità (p.e. 95 %) dal percentilo 2,5 al 97,5 della posteriore.
- Decisione: la probabilità che \(\theta>0{,}5\) è \(\approx0{,}97\) → forte evidenza di moneta sbilanciata.
L’intero procedimento è automatizzabile in software come R + brms, Stan o PyMC; l’utente indica modello e prior, l’algoritmo MCMC campiona la posteriore.
48.5 Perché usare le probabilità come gradi di credenza?
L’interpretazione della probabilità come misura quantitativa dei gradi di credenza soggettivi si fonda su tre argomenti teorici fondamentali. Questi dimostrano perché le regole della probabilità siano indispensabili per modellare le credenze in modo coerente, razionale ed efficiente.
48.5.1 1. Argomento della Scommessa Olandese (Dutch Book)
Credenze incoerenti espongono a perdite certe (Ramsey, 1926; De Finetti, 1972).
Se un individuo assegna gradi di credenza che violano gli assiomi della probabilità (es.: la somma delle probabilità di eventi mutualmente esclusivi supera 1), è possibile costruire un insieme di scommesse (un “Dutch Book”) che garantisce una perdita certa, indipendentemente dall’esito degli eventi.
Esempio intuitivo:
Immaginate di attribuire una probabilità del 60% a un evento \(A\) e del 50% al suo complementare \(\neg A\). Un avversario potrebbe proporvi due scommesse:
- Pagare €60 per ricevere €100 se \(A\) si verifica.
- Pagare €50 per ricevere €100 se \(\neg A\) si verifica.
In totale, spendete €110, ma vincete solo €100 qualunque sia l’esito. Perdete quindi €10 con certezza. Questo mostra che credere incoerentemente rende vulnerabili a strategie che sfruttano le incongruenze.
48.5.2 2. Teoria della Decisione Razionale
Massimizzare l’utilità attesa richiede probabilità coerenti (Savage, 1954; von Neumann & Morgenstern, 1947).
Un agente razionale deve allineare le proprie scelte alla massimizzazione dell’utilità attesa, calcolata combinando i gradi di credenza (probabilità) con una funzione di utilità.
Problema delle incoerenze decisionali:
Se i gradi di credenza non rispettano le regole probabilistiche, l’agente potrebbe:
- Cadere in preferenze cicliche (es.: preferire \(A\) a \(B\), \(B\) a \(C\), ma \(C\) ad \(A\)).
- Scegliere opzioni subottimali rispetto ai propri obiettivi.
Esempio:
Supponete di valutare tre investimenti con probabilità incoerenti. Potreste sovrastimare i rendimenti di due opzioni contemporaneamente, portandovi a scelte contraddittorie e perdite evitabili.
48.5.3 3. Accuratezza Epistemica
Solo le funzioni di probabilità minimizzano l’errore medio tra credenza e verità.
Le funzioni di probabilità sono ottimali nel ridurre l’inaccuratezza epistemica, ovvero la discrepanza media tra le credenze e i valori di verità (1 se un evento accade, 0 altrimenti).
Perché funziona:
- Studi formali (Cox, 1946; Joyce, 1998; Pettigrew, 2016) dimostrano che solo le probabilità minimizzano l’errore atteso in tutti i possibili scenari.
- Analogia: Come un meteorologo migliora le previsioni usando probabilità (es.: 80% pioggia), un agente bayesiano riduce l’errore aderendo alle regole probabilistiche.
Implicazione:
Credere in modo non probabilistico aumenta sistematicamente il rischio di essere in errore, anche con informazioni incomplete.
In sintesi, questi tre argomenti mostrano che le probabilità non sono solo un formalismo matematico, ma un requisito per:
- evitare conseguenze pratiche dannose (Dutch Book);
- ottimizzare le decisioni in condizioni di incertezza;
- avvicinarsi alla verità in modo efficiente.
L’inferenza bayesiana integra questi principi, offrendo un framework coerente per aggiornare le credenze alla luce di nuove evidenze (teorema di Bayes).
48.6 Il Paradigma dell’Inferenza Bayesiana
L’inferenza bayesiana si basa sull’idea che la probabilità misuri il grado di certezza soggettiva riguardo a un’ipotesi o alla plausibilità di un valore per un parametro sconosciuto. Il cuore di questo approccio è l’aggiornamento continuo: le credenze iniziali (priori) vengono riviste alla luce di nuove informazioni provenienti dai dati, producendo credenze aggiornate (posteriori).
Per comprendere meglio questo processo, è necessario introdurre due concetti chiave: il modello generativo dei dati e i parametri.
48.6.1 Modello Generativo dei Dati
Un modello generativo dei dati è una rappresentazione matematica che descrive come i dati osservati potrebbero essere generati da un processo sottostante. In altre parole, è un’astrazione che specifica le relazioni tra le variabili osservabili (i dati) e le variabili non osservabili (i parametri). Il modello generativo ci permette di simulare dati ipotetici e di fare previsioni su ciò che potremmo osservare in base a determinate ipotesi.
Ad esempio, nel contesto del lancio di una moneta, il modello generativo potrebbe essere basato sulla distribuzione binomiale, che descrive la probabilità di ottenere un certo numero di “teste” in un dato numero di lanci, assumendo una certa probabilità di successo (in questo caso, la probabilità di ottenere “testa”).
48.6.2 Parametri
Un parametro è una quantità sconosciuta che caratterizza il modello generativo. Nel caso del lancio della moneta, il parametro di interesse è la probabilità \(\theta\) di ottenere “testa”. Questo parametro è ciò che vogliamo stimare o inferire attraverso l’osservazione dei dati. In generale, i parametri possono rappresentare diverse caratteristiche del processo generativo, come medie, varianze, coefficienti di regressione, ecc.
48.6.3 Applicazione all’Esempio del Lancio della Moneta
Ora che abbiamo introdotto i concetti di modello generativo dei dati e parametro, possiamo applicarli all’esempio del lancio della moneta. Immaginiamo di lanciare una moneta 10 volte e osservare 8 teste (\(y = 8\)). Vogliamo stabilire se la moneta sia equilibrata (\(\theta = 0.5\)) o meno.
Per rispondere a questa domanda, definiamo un modello generativo dei dati utilizzando la distribuzione binomiale, che è caratterizzata dal parametro \(\theta\), la probabilità di ottenere “testa”. La distribuzione binomiale descrive la probabilità di osservare un certo numero di successi (in questo caso, “teste”) in un numero fisso di prove indipendenti, assumendo un valore specifico per \(\theta\).
In questo contesto, il parametro \(\theta\) è l’oggetto della nostra inferenza. Vogliamo aggiornare la nostra credenza iniziale su \(\theta\) (ad esempio, che la moneta sia equilibrata, quindi \(\theta = 0.5\)) alla luce dei nuovi dati osservati (8 teste su 10 lanci). Questo aggiornamento avviene attraverso l’applicazione del teorema di Bayes, che combina la nostra credenza a priori, descritta da una distribuzione a priori e indicata come \(p(\theta)\), con la verosimiglianza dei dati osservati per produrre una credenza a posteriori su \(\theta\), descritta dalla distribuzione a posteriori e denotata come \(p(\theta \mid \text{dati})\).
La distribuzione a priori, \(p(\theta)\), riflette ciò che riteniamo plausibile prima di osservare i dati. Quando raccogliamo nuove informazioni, rivediamo le nostre credenze, ridistribuendo la credibilità su tutto il range di valori possibili del parametro. Questo processo di aggiornamento produce la distribuzione a posteriori, \(p(\theta \mid \text{dati})\), che rappresenta la nostra credenza aggiornata (Gelman et al., 1995).
Un aspetto filosofico e matematico distintivo dell’approccio bayesiano è la concezione del parametro d’interesse come una variabile casuale che può assumere valori differenti, anziché come un valore fisso (come avviene nel paradigma frequentista). Questa prospettiva permette di trattare il parametro come una distribuzione, fornendo una rappresentazione più flessibile delle incertezze (Kruschke, 2014). Ad esempio, se tracciassimo la distribuzione a posteriori, l’asse \(x\) rappresenterebbe l’intero intervallo di valori possibili per il parametro, mentre l’asse \(y\) indicherebbe la densità di probabilità associata a ciascun valore. Il valore più credibile è spesso quello che massimizza la distribuzione (moda), o la sua media o mediana.
48.6.4 Approccio Classico: Massima Verosimiglianza
Nel contesto classico, uno dei metodi più utilizzati per stimare \(\theta\) è la massima verosimiglianza, che stima \(\theta\) come il rapporto tra successi e tentativi: \(\hat{\theta} = y/N = 0.8\). Sebbene semplice, questa stima puntuale non fornisce informazioni sull’incertezza di \(\theta\) né sulla plausibilità di valori alternativi. In altre parole, non ci dice quanto sia plausibile che \(\theta\) sia, ad esempio, 0.7 o 0.9, né quantifica l’incertezza associata alla stima.
48.6.5 Approccio Bayesiano: Priori e Posteriori
L’approccio bayesiano supera i limiti dell’approccio classico basato sulla massima verosimiglianza, offrendo un quadro più completo e flessibile per l’aggiornamento delle credenze. Questo risultato è reso possibile dal teorema di Bayes, che formalizza il processo di integrazione tra le informazioni iniziali (rappresentate dalla distribuzione a priori) e le nuove evidenze fornite dai dati osservati. Attraverso questo meccanismo, l’approccio bayesiano non solo fornisce stime puntuali, ma quantifica anche l’incertezza associata ai parametri, permettendo una valutazione più robusta e informata delle ipotesi.
48.7 Un’introduzione ai Priori
Ciò che distingue l’approccio bayesiano da quello basato sulla massima verosimiglianza è l’uso esplicito di credenze iniziali riguardo al fenomeno di interesse. Nel linguaggio bayesiano, queste credenze sono formalizzate come distribuzioni di probabilità, chiamate distribuzioni a priori. Le distribuzioni a priori rappresentano la nostra conoscenza o le nostre ipotesi su un parametro o un’ipotesi prima di osservare i dati. Esse forniscono un punto di partenza per l’inferenza, permettendo di incorporare informazioni pregresse nel processo di analisi.
A seconda del grado di conoscenza o incertezza che abbiamo prima di raccogliere i dati, le distribuzioni a priori possono assumere forme diverse. Questa variabilità riflette il livello di fiducia o informazione iniziale e influenza in modo significativo il modo in cui le nuove evidenze vengono integrate nel processo di aggiornamento bayesiano. La scelta della distribuzione a priori è quindi un aspetto cruciale, poiché determina come le credenze iniziali interagiscono con i dati osservati per produrre la distribuzione a posteriori, ovvero la nostra credenza aggiornata.
Tipo di prior | Quando usarlo | Pro | Contro |
---|---|---|---|
Non informativo (p.e. uniforme) | Ignoranza quasi totale | Semplice, “lascia parlare i dati” | Può ricalcare l’MLE, talvolta inappropriato |
Debolmente informativo | Conoscenza generale o vincoli di scala | Stabilizza stime, evita valori implausibili | Richiede riflessione; influenza modesta ma presente |
Informativo | Meta-analisi, expertise, piccoli campioni | Riduce varianza, incorpora letteratura | Se eccessivo può dominare i dati |
Coniugato | Modelli classici (Binomiale-Beta, Normale-Normale) | Aggiornamento analitico, didattico | Limitato a poche famiglie |
Buona pratica: effettuare un prior predictive check → simulare dati dalla prior, verificare che scenari impossibili (p.e. RT negativi) siano improbabili.
48.8 Quando il calcolo si complica: MCMC
Nell’equazione del teorema di Bayes:
\[ p(\theta \mid \text{dati}) = \frac{p(\theta) \cdot p(\text{dati} \mid \theta)}{p(\text{dati})}, \]
la costante di normalizzazione, indicata come \(p(\text{dati})\), rappresenta la probabilità complessiva di osservare i dati, indipendentemente dal valore specifico del parametro \(\theta\). Questo termine garantisce che la distribuzione a posteriori sia una distribuzione di probabilità valida, cioè che la somma (o l’integrale) delle probabilità sia uguale a 1. In altre parole, la costante di normalizzazione “aggiusta” la distribuzione risultante affinché sia coerente con le regole della probabilità.
Calcolare \(p(\text{dati})\) può essere complesso, poiché per modelli non coniugati o ad alta dimensionalità la posteriore non ha forma chiusa.
48.8.1 Priori Coniugati
I priori coniugati sono una scelta specifica di distribuzione a priori che, quando combinata con una determinata verosimiglianza, produce una distribuzione a posteriori della stessa famiglia. Questa proprietà semplifica notevolmente i calcoli.
Esempio: Se la verosimiglianza è binomiale e la distribuzione a priori è una Beta, la distribuzione a posteriori sarà ancora una Beta. Questo caso è particolarmente utile, ad esempio, quando si studia la probabilità di successo in una serie di prove (come il lancio di una moneta).
Vantaggi dei Priori Coniugati:
- Calcolo diretto: La distribuzione a posteriori può essere determinata analiticamente senza metodi numerici complessi.
- Efficienza computazionale: Ideale per modelli semplici e ben definiti.
Limitazioni:
- Applicabile solo a modelli specifici e semplici.
- Non adatto a situazioni con dati complessi o modelli ad alta dimensionalità.
48.8.2 Metodi Approssimativi
Quando i priori coniugati non sono applicabili o il modello è troppo complesso per soluzioni analitiche, si ricorre a metodi numerici approssimativi. Uno dei più utilizzati è il Markov-Chain Monte Carlo (MCMC), una tecnica di campionamento casuale che permette di stimare la distribuzione a posteriori anche in casi complessi.
Vantaggi dei Metodi Approssimativi:
- Flessibilità: Possono gestire modelli complessi e dati reali con molte variabili.
- Precisione: Forniscono stime accurate della distribuzione a posteriori, anche in assenza di soluzioni analitiche.
Svantaggi:
- Costo computazionale: Richiedono più tempo e risorse rispetto ai metodi analitici.
- Complessità implementativa: Possono richiedere una maggiore attenzione nella scelta dei parametri e nella validazione dei risultati.
In sintesi, la scelta tra approccio analitico e numerico dipende dalla complessità del problema e dalle risorse disponibili. Mentre i priori coniugati e i metodi analitici sono ideali per modelli semplici, i metodi numerici come l’MCMC offrono la flessibilità necessaria per affrontare problemi più complessi. In ogni caso, l’obiettivo è sempre lo stesso: aggiornare le nostre credenze in modo rigoroso e sistematico, integrando nuove evidenze con le conoscenze pregresse.
48.8.3 Approfondimenti sull’MCMC e Altri Metodi Numerici
Quando i modelli diventano troppo complessi per essere risolti analiticamente, l’approccio bayesiano si affida a metodi numerici per approssimare la distribuzione a posteriori. Uno dei metodi più potenti e diffusi è il Markov-Chain Monte Carlo (MCMC), che permette di campionare dalla distribuzione a posteriori anche in assenza di soluzioni esatte. Questo metodo è particolarmente utile quando i priori coniugati non sono applicabili o quando il modello coinvolge molte variabili e parametri.
48.8.3.1 Cos’è l’MCMC?
L’MCMC è una famiglia di algoritmi che generano una sequenza di campioni (una “catena”) dalla distribuzione a posteriori. Ogni campione rappresenta un possibile valore del parametro di interesse, e i campioni successivi dipendono dai precedenti, come i collegamenti di una catena. Con un numero sufficiente di iterazioni, questa catena converge alla distribuzione a posteriori, permettendo di stimarne forma, centro e variabilità.
Come funziona l’MCMC?
- Metropolis-Hastings: Questo algoritmo è adatto a distribuzioni generiche. Richiede la definizione di una “funzione proposta” che suggerisce nuovi valori per il parametro, che vengono poi accettati o rifiutati in base a una regola probabilistica.
- Gibbs Sampling: Questo metodo è particolarmente efficace quando le distribuzioni condizionali dei parametri sono note, anche se la distribuzione congiunta è complessa. In pratica, si campiona iterativamente da ciascuna distribuzione condizionale, aggiornando un parametro alla volta.
Pratiche comuni in MCMC:
- Warm-up (o burn-in): All’inizio dell’algoritmo, i campioni vengono scartati per permettere alla catena di stabilizzarsi e raggiungere la distribuzione target. Questa fase è cruciale per evitare che i campioni iniziali, spesso non rappresentativi, influenzino i risultati.
- Thinning: Per ridurre l’autocorrelazione tra i campioni, si seleziona solo uno ogni n campioni (ad esempio, ogni 5° campione). Questo migliora l’efficienza e l’indipendenza dei campioni utilizzati per l’analisi.
48.8.3.2 Altri Metodi Numerici
Oltre all’MCMC, esistono altri metodi numerici per approssimare la distribuzione a posteriori, ciascuno con i propri vantaggi e svantaggi:
- Variational Bayes: Questo approccio approssima la distribuzione a posteriori risolvendo un problema di ottimizzazione, minimizzando la divergenza di Kullback-Leibler tra una distribuzione proposta \(q(z)\) e la distribuzione reale \(p(z \mid x)\). È più veloce dell’MCMC ma meno preciso, soprattutto per distribuzioni complesse.
- Approssimazione di Laplace: Questo metodo semplifica la distribuzione a posteriori approssimandola con una distribuzione normale centrata sul valore MAP (Maximum A Posteriori). È utile per modelli semplici ma meno accurato per distribuzioni non gaussiane.
Vantaggi e Svantaggi degli Approcci Numerici:
- Vantaggi:
- Applicabilità a modelli complessi e ad alta dimensionalità.
- Flessibilità nell’incorporare informazioni a priori dettagliate.
- Svantaggi:
- Richiedono risorse computazionali elevate.
- Necessitano di un tuning accurato degli algoritmi (ad esempio, scelte iniziali in MCMC).
48.8.4 Linguaggi di Programmazione Probabilistica (PPL)
Per semplificare l’implementazione dei metodi numerici, sono stati sviluppati linguaggi di programmazione probabilistica (PPL). Questi strumenti automatizzano il processo di inferenza bayesiana, permettendo ai ricercatori di concentrarsi sulla modellizzazione mentre il PPL gestisce l’inferenza sottostante.
48.8.4.1 PPL più Diffusi
- Stan: Un linguaggio efficiente e flessibile, ampiamente utilizzato in ambito accademico per la sua capacità di gestire modelli complessi.
- PyMC: Una libreria user-friendly per Python, ideale per chi preferisce un approccio più accessibile.
- TensorFlow Probability: Combina modellizzazione probabilistica e apprendimento automatico, offrendo strumenti avanzati per l’inferenza bayesiana.
I PPL consentono di definire il modello probabilistico in modo intuitivo e delegare l’inferenza agli algoritmi numerici sottostanti, come MCMC o inferenza variazionale. Questo rende l’inferenza bayesiana più accessibile e applicabile a una vasta gamma di problemi, inclusi quelli in psicologia, biologia, economia e scienze sociali.
48.8.5 Notazione nei Modelli Bayesiani
Nella formulazione dei modelli bayesiani, è comune utilizzare una notazione standard per descrivere le relazioni tra dati, parametri e distribuzioni. Ecco un esempio di come viene strutturata un’equazione bayesiana:
- \(y\): Dati osservati.
- \(\theta\): Parametri sconosciuti.
- \(x\): Quantità note (ad esempio, predittori o variabili esplicative).
Esempio di Modello: Supponiamo di voler modellare un insieme di dati \(y\) come provenienti da una distribuzione normale con media \(\mu\) e deviazione standard \(\sigma\). Le distribuzioni a priori per \(\mu\) e \(\sigma\) potrebbero essere specificate come segue:
\[ \begin{aligned} y & \sim \mathrm{normal}(\mu, \sigma), \\ \mu & \sim \mathrm{normal}(0, 10), \\ \sigma & \sim \mathrm{normal}^+(\sigma \mid 0, 1), \end{aligned} \]
dove il simbolo \(\sim\) indica “è distribuito come”. La stessa espressione può essere scritta in termini di probabilità:
\[ \begin{aligned} p(y \mid \mu, \sigma) & = \mathrm{normal}(y \mid \mu, \sigma), \\ p(\mu) & = \mathrm{normal}(\mu \mid 0, 10), \\ p(\sigma) & = \mathrm{normal}^+(\sigma \mid 0, 1). \end{aligned} \]
Questa notazione chiarisce come i dati e i parametri siano collegati attraverso distribuzioni di probabilità, fornendo un quadro completo per l’inferenza bayesiana.
48.9 Riflessioni Conclusive
L’inferenza bayesiana è un approccio potente e versatile per aggiornare le nostre credenze alla luce di nuove evidenze. La sua peculiarità risiede nella capacità di rispondere a una domanda fondamentale per la ricerca scientifica: qual è la probabilità dei parametri (o delle ipotesi) dati i dati osservati? Questo concetto, noto come probabilità inversa, è il cuore dell’approccio bayesiano e lo distingue dall’inferenza frequentista, che si concentra invece sulla probabilità dei dati condizionata ai parametri.
Il teorema di Bayes formalizza questa intuizione, permettendoci di calcolare la distribuzione a posteriori \(p(\theta \mid D)\), che rappresenta la nostra credenza aggiornata sui parametri \(\theta\) dopo aver osservato i dati \(D\):
\[ p(\theta \mid D) = \frac{p(D \mid \theta) \cdot p(\theta)}{p(D)}. \]
Questa equazione mostra come, partendo da un modello generativo \(p(D \mid \theta)\) dei dati osservati e combinando questo con una distribuzione a priori \(p(\theta)\), sia possibile inferire la distribuzione a posteriori \(p(\theta \mid D)\). Questo processo di aggiornamento consente di integrare in modo rigoroso e sistematico nuove evidenze con conoscenze pregresse.
Una stima puntuale comunemente utilizzata nell’inferenza bayesiana è il Massimo A Posteriori (MAP), ovvero il valore di \(\theta\) che massimizza la distribuzione a posteriori:
\[ \theta^* = \arg \max_\theta p(\theta \mid D). \]
Nel caso di un prior non informativo (una distribuzione a priori piatta), la stima MAP coincide con la stima di massima verosimiglianza (MLE), che massimizza la probabilità dei dati osservati. Tuttavia, in presenza di informazioni a priori rilevanti e ben specificate, la stima MAP combina i dati osservati con le credenze iniziali, fornendo una stima più robusta e informata.
La forza dell’approccio bayesiano risiede nella sua capacità di affrontare diverse sfide:
- Incertezza delle ipotesi: In contesti come la psicologia, la medicina o le scienze sociali, dove le ipotesi sono spesso incerte, l’inferenza bayesiana permette di valutarne la plausibilità.
- Dati limitati o rumorosi: Quando i dati sono scarsi o affetti da rumore, l’approccio bayesiano garantisce stime più robuste integrando informazioni a priori.
- Confronto tra ipotesi complesse: L’approccio bayesiano consente di confrontare e valutare ipotesi multiple in modo rigoroso.
Il teorema di Bayes offre un quadro formale per quantificare l’incertezza e aggiornare le credenze in modo dinamico. Questo è particolarmente utile in situazioni in cui:
- Le informazioni a priori sono cruciali per guidare l’inferenza.
- È necessario un compromesso tra conoscenze pregresse e nuove evidenze.
- I problemi analizzati sono complessi e richiedono strumenti avanzati.
Per modelli semplici, i priori coniugati e i metodi analitici possono essere sufficienti. Tuttavia, per problemi più complessi, l’uso di strumenti numerici come l’MCMC (Markov Chain Monte Carlo) e i linguaggi di programmazione probabilistica (PPL) è indispensabile. Questi strumenti consentono di applicare l’approccio bayesiano a scenari realistici, superando le limitazioni computazionali e garantendo maggiore flessibilità.
In conclusione, l’inferenza bayesiana non è solo un metodo statistico, ma un paradigma che trasforma il modo di pensare alla scienza e alla conoscenza. Essa permette di formulare domande scientificamente rilevanti, di quantificare l’incertezza e di aggiornare le credenze in modo rigoroso. Attraverso il teorema di Bayes, possiamo passare dalla domanda “qual è la probabilità dei dati dati i parametri?” alla domanda più interessante: “qual è la probabilità dei parametri dati i dati?”
Questa inversione di prospettiva, unita agli strumenti computazionali moderni, rende l’approccio bayesiano uno strumento indispensabile per la ricerca scientifica contemporanea. In un’epoca caratterizzata da dati complessi e incertezze diffuse, il paradigma bayesiano si pone come una guida affidabile per comprendere meglio il mondo attraverso l’analisi rigorosa e l’aggiornamento continuo delle nostre credenze.
Esercizi
Qual è la differenza principale tra l’approccio bayesiano e l’approccio frequentista all’inferenza statistica?
Cosa rappresenta la distribuzione a priori in inferenza bayesiana e quale ruolo svolge nel processo inferenziale?
Come si calcola la distribuzione a posteriori in inferenza bayesiana e quali sono i suoi elementi principali?
Qual è il significato della funzione di verosimiglianza nel teorema di Bayes?
Come viene interpretata la probabilità nell’approccio bayesiano rispetto a quello frequentista?
Quali sono i vantaggi principali dell’inferenza bayesiana rispetto all’inferenza frequentista?
Cos’è una distribuzione a priori coniugata e quali vantaggi offre nel calcolo della distribuzione a posteriori?
Quali sono i principali metodi numerici utilizzati per approssimare la distribuzione a posteriori quando i calcoli analitici non sono possibili?
Cosa sono i modelli generativi dei dati e quale ruolo svolgono nell’inferenza bayesiana?
Quali sono le tre principali giustificazioni teoriche per l’uso delle probabilità come misura di credenza nell’inferenza bayesiana?
Consegna: Rispondi con parole tue e carica il file .qmd, convertito in PDF su Moodle.
La differenza principale tra l’approccio bayesiano e quello frequentista riguarda l’interpretazione del parametro \(\theta\). Nell’approccio bayesiano, il parametro è considerato una variabile aleatoria con una distribuzione a priori, mentre nell’approccio frequentista il parametro è una quantità fissa e sconosciuta. Inoltre, l’inferenza bayesiana aggiorna le credenze attraverso il teorema di Bayes, mentre l’inferenza frequentista basa le proprie conclusioni solo sui dati osservati.
La distribuzione a priori rappresenta le credenze iniziali riguardo al parametro \(\theta\) prima di osservare i dati. Essa consente di integrare informazioni pregresse o conoscenze esterne nel processo inferenziale, influenzando la distribuzione a posteriori e permettendo di aggiornare le credenze alla luce di nuove evidenze.
La distribuzione a posteriori si calcola applicando il teorema di Bayes:
\[ f(\theta \mid x) = \frac{f(x \mid \theta) f(\theta)}{f(x)} \]
I suoi elementi principali sono:
- La funzione di verosimiglianza \(f(x \mid \theta)\), che esprime la probabilità di osservare i dati dato un valore del parametro.
- La distribuzione a priori \(f(\theta)\), che rappresenta le credenze iniziali sul parametro.
- La costante di normalizzazione \(f(x)\), che garantisce che la distribuzione a posteriori sia una distribuzione di probabilità valida.
- La funzione di verosimiglianza \(f(x \mid \theta)\), che esprime la probabilità di osservare i dati dato un valore del parametro.
La funzione di verosimiglianza, \(f(x \mid \theta)\), rappresenta la probabilità di osservare i dati dati i valori del parametro \(\theta\). Essa è fondamentale nel teorema di Bayes perché determina quanto bene un certo valore di \(\theta\) spiega i dati osservati, contribuendo alla determinazione della distribuzione a posteriori.
Nell’approccio bayesiano, la probabilità è interpretata come un grado di credenza soggettivo su un evento o un parametro incerto. Nell’approccio frequentista, invece, la probabilità è definita come il limite della frequenza relativa di un evento dopo un numero infinito di ripetizioni. Questo porta a differenze metodologiche nel modo in cui vengono effettuate le inferenze.
I principali vantaggi dell’inferenza bayesiana sono:
- Integrazione di informazioni pregresse: Permette di combinare dati osservati con conoscenze precedenti.
- Quantificazione dell’incertezza: Fornisce una distribuzione completa dei parametri, anziché un singolo valore stimato.
- Flessibilità: Può essere applicata a modelli complessi e a problemi con pochi dati.
- Interpretazione intuitiva: Le probabilità risultanti rappresentano direttamente il grado di credenza sui parametri.
- Integrazione di informazioni pregresse: Permette di combinare dati osservati con conoscenze precedenti.
Una distribuzione a priori coniugata è una scelta specifica di distribuzione a priori che, quando combinata con una verosimiglianza di una certa famiglia, produce una distribuzione a posteriori della stessa famiglia. Ad esempio, una distribuzione Beta come prior per un parametro binomiale produce una distribuzione Beta come a posteriori. Questo semplifica enormemente i calcoli, poiché la distribuzione a posteriori può essere determinata in modo analitico senza necessità di metodi numerici complessi.
Quando non è possibile calcolare la distribuzione a posteriori in modo analitico, si utilizzano metodi numerici come:
- Markov Chain Monte Carlo (MCMC): Un insieme di algoritmi di campionamento (ad esempio, Metropolis-Hastings e Gibbs Sampling) che permette di stimare la distribuzione a posteriori generando campioni iterativi.
- Inferenza Variazionale: Un metodo di approssimazione che ottimizza una distribuzione più semplice per avvicinarsi alla distribuzione a posteriori.
- Approssimazione di Laplace: Un’approssimazione basata sulla normalizzazione locale intorno al massimo a posteriori (MAP).
- Markov Chain Monte Carlo (MCMC): Un insieme di algoritmi di campionamento (ad esempio, Metropolis-Hastings e Gibbs Sampling) che permette di stimare la distribuzione a posteriori generando campioni iterativi.
Un modello generativo dei dati è una rappresentazione matematica del processo che ha generato i dati osservati. Esso definisce la relazione tra il parametro sconosciuto \(\theta\) e i dati \(\mathbf{x}\) attraverso una distribuzione di probabilità. Nell’inferenza bayesiana, il modello generativo aiuta a formulare la funzione di verosimiglianza e a inferire i parametri che meglio spiegano i dati.
Le tre principali giustificazioni per l’uso delle probabilità come misura di credenza nell’inferenza bayesiana sono:
- Argomento della scommessa olandese (Dutch Book): Se i gradi di credenza non rispettano le regole della probabilità, si possono costruire scommesse che garantiscono una perdita certa, dimostrando che è irrazionale non seguire le leggi della probabilità.
- Argomento decisionistico: Per massimizzare l’utilità attesa nelle scelte razionali, i gradi di credenza devono seguire le regole della probabilità. Se non lo fanno, si possono prendere decisioni incoerenti o subottimali.
- Argomento epistemico: Le funzioni di probabilità minimizzano l’errore epistemico rispetto alla verità oggettiva, rendendole la struttura più razionale per rappresentare le credenze in condizioni di incertezza.
Informazioni sull’Ambiente di Sviluppo
sessionInfo()
#> R version 4.5.0 (2025-04-11)
#> Platform: aarch64-apple-darwin20
#> Running under: macOS Sequoia 15.4.1
#>
#> Matrix products: default
#> BLAS: /Library/Frameworks/R.framework/Versions/4.5-arm64/Resources/lib/libRblas.0.dylib
#> LAPACK: /Library/Frameworks/R.framework/Versions/4.5-arm64/Resources/lib/libRlapack.dylib; LAPACK version 3.12.1
#>
#> locale:
#> [1] C/UTF-8/C/C/C/C
#>
#> time zone: Europe/Rome
#> tzcode source: internal
#>
#> attached base packages:
#> [1] stats graphics grDevices utils datasets methods base
#>
#> other attached packages:
#> [1] thematic_0.1.6 MetBrewer_0.2.0 ggokabeito_0.1.0 see_0.11.0
#> [5] gridExtra_2.3 patchwork_1.3.0 bayesplot_1.12.0 psych_2.5.3
#> [9] scales_1.3.0 markdown_2.0 knitr_1.50 lubridate_1.9.4
#> [13] forcats_1.0.0 stringr_1.5.1 dplyr_1.1.4 purrr_1.0.4
#> [17] readr_2.1.5 tidyr_1.3.1 tibble_3.2.1 ggplot2_3.5.2
#> [21] tidyverse_2.0.0 rio_1.2.3 here_1.0.1
#>
#> loaded via a namespace (and not attached):
#> [1] generics_0.1.3 stringi_1.8.7 lattice_0.22-7 hms_1.1.3
#> [5] digest_0.6.37 magrittr_2.0.3 evaluate_1.0.3 grid_4.5.0
#> [9] timechange_0.3.0 fastmap_1.2.0 rprojroot_2.0.4 jsonlite_2.0.0
#> [13] mnormt_2.1.1 cli_3.6.4 rlang_1.1.6 munsell_0.5.1
#> [17] withr_3.0.2 tools_4.5.0 parallel_4.5.0 tzdb_0.5.0
#> [21] colorspace_2.1-1 pacman_0.5.1 vctrs_0.6.5 R6_2.6.1
#> [25] lifecycle_1.0.4 htmlwidgets_1.6.4 pkgconfig_2.0.3 pillar_1.10.2
#> [29] gtable_0.3.6 glue_1.8.0 xfun_0.52 tidyselect_1.2.1
#> [33] rstudioapi_0.17.1 farver_2.1.2 htmltools_0.5.8.1 nlme_3.1-168
#> [37] rmarkdown_2.29 compiler_4.5.0