48  Inferenza bayesiana

In questo capitolo approfondirai i seguenti concetti fondamentali:
  • distribuzione marginale;
  • approccio analitico e numerico per determinare la distribuzione a posteriori;
  • linguaggi di programmazione probabilistici;
  • inferenza predittiva.
Prerequisiti
  • Leggere il capitolo Bayes’ Rule del testo di Johnson et al. (2022).
  • Leggere Navigating the Bayes maze: The psychologist’s guide to Bayesian statistics, a hands-on tutorial with R code (Alter et al., 2025).
Preparazione del Notebook
here::here("code", "_common.R") |> 
  source()

48.1 Introduzione

Riprendiamo il quadro concettuale della modellizzazione e analisi statistica presentato nella Figura 47.1. L’inferenza statistica si concentra sulla parte centrale di questo schema, ovvero sul processo di trarre conclusioni sul modello a partire dai dati osservati. I due principali approcci all’inferenza statistica sono:

  • statistica bayesiana;
  • statistica frequentista.

Nell’approccio bayesiano, l’inferenza statistica si basa sull’integrazione di informazioni a priori riguardo al vettore dei parametri \(\mathbf{\theta}\), spesso rappresentate da una densità di probabilità \(f(\mathbf{\theta})\), nota come distribuzione a priori. Questo permette di trattare \(\mathbf{\theta}\) come un vettore aleatorio ai fini computazionali. L’inferenza su \(\mathbf{\theta}\) viene condotta analizzando la densità di probabilità condizionata \(f(\mathbf{\theta} \mid \mathbf{x})\), nota come distribuzione a posteriori.

Il teorema di Bayes fornisce il fondamento matematico per questa inferenza:

\[ f(\mathbf{\theta} \mid \mathbf{x}) = \frac{f(\mathbf{x} \mid \mathbf{\theta}) f(\mathbf{\theta})}{f(\mathbf{x})}, \]

dove:

  • \(f(\mathbf{x} \mid \mathbf{\theta})\) è la funzione di verosimiglianza, che descrive la probabilità (o densità) dei dati \(\mathbf{x}\) dato il parametro \(\mathbf{\theta}\);
  • \(f(\mathbf{\theta})\) è la distribuzione a priori, che codifica le nostre conoscenze o credenze iniziali su \(\mathbf{\theta}\);
  • \(f(\mathbf{x})\) è la marginal likelihood (o evidenza), che agisce come una costante di normalizzazione e dipende solo dai dati osservati \(\mathbf{x}\).

Questo approccio fornisce un quadro rigoroso per aggiornare le nostre credenze alla luce di nuove evidenze, un aspetto fondamentale sia nel ragionamento scientifico che nelle decisioni quotidiane.

Nel resto di questo capitolo, esploreremo in dettaglio i principali elementi dell’approccio bayesiano all’inferenza statistica, partendo da un semplice esempio introduttivo. Approfondiremo il processo di aggiornamento bayesiano, un meccanismo formale che consente di combinare nuove osservazioni con conoscenze pregresse in modo coerente e sistematico.

Per contrasto, nella statistica frequentista, il vettore dei dati \(\mathbf{x}\) è interpretato come il risultato di un vettore aleatorio \(\mathbf{X}\), descritto da un modello probabilistico. Solitamente, il modello è definito fino a un parametro (multidimensionale) \(\mathbf{\theta}\), espresso come \(\mathbf{X} \sim f(\cdot; \mathbf{\theta})\). L’inferenza statistica si focalizza quindi sul modello stesso e, in particolare, sul parametro \(\mathbf{\theta}\). Ad esempio, sulla base dei dati, si potrebbe voler:

  1. stimare il parametro, ad esempio calcolando un estimatore \(\hat{\mathbf{\theta}}\);
  2. eseguire test statistici sul parametro, valutando ipotesi specifiche riguardo a \(\mathbf{\theta}\).

Una differenza chiave tra i due approcci risiede proprio nell’uso di informazioni a priori: mentre la statistica bayesiana le incorpora esplicitamente attraverso la distribuzione a priori \(f(\mathbf{\theta})\), la statistica frequentista si basa esclusivamente sui dati osservati \(\mathbf{x}\).

Caratteristica Statistica Bayesiana Statistica Frequentista
Interpretazione del parametro \(\mathbf{\theta}\) è un vettore aleatorio \(\mathbf{\theta}\) è una quantità fissa
Uso delle informazioni a priori Incorporate esplicitamente Non utilizzate
Obiettivo principale Aggiornare la distribuzione a posteriori Stima e test sul parametro
Inferenza Probabilistica Basata sulla frequenza degli eventi

L’inferenza frequentista sarà esaminata in una sezione successiva della dispensa, mentre questo capitolo si concentrerà sull’approccio bayesiano, evidenziandone la potenza e la flessibilità nel contesto della modellizzazione statistica. In particolare, vedremo come l’approccio bayesiano consenta di integrare informazioni diverse (ad esempio, dati storici o esperti) in modo naturale, fornendo risultati interpretabili sotto forma di distribuzioni di probabilità.

48.1.1 L’Inferenza Bayesiana

Nella scienza, così come nella vita quotidiana, spesso ci troviamo a valutare ipotesi con diversi gradi di credibilità. Ad esempio, consideriamo la domanda su quale nazione vincerà il Campionato Mondiale di Calcio del 2026. Potremmo ritenere la Grecia un candidato molto improbabile, l’Inghilterra non del tutto implausibile, e l’Italia, la Francia o la Germania come favoriti. Questo esempio illustra che lo stato epistemico di un’ipotesi non è una questione di “vero o falso”, ma piuttosto di gradazione. È qui che entra in gioco l’approccio bayesiano: i bayesiani utilizzano il concetto di grado di credenza per descrivere gli atteggiamenti epistemici riguardo a proposizioni incerte, e rappresentano questi gradi di credenza attraverso una struttura matematica specifica: le funzioni di probabilità. Questi due presupposti modellistici sono gli elementi centrali dell’inferenza bayesiana. In sintesi, i bayesiani interpretano le probabilità come espressioni di incertezza soggettiva, un’interpretazione che risale a Thomas Bayes (1701–1761).

La funzione di probabilità non solo assegna gradi di credenza a singole proposizioni, ma anche a combinazioni logiche di proposizioni (ad esempio, congiunzioni, disgiunzioni e negazioni). Tuttavia, per semplicità, concentriamoci su una singola proposizione. Consideriamo un esempio tratto dalla psicologia cognitiva, in cui una teoria afferma che “l’esposizione a stimoli positivi migliora l’umore”. Questa proposizione può essere rappresentata come:

  • \(A\): “L’esposizione a stimoli positivi migliora l’umore.”

Attraverso l’inferenza bayesiana, possiamo assegnare un grado di credenza iniziale (a priori) a questa proposizione, basandoci su conoscenze pregresse o evidenze preliminari. Ad esempio, potremmo iniziare con una probabilità iniziale:

  • \(p(A) = 0.7\): crediamo che l’esposizione a stimoli positivi migliori l’umore con una probabilità del 70%.

Supponiamo ora di condurre un esperimento in cui i partecipanti esposti a stimoli positivi mostrano un significativo miglioramento dell’umore. Alla luce di questi nuovi dati, possiamo aggiornare la nostra credenza utilizzando il teorema di Bayes. Se i dati supportano fortemente la proposizione \(A\), la probabilità a posteriori \(p(A \mid \text{dati})\) potrebbe aumentare, ad esempio, a 0.9.

Questo processo di aggiornamento bayesiano ci permette di affinare le nostre credenze in modo dinamico, integrando nuove evidenze empiriche con le conoscenze pregresse. In questo modo, l’inferenza bayesiana non solo quantifica l’incertezza, ma fornisce anche un quadro chiaro e sistematico per valutare la validità di singole proposizioni all’interno di una teoria scientifica, sia in psicologia che in altre discipline.

48.1.2 Argomenti a Favore della Probabilità come Misura di Credenza

L’interpretazione della probabilità come misura quantitativa dei gradi di credenza soggettivi è sostenuta da tre principali linee di argomentazione, ciascuna delle quali fornisce una giustificazione teorica e pratica per l’adozione delle regole probabilistiche nella modellazione delle credenze. Tali argomenti provengono dai domini delle decisioni, della coerenza e dell’epistemologia.

48.1.2.1 Argomenti della Scommessa Olandese (Dutch Book)

Gli argomenti della scommessa olandese costituiscono una dimostrazione formale del fatto che gradi di credenza non probabilistici portano a incoerenze logiche e vulnerabilità economiche. Se un individuo assegna gradi di credenza che violano gli assiomi della probabilità (ad esempio, la regola della somma per eventi mutuamente esclusivi), è possibile costruire un insieme di scommesse (un “Dutch Book”) che garantisce una perdita certa, indipendentemente dall’esito degli eventi (Ramsey, 1926; De Finetti, 1972).

Formalmente, se \(p(A)\) rappresenta il grado di credenza di un evento \(A\) e non rispetta le leggi della probabilità (ad esempio, \(p(A \cup B) \neq p(A) + p(B)\) per eventi mutuamente esclusivi \(A\) e \(B\)), esiste una combinazione di scommesse che sfrutta questa incoerenza per generare una perdita sicura. La coerenza probabilistica protegge da tali situazioni di perdita certa, che sono considerate irrazionali.

48.1.2.2 Argomenti Decisionistici

Gli argomenti basati sulla teoria della decisione razionale dimostrano che l’adozione di gradi di credenza probabilistici è una condizione necessaria per massimizzare l’utilità attesa, un principio cardine delle scelte razionali (Savage, 1954; von Neumann & Morgenstern, 1947). Secondo questa teoria, un agente razionale assegna probabilità agli eventi per rappresentare il proprio grado di fiducia e combina tali probabilità con una funzione di utilità che riflette le proprie preferenze, al fine di scegliere l’alternativa che offre il massimo beneficio atteso.

Quando i gradi di credenza non rispettano le regole della probabilità, l’agente non è in grado di calcolare correttamente l’utilità attesa. Ciò può portare a incoerenze decisionali, come preferenze cicliche o scelte subottimali che contraddicono gli obiettivi dell’agente. Ad esempio,

  • una violazione della regola della somma (ad esempio, \(p(A \cup B) \neq p(A) + p(B)\) per eventi mutuamente esclusivi) può comportare l’assegnazione di risorse in modo inefficiente tra opzioni alternative;
  • una violazione della regola del prodotto (ad esempio, \(p(A \cap B) \neq p(A) \cdot p(B)\) per eventi indipendenti) può indurre l’agente a sottostimare o sovrastimare i rischi associati a decisioni complesse.

Queste incoerenze non solo compromettono la razionalità formale dell’agente, ma lo espongono a decisioni che possono portano a esiti non ottimali.

In sintesi, la coerenza probabilistica non è un semplice requisito tecnico, ma un presupposto indispensabile affinché un agente possa agire in modo razionale e allineare le proprie decisioni agli obiettivi di massimizzazione dell’utilità attesa.

48.1.2.3 Argomenti Epistemici

Gli argomenti epistemici si concentrano sulla relazione tra i gradi di credenza e la verità, sostenendo che le credenze probabilistiche rappresentano il modo più razionale per minimizzare l’inaccuratezza epistemica rispetto alla realtà (Cox, 1946). L’inaccuratezza epistemica può essere definita come una misura della discrepanza tra il grado di credenza assegnato a una proposizione e il suo valore di verità oggettivo (ad esempio, 1 se la proposizione è vera, 0 se è falsa). In altre parole, l’inaccuratezza epistemica quantifica quanto una credenza si discosta dalla realtà.

La minimizzazione dell’inaccuratezza epistemica richiede l’adozione di credenze probabilistiche che rispettino i principi fondamentali della teoria della probabilità. Studi condotti da autori come Joyce (1998, 2009) e Pettigrew (2016) dimostrano che le funzioni di probabilità sono l’unica struttura matematica in grado di minimizzare l’inaccuratezza media rispetto a un’ampia gamma di possibili stati del mondo. In altre parole, le credenze probabilistiche non solo sono coerenti, ma sono anche ottimali nel ridurre l’errore epistemico.

In sintesi, anche se ciascun argomento, preso singolarmente, non è sufficiente a giustificare in modo definitivo l’approccio probabilistico, insieme formano un quadro robusto a favore dell’utilizzo della probabilità come misura di credenza razionale. Questi principi costituiscono il fondamento dell’inferenza bayesiana, che rappresenta un approccio potente per modellare il ragionamento e il processo decisionale scientifico.

48.1.3 Il Paradigma dell’Inferenza Bayesiana

L’inferenza bayesiana si basa sull’idea che la probabilità misuri il grado di certezza soggettiva riguardo a un’ipotesi o alla plausibilità di un valore per un parametro sconosciuto. Il cuore di questo approccio è l’aggiornamento continuo: le credenze iniziali (priori) vengono riviste alla luce di nuove informazioni provenienti dai dati, producendo credenze aggiornate (posteriori).

Per comprendere meglio questo processo, è necessario introdurre due concetti chiave: il modello generativo dei dati e il parametro.

48.1.3.1 Modello Generativo dei Dati

Un modello generativo dei dati è una rappresentazione matematica che descrive come i dati osservati potrebbero essere generati da un processo sottostante. In altre parole, è un’astrazione che specifica le relazioni tra le variabili osservabili (i dati) e le variabili non osservabili (i parametri). Il modello generativo ci permette di simulare dati ipotetici e di fare previsioni su ciò che potremmo osservare in base a determinate ipotesi.

Ad esempio, nel contesto del lancio di una moneta, il modello generativo potrebbe essere basato sulla distribuzione binomiale, che descrive la probabilità di ottenere un certo numero di “teste” in un dato numero di lanci, assumendo una certa probabilità di successo (in questo caso, la probabilità di ottenere “testa”).

48.1.3.2 Parametro

Un parametro è una quantità sconosciuta che caratterizza il modello generativo. Nel caso del lancio della moneta, il parametro di interesse è la probabilità \(\theta\) di ottenere “testa”. Questo parametro è ciò che vogliamo stimare o inferire attraverso l’osservazione dei dati. In generale, i parametri possono rappresentare diverse caratteristiche del processo generativo, come medie, varianze, coefficienti di regressione, ecc.

48.1.3.3 Applicazione all’Esempio del Lancio della Moneta

Ora che abbiamo introdotto i concetti di modello generativo dei dati e parametro, possiamo applicarli all’esempio del lancio della moneta. Immaginiamo di lanciare una moneta 10 volte e osservare 8 teste (\(y = 8\)). Vogliamo stabilire se la moneta sia equilibrata (\(\theta = 0.5\)) o meno.

Per rispondere a questa domanda, definiamo un modello generativo dei dati utilizzando la distribuzione binomiale, che è caratterizzata dal parametro \(\theta\), la probabilità di ottenere “testa”. La distribuzione binomiale descrive la probabilità di osservare un certo numero di successi (in questo caso, “teste”) in un numero fisso di prove indipendenti, assumendo un valore specifico per \(\theta\).

In questo contesto, il parametro \(\theta\) è l’oggetto della nostra inferenza. Vogliamo aggiornare la nostra credenza iniziale su \(\theta\) (ad esempio, che la moneta sia equilibrata, quindi \(\theta = 0.5\)) alla luce dei nuovi dati osservati (8 teste su 10 lanci). Questo aggiornamento avviene attraverso l’applicazione del teorema di Bayes, che combina la nostra credenza a priori, descritta da una distribuzione a priori e indicata come \(p(\theta)\), con la verosimiglianza dei dati osservati per produrre una credenza a posteriori su \(\theta\), descritta dalla distribuzione a posteriori e denotata come \(p(\theta \mid \text{dati})\).

La distribuzione a priori, \(p(\theta)\), riflette ciò che riteniamo plausibile prima di osservare i dati. Quando raccogliamo nuove informazioni, rivediamo le nostre credenze, ridistribuendo la credibilità su tutto il range di valori possibili del parametro. Questo processo di aggiornamento produce la distribuzione a posteriori, \(p(\theta \mid \text{dati})\), che rappresenta la nostra credenza aggiornata (Gelman et al., 1995).

Un aspetto filosofico e matematico distintivo dell’approccio bayesiano è la concezione del parametro d’interesse come una variabile casuale che può assumere valori differenti, anziché come un valore fisso (come avviene nel paradigma frequentista). Questa prospettiva permette di trattare il parametro come una distribuzione, fornendo una rappresentazione più flessibile delle incertezze (Kruschke, 2014). Ad esempio, se tracciassimo la distribuzione a posteriori, l’asse \(x\) rappresenterebbe l’intero intervallo di valori possibili per il parametro, mentre l’asse \(y\) indicherebbe la densità di probabilità associata a ciascun valore. Il valore “utilizzabile” più credibile è spesso quello che massimizza la distribuzione (moda), o la sua media o mediana.

48.1.4 Approccio Classico: Massima Verosimiglianza

Nel contesto classico, uno dei metodi più utilizzati per stimare \(\theta\) è la massima verosimiglianza, che stima \(\theta\) come il rapporto tra successi e tentativi: \(\hat{\theta} = y/N = 0.8\). Sebbene semplice, questa stima puntuale non fornisce informazioni sull’incertezza di \(\theta\) né sulla plausibilità di valori alternativi. In altre parole, non ci dice quanto sia plausibile che \(\theta\) sia, ad esempio, 0.7 o 0.9, né quantifica l’incertezza associata alla stima.

48.1.5 Approccio Bayesiano: Priori e Posteriori

L’approccio bayesiano supera i limiti dell’approccio classico basato sulla massima verosimiglianza, offrendo un quadro più completo e flessibile per l’aggiornamento delle credenze. Questo risultato è reso possibile dal teorema di Bayes, che formalizza il processo di integrazione tra le informazioni iniziali (rappresentate dalla distribuzione a priori) e le nuove evidenze fornite dai dati osservati. Attraverso questo meccanismo, l’approccio bayesiano non solo fornisce stime puntuali, ma quantifica anche l’incertezza associata ai parametri, permettendo una valutazione più robusta e informata delle ipotesi. L’equazione fondamentale è:

\[ p(\theta \mid \text{dati}) = \frac{p(\theta) \cdot p(\text{dati} \mid \theta)}{p(\text{dati})}, \]

dove:

  • \(p(\theta)\) è la distribuzione a priori, che rappresenta ciò che sappiamo del parametro prima di osservare i dati.
  • \(p(\text{dati} \mid \theta)\) è la verosimiglianza, che descrive la probabilità di osservare i dati dati i valori ipotizzati del parametro.
  • \(p(\text{dati})\) è la probabilità marginale dei dati, che funge da costante di normalizzazione per garantire che la distribuzione a posteriori sia una distribuzione di probabilità valida.

La distribuzione a posteriori \(p(\theta \mid \text{dati})\) riflette la combinazione delle credenze iniziali con le informazioni derivanti dai dati osservati.

Esempio: Moneta con \(y = 8\) e \(N = 10\). Supponiamo di adottare una distribuzione a priori uniforme su \([0, 1]\), che attribuisce la stessa plausibilità a tutti i valori di \(p\). Osservando \(y = 8\) teste su \(N = 10\) lanci, la verosimiglianza \(p(y \mid \theta)\) sarà determinata dal modello binomiale:

\[ p(y \mid \theta) = \binom{N}{y} p^y (1-p)^{N-y}. \]

Combinando prior e verosimiglianza attraverso il teorema di Bayes otteniamo:

\[ p(\theta \mid y) \propto p(y \mid \theta) \cdot p(\theta). \]

La distribuzione a posteriori risultante ci consente di:

  1. Calcolare stime plausibili di \(\theta\), come la mediana o la moda.
  2. Quantificare l’incertezza su \(\theta\), ad esempio tramite varianza o intervalli di credibilità.

Questo processo fornisce un quadro completo che integra informazioni iniziali e nuove evidenze, superando i limiti delle stime puntuali della massima verosimiglianza. Ad esempio, se la distribuzione a posteriori è concentrata attorno a \(\theta = 0.8\), possiamo concludere che è plausibile che la moneta sia sbilanciata a favore di “testa”. Tuttavia, l’intervallo di credibilità (ad esempio, \([0.6, 0.95]\)) ci fornisce anche una misura dell’incertezza associata a questa stima.

48.2 Un’introduzione ai Priori

Ciò che distingue l’approccio bayesiano da quello basato sulla massima verosimiglianza è l’uso esplicito di credenze iniziali riguardo al fenomeno di interesse. Nel linguaggio bayesiano, queste credenze sono formalizzate come distribuzioni di probabilità, chiamate distribuzioni a priori. Le distribuzioni a priori rappresentano la nostra conoscenza o le nostre ipotesi su un parametro o un’ipotesi prima di osservare i dati. Esse forniscono un punto di partenza per l’inferenza, permettendo di incorporare informazioni pregresse nel processo di analisi.

A seconda del grado di conoscenza o incertezza che abbiamo prima di raccogliere i dati, le distribuzioni a priori possono assumere forme diverse. Questa variabilità riflette il livello di fiducia o informazione iniziale e influenza in modo significativo il modo in cui le nuove evidenze vengono integrate nel processo di aggiornamento bayesiano. La scelta della distribuzione a priori è quindi un aspetto cruciale, poiché determina come le credenze iniziali interagiscono con i dati osservati per produrre la distribuzione a posteriori, ovvero la nostra credenza aggiornata.

48.2.1 Priori Non Informativi

Come suggerisce il nome, i priori non informativi (Flat Priors) sono generalmente privi di informazioni specifiche. Esistono diverse tipologie di distribuzioni a priori non informative, ma la loro distinzione dettagliata esula dallo scopo di questa trattazione. Sono spesso definiti flat priors perché la loro funzione di densità di probabilità appare come una linea orizzontale quando rappresentata graficamente. Questa distribuzione, classificata come uniforme, assegna la stessa probabilità a tutti i possibili valori del parametro, riflettendo così un’ignoranza totale riguardo al parametro (Gelman et al., 1995).

In generale, l’uso di priori non informativi è sconsigliato, a meno che non si abbia effettivamente nessuna conoscenza preliminare o convinzione riguardo ai valori probabili del parametro (Johnson et al., 2022; McElreath, 2020). Infatti, in alcuni casi, l’uso di un prior non informativo porta a una distribuzione a posteriori identica alla funzione di verosimiglianza, con stime dei parametri indistinguibili da quelle ottenute con l’approccio frequentista della massima verosimiglianza. Di conseguenza, l’adozione di un’inferenza bayesiana in tali contesti potrebbe essere non giustificata, poiché il concetto di priors è centrale nella statistica bayesiana.

48.2.2 Priori Debolmente Informativi

Spesso non abbiamo una conoscenza precisa del parametro d’interesse, ma solo un’idea generale o vincoli noti (ad esempio, l’associazione positiva tra ore di studio e punteggio in un test di matematica). In tali situazioni, possiamo utilizzare priori debolmente informativi (anche detti vaguely informative o default priors). Questi prior incorporano informazioni generali o vincoli sul parametro senza influenzare in modo eccessivo i risultati della posteriori.

I priori debolmente informativi (Default Priors) rappresentano un compromesso tra l’integrazione di conoscenze pregresse e l’evitare bias significativi, permettendo ai dati di “dominare” i risultati (Gelman et al., 2021). Sono particolarmente utili quando le informazioni preliminari sono limitate o quando si desidera ridurre al minimo l’impatto di credenze iniziali forti.

48.2.3 Priori Informativi

Diversamente dai priori debolmente informativi o non informativi, i priori informativi trasmettono informazioni deliberate e specifiche sul parametro d’interesse. Questi priori si basano su conoscenze consolidate, risultati di studi precedenti o opinioni di esperti (Falconer et al., 2022) e hanno un’influenza maggiore sulla distribuzione a posteriori rispetto ai priori default o flat.

I priori informativi sono particolarmente utili in presenza di campioni ridotti, poiché restringono lo spazio credibile del parametro e consentono intervalli di incertezza più stretti (Kruschke, 2014). Tuttavia, richiedono una definizione accurata, basata su evidenze solide.

48.3 Costante di Normalizzazione e Priori Coniugati

Nell’equazione del teorema di Bayes:

\[ p(\theta \mid \text{dati}) = \frac{p(\theta) \cdot p(\text{dati} \mid \theta)}{p(\text{dati})}, \]

la costante di normalizzazione, indicata come \(p(\text{dati})\), rappresenta la probabilità complessiva di osservare i dati, indipendentemente dal valore specifico del parametro \(\theta\). Questo termine garantisce che la distribuzione a posteriori sia una distribuzione di probabilità valida, cioè che la somma (o l’integrale) delle probabilità sia uguale a 1. In altre parole, la costante di normalizzazione “aggiusta” la distribuzione risultante affinché sia coerente con le regole della probabilità.

Calcolare \(p(\text{dati})\) può essere complesso, poiché richiede di considerare tutte le possibili combinazioni di dati e valori del parametro. Tuttavia, in molti casi pratici, non è necessario calcolarla esplicitamente, poiché la forma della distribuzione a posteriori può essere dedotta direttamente dal prodotto tra la distribuzione a priori e la verosimiglianza, a meno di una costante.

48.3.1 Priori Coniugati

I priori coniugati sono una scelta specifica di distribuzione a priori che, quando combinata con una determinata verosimiglianza, produce una distribuzione a posteriori della stessa famiglia. Questa proprietà semplifica notevolmente i calcoli, rendendo l’aggiornamento bayesiano più efficiente dal punto di vista computazionale.

Esempio: Se la verosimiglianza è binomiale e la distribuzione a priori è una Beta, la distribuzione a posteriori sarà ancora una Beta. Questo caso è particolarmente utile, ad esempio, quando si studia la probabilità di successo in una serie di prove (come il lancio di una moneta).

Vantaggi dei Priori Coniugati:

  • Calcolo diretto: La distribuzione a posteriori può essere determinata analiticamente senza metodi numerici complessi.
  • Efficienza computazionale: Ideale per modelli semplici e ben definiti.

Limitazioni:

  • Applicabile solo a modelli specifici e semplici.
  • Non adatto a situazioni con dati complessi o modelli ad alta dimensionalità.

48.3.2 Metodi Approssimativi

Quando i priori coniugati non sono applicabili o il modello è troppo complesso per soluzioni analitiche, si ricorre a metodi numerici approssimativi. Uno dei più utilizzati è il Markov-Chain Monte Carlo (MCMC), una tecnica di campionamento casuale che permette di stimare la distribuzione a posteriori anche in casi complessi.

Vantaggi dei Metodi Approssimativi:

  • Flessibilità: Possono gestire modelli complessi e dati reali con molte variabili.
  • Precisione: Forniscono stime accurate della distribuzione a posteriori, anche in assenza di soluzioni analitiche.

Svantaggi:

  • Costo computazionale: Richiedono più tempo e risorse rispetto ai metodi analitici.
  • Complessità implementativa: Possono richiedere una maggiore attenzione nella scelta dei parametri e nella validazione dei risultati.

In sintesi, la scelta tra approccio analitico e numerico dipende dalla complessità del problema e dalle risorse disponibili. Mentre i priori coniugati e i metodi analitici sono ideali per modelli semplici, i metodi numerici come l’MCMC offrono la flessibilità necessaria per affrontare problemi più complessi. In ogni caso, l’obiettivo è sempre lo stesso: aggiornare le nostre credenze in modo rigoroso e sistematico, integrando nuove evidenze con le conoscenze pregresse.

48.3.3 Approfondimenti sull’MCMC e Altri Metodi Numerici

Quando i modelli diventano troppo complessi per essere risolti analiticamente, l’approccio bayesiano si affida a metodi numerici per approssimare la distribuzione a posteriori. Uno dei metodi più potenti e diffusi è il Markov-Chain Monte Carlo (MCMC), che permette di campionare dalla distribuzione a posteriori anche in assenza di soluzioni esatte. Questo metodo è particolarmente utile quando i priori coniugati non sono applicabili o quando il modello coinvolge molte variabili e parametri.

48.3.3.1 Cos’è l’MCMC?

L’MCMC è una famiglia di algoritmi che generano una sequenza di campioni (una “catena”) dalla distribuzione a posteriori. Ogni campione rappresenta un possibile valore del parametro di interesse, e i campioni successivi dipendono dai precedenti, come i collegamenti di una catena. Con un numero sufficiente di iterazioni, questa catena converge alla distribuzione a posteriori, permettendo di stimarne forma, centro e variabilità.

Come funziona l’MCMC? - Metropolis-Hastings: Questo algoritmo è adatto a distribuzioni generiche. Richiede la definizione di una “funzione proposta” che suggerisce nuovi valori per il parametro, che vengono poi accettati o rifiutati in base a una regola probabilistica. - Gibbs Sampling: Questo metodo è particolarmente efficace quando le distribuzioni condizionali dei parametri sono note, anche se la distribuzione congiunta è complessa. In pratica, si campiona iterativamente da ciascuna distribuzione condizionale, aggiornando un parametro alla volta.

Pratiche comuni in MCMC: - Warm-up (o burn-in): All’inizio dell’algoritmo, i campioni vengono scartati per permettere alla catena di stabilizzarsi e raggiungere la distribuzione target. Questa fase è cruciale per evitare che i campioni iniziali, spesso non rappresentativi, influenzino i risultati. - Thinning: Per ridurre l’autocorrelazione tra i campioni, si seleziona solo uno ogni n campioni (ad esempio, ogni 5° campione). Questo migliora l’efficienza e l’indipendenza dei campioni utilizzati per l’analisi.

48.3.3.2 Altri Metodi Numerici

Oltre all’MCMC, esistono altri metodi numerici per approssimare la distribuzione a posteriori, ciascuno con i propri vantaggi e svantaggi:

  • Variational Bayes: Questo approccio approssima la distribuzione a posteriori risolvendo un problema di ottimizzazione, minimizzando la divergenza di Kullback-Leibler tra una distribuzione proposta \(q(z)\) e la distribuzione reale \(p(z \mid x)\). È più veloce dell’MCMC ma meno preciso, soprattutto per distribuzioni complesse.
  • Approssimazione di Laplace: Questo metodo semplifica la distribuzione a posteriori approssimandola con una distribuzione normale centrata sul valore MAP (Maximum A Posteriori). È utile per modelli semplici ma meno accurato per distribuzioni non gaussiane.

Vantaggi e Svantaggi degli Approcci Numerici: - Vantaggi: - Applicabilità a modelli complessi e ad alta dimensionalità. - Flessibilità nell’incorporare informazioni a priori dettagliate. - Svantaggi: - Richiedono risorse computazionali elevate. - Necessitano di un tuning accurato degli algoritmi (ad esempio, scelte iniziali in MCMC).

48.3.4 Linguaggi di Programmazione Probabilistica (PPL)

Per semplificare l’implementazione dei metodi numerici, sono stati sviluppati linguaggi di programmazione probabilistica (PPL). Questi strumenti automatizzano il processo di inferenza bayesiana, permettendo ai ricercatori di concentrarsi sulla modellizzazione mentre il PPL gestisce l’inferenza sottostante.

48.3.4.1 PPL più Diffusi

  • Stan: Un linguaggio efficiente e flessibile, ampiamente utilizzato in ambito accademico per la sua capacità di gestire modelli complessi.
  • PyMC: Una libreria user-friendly per Python, ideale per chi preferisce un approccio più accessibile.
  • TensorFlow Probability: Combina modellizzazione probabilistica e apprendimento automatico, offrendo strumenti avanzati per l’inferenza bayesiana.

I PPL consentono di definire il modello probabilistico in modo intuitivo e delegare l’inferenza agli algoritmi numerici sottostanti, come MCMC o inferenza variazionale. Questo rende l’inferenza bayesiana più accessibile e applicabile a una vasta gamma di problemi, inclusi quelli in psicologia, biologia, economia e scienze sociali.

48.3.5 Notazione nei Modelli Bayesiani

Nella formulazione dei modelli bayesiani, è comune utilizzare una notazione standard per descrivere le relazioni tra dati, parametri e distribuzioni. Ecco un esempio di come viene strutturata un’equazione bayesiana:

  • \(y\): Dati osservati.
  • \(\theta\): Parametri sconosciuti.
  • \(x\): Quantità note (ad esempio, predittori o variabili esplicative).

Esempio di Modello: Supponiamo di voler modellare un insieme di dati \(y\) come provenienti da una distribuzione normale con media \(\mu\) e deviazione standard \(\sigma\). Le distribuzioni a priori per \(\mu\) e \(\sigma\) potrebbero essere specificate come segue:

\[ \begin{aligned} y & \sim \mathrm{normal}(\mu, \sigma), \\ \mu & \sim \mathrm{normal}(0, 10), \\ \sigma & \sim \mathrm{normal}^+(\sigma \mid 0, 1), \end{aligned} \]

dove il simbolo \(\sim\) indica “è distribuito come”. La stessa espressione può essere scritta in termini di probabilità:

\[ \begin{aligned} p(y \mid \mu, \sigma) & = \mathrm{normal}(y \mid \mu, \sigma), \\ p(\mu) & = \mathrm{normal}(\mu \mid 0, 10), \\ p(\sigma) & = \mathrm{normal}^+(\sigma \mid 0, 1). \end{aligned} \]

Questa notazione chiarisce come i dati e i parametri siano collegati attraverso distribuzioni di probabilità, fornendo un quadro completo per l’inferenza bayesiana.

48.4 Riflessioni Conclusive

L’inferenza bayesiana è un approccio potente e versatile per aggiornare le nostre credenze alla luce di nuove evidenze. La sua peculiarità risiede nella capacità di rispondere a una domanda fondamentale per la ricerca scientifica: qual è la probabilità dei parametri (o delle ipotesi) dati i dati osservati? Questo concetto, noto come probabilità inversa, è il cuore dell’approccio bayesiano e lo distingue dall’inferenza frequentista, che si concentra invece sulla probabilità dei dati condizionata ai parametri.

Il teorema di Bayes formalizza questa intuizione, permettendoci di calcolare la distribuzione a posteriori \(p(\theta \mid D)\), che rappresenta la nostra credenza aggiornata sui parametri \(\theta\) dopo aver osservato i dati \(D\):

\[ p(\theta \mid D) = \frac{p(D \mid \theta) \cdot p(\theta)}{p(D)}. \]

Questa equazione mostra come, partendo da un modello generativo \(p(D \mid \theta)\) dei dati osservati e combinando questo con una distribuzione a priori \(p(\theta)\), sia possibile inferire la distribuzione a posteriori \(p(\theta \mid D)\). Questo processo di aggiornamento consente di integrare in modo rigoroso e sistematico nuove evidenze con conoscenze pregresse.

Una stima puntuale comunemente utilizzata nell’inferenza bayesiana è il Massimo A Posteriori (MAP), ovvero il valore di \(\theta\) che massimizza la distribuzione a posteriori:

\[ \theta^* = \arg \max_\theta p(\theta \mid D). \]

Nel caso di un prior non informativo (una distribuzione a priori piatta), la stima MAP coincide con la stima di massima verosimiglianza (MLE), che massimizza la probabilità dei dati osservati. Tuttavia, in presenza di informazioni a priori rilevanti e ben specificate, la stima MAP combina i dati osservati con le credenze iniziali, fornendo una stima più robusta e informata.

La forza dell’approccio bayesiano risiede nella sua capacità di affrontare diverse sfide:

  • Incertezza delle ipotesi: In contesti come la psicologia, la medicina o le scienze sociali, dove le ipotesi sono spesso incerte, l’inferenza bayesiana permette di valutarne la plausibilità.
  • Dati limitati o rumorosi: Quando i dati sono scarsi o affetti da rumore, l’approccio bayesiano garantisce stime più robuste integrando informazioni a priori.
  • Confronto tra ipotesi complesse: L’approccio bayesiano consente di confrontare e valutare ipotesi multiple in modo rigoroso.

Il teorema di Bayes offre un quadro formale per quantificare l’incertezza e aggiornare le credenze in modo dinamico. Questo è particolarmente utile in situazioni in cui:

  • Le informazioni a priori sono cruciali per guidare l’inferenza.
  • È necessario un compromesso tra conoscenze pregresse e nuove evidenze.
  • I problemi analizzati sono complessi e richiedono strumenti avanzati.

Per modelli semplici, i priori coniugati e i metodi analitici possono essere sufficienti. Tuttavia, per problemi più complessi, l’uso di strumenti numerici come l’MCMC (Markov Chain Monte Carlo) e i linguaggi di programmazione probabilistica (PPL) è indispensabile. Questi strumenti consentono di applicare l’approccio bayesiano a scenari realistici, superando le limitazioni computazionali e garantendo maggiore flessibilità.

In conclusione, l’inferenza bayesiana non è solo un metodo statistico, ma un paradigma che trasforma il modo di pensare alla scienza e alla conoscenza. Essa permette di formulare domande scientificamente rilevanti, di quantificare l’incertezza e di aggiornare le credenze in modo rigoroso. Attraverso il teorema di Bayes, possiamo passare dalla domanda “qual è la probabilità dei dati dati i parametri?” alla domanda più interessante: “qual è la probabilità dei parametri dati i dati?”

Questa inversione di prospettiva, unita agli strumenti computazionali moderni, rende l’approccio bayesiano uno strumento indispensabile per la ricerca scientifica contemporanea. In un’epoca caratterizzata da dati complessi e incertezze diffuse, il paradigma bayesiano si pone come una guida affidabile per comprendere meglio il mondo attraverso l’analisi rigorosa e l’aggiornamento continuo delle nostre credenze.

Esercizi

  1. Qual è la differenza principale tra l’approccio bayesiano e l’approccio frequentista all’inferenza statistica?

  2. Cosa rappresenta la distribuzione a priori in inferenza bayesiana e quale ruolo svolge nel processo inferenziale?

  3. Come si calcola la distribuzione a posteriori in inferenza bayesiana e quali sono i suoi elementi principali?

  4. Qual è il significato della funzione di verosimiglianza nel teorema di Bayes?

  5. Come viene interpretata la probabilità nell’approccio bayesiano rispetto a quello frequentista?

  6. Quali sono i vantaggi principali dell’inferenza bayesiana rispetto all’inferenza frequentista?

  7. Cos’è una distribuzione a priori coniugata e quali vantaggi offre nel calcolo della distribuzione a posteriori?

  8. Quali sono i principali metodi numerici utilizzati per approssimare la distribuzione a posteriori quando i calcoli analitici non sono possibili?

  9. Cosa sono i modelli generativi dei dati e quale ruolo svolgono nell’inferenza bayesiana?

  10. Quali sono le tre principali giustificazioni teoriche per l’uso delle probabilità come misura di credenza nell’inferenza bayesiana?

Consegna: Rispondi con parole tue e carica il file .qmd, convertito in PDF su Moodle.

  1. La differenza principale tra l’approccio bayesiano e quello frequentista riguarda l’interpretazione del parametro \(\theta\). Nell’approccio bayesiano, il parametro è considerato una variabile aleatoria con una distribuzione a priori, mentre nell’approccio frequentista il parametro è una quantità fissa e sconosciuta. Inoltre, l’inferenza bayesiana aggiorna le credenze attraverso il teorema di Bayes, mentre l’inferenza frequentista basa le proprie conclusioni solo sui dati osservati.

  2. La distribuzione a priori rappresenta le credenze iniziali riguardo al parametro \(\theta\) prima di osservare i dati. Essa consente di integrare informazioni pregresse o conoscenze esterne nel processo inferenziale, influenzando la distribuzione a posteriori e permettendo di aggiornare le credenze alla luce di nuove evidenze.

  3. La distribuzione a posteriori si calcola applicando il teorema di Bayes:

    \[ f(\theta \mid x) = \frac{f(x \mid \theta) f(\theta)}{f(x)} \]

    I suoi elementi principali sono:

    • La funzione di verosimiglianza \(f(x \mid \theta)\), che esprime la probabilità di osservare i dati dato un valore del parametro.
    • La distribuzione a priori \(f(\theta)\), che rappresenta le credenze iniziali sul parametro.
    • La costante di normalizzazione \(f(x)\), che garantisce che la distribuzione a posteriori sia una distribuzione di probabilità valida.
  4. La funzione di verosimiglianza, \(f(x \mid \theta)\), rappresenta la probabilità di osservare i dati dati i valori del parametro \(\theta\). Essa è fondamentale nel teorema di Bayes perché determina quanto bene un certo valore di \(\theta\) spiega i dati osservati, contribuendo alla determinazione della distribuzione a posteriori.

  5. Nell’approccio bayesiano, la probabilità è interpretata come un grado di credenza soggettivo su un evento o un parametro incerto. Nell’approccio frequentista, invece, la probabilità è definita come il limite della frequenza relativa di un evento dopo un numero infinito di ripetizioni. Questo porta a differenze metodologiche nel modo in cui vengono effettuate le inferenze.

  6. I principali vantaggi dell’inferenza bayesiana sono:

    • Integrazione di informazioni pregresse: Permette di combinare dati osservati con conoscenze precedenti.
    • Quantificazione dell’incertezza: Fornisce una distribuzione completa dei parametri, anziché un singolo valore stimato.
    • Flessibilità: Può essere applicata a modelli complessi e a problemi con pochi dati.
    • Interpretazione intuitiva: Le probabilità risultanti rappresentano direttamente il grado di credenza sui parametri.
  7. Una distribuzione a priori coniugata è una scelta specifica di distribuzione a priori che, quando combinata con una verosimiglianza di una certa famiglia, produce una distribuzione a posteriori della stessa famiglia. Ad esempio, una distribuzione Beta come prior per un parametro binomiale produce una distribuzione Beta come a posteriori. Questo semplifica enormemente i calcoli, poiché la distribuzione a posteriori può essere determinata in modo analitico senza necessità di metodi numerici complessi.

  8. Quando non è possibile calcolare la distribuzione a posteriori in modo analitico, si utilizzano metodi numerici come:

    • Markov Chain Monte Carlo (MCMC): Un insieme di algoritmi di campionamento (ad esempio, Metropolis-Hastings e Gibbs Sampling) che permette di stimare la distribuzione a posteriori generando campioni iterativi.
    • Inferenza Variazionale: Un metodo di approssimazione che ottimizza una distribuzione più semplice per avvicinarsi alla distribuzione a posteriori.
    • Approssimazione di Laplace: Un’approssimazione basata sulla normalizzazione locale intorno al massimo a posteriori (MAP).
  9. Un modello generativo dei dati è una rappresentazione matematica del processo che ha generato i dati osservati. Esso definisce la relazione tra il parametro sconosciuto \(\theta\) e i dati \(\mathbf{x}\) attraverso una distribuzione di probabilità. Nell’inferenza bayesiana, il modello generativo aiuta a formulare la funzione di verosimiglianza e a inferire i parametri che meglio spiegano i dati.

  10. Le tre principali giustificazioni per l’uso delle probabilità come misura di credenza nell’inferenza bayesiana sono:

  • Argomento della scommessa olandese (Dutch Book): Se i gradi di credenza non rispettano le regole della probabilità, si possono costruire scommesse che garantiscono una perdita certa, dimostrando che è irrazionale non seguire le leggi della probabilità.
  • Argomento decisionistico: Per massimizzare l’utilità attesa nelle scelte razionali, i gradi di credenza devono seguire le regole della probabilità. Se non lo fanno, si possono prendere decisioni incoerenti o subottimali.
  • Argomento epistemico: Le funzioni di probabilità minimizzano l’errore epistemico rispetto alla verità oggettiva, rendendole la struttura più razionale per rappresentare le credenze in condizioni di incertezza.

Informazioni sull’Ambiente di Sviluppo

sessionInfo()
#> R version 4.4.2 (2024-10-31)
#> Platform: aarch64-apple-darwin20
#> Running under: macOS Sequoia 15.3.2
#> 
#> Matrix products: default
#> BLAS:   /Library/Frameworks/R.framework/Versions/4.4-arm64/Resources/lib/libRblas.0.dylib 
#> LAPACK: /Library/Frameworks/R.framework/Versions/4.4-arm64/Resources/lib/libRlapack.dylib;  LAPACK version 3.12.0
#> 
#> locale:
#> [1] C/UTF-8/C/C/C/C
#> 
#> time zone: Europe/Rome
#> tzcode source: internal
#> 
#> attached base packages:
#> [1] stats     graphics  grDevices utils     datasets  methods   base     
#> 
#> other attached packages:
#>  [1] thematic_0.1.6   MetBrewer_0.2.0  ggokabeito_0.1.0 see_0.11.0      
#>  [5] gridExtra_2.3    patchwork_1.3.0  bayesplot_1.11.1 psych_2.5.3     
#>  [9] scales_1.3.0     markdown_2.0     knitr_1.50       lubridate_1.9.4 
#> [13] forcats_1.0.0    stringr_1.5.1    dplyr_1.1.4      purrr_1.0.4     
#> [17] readr_2.1.5      tidyr_1.3.1      tibble_3.2.1     ggplot2_3.5.1   
#> [21] tidyverse_2.0.0  rio_1.2.3        here_1.0.1      
#> 
#> loaded via a namespace (and not attached):
#>  [1] generics_0.1.3    stringi_1.8.4     lattice_0.22-6    hms_1.1.3        
#>  [5] digest_0.6.37     magrittr_2.0.3    evaluate_1.0.3    grid_4.4.2       
#>  [9] timechange_0.3.0  fastmap_1.2.0     rprojroot_2.0.4   jsonlite_1.9.1   
#> [13] mnormt_2.1.1      cli_3.6.4         rlang_1.1.5       munsell_0.5.1    
#> [17] withr_3.0.2       tools_4.4.2       parallel_4.4.2    tzdb_0.5.0       
#> [21] colorspace_2.1-1  pacman_0.5.1      vctrs_0.6.5       R6_2.6.1         
#> [25] lifecycle_1.0.4   htmlwidgets_1.6.4 pkgconfig_2.0.3   pillar_1.10.1    
#> [29] gtable_0.3.6      glue_1.8.0        xfun_0.51         tidyselect_1.2.1 
#> [33] rstudioapi_0.17.1 farver_2.1.2      htmltools_0.5.8.1 nlme_3.1-167     
#> [37] rmarkdown_2.29    compiler_4.4.2

Bibliografia

Alter, U., Too, M. A., & Cribbie, R. A. (2025). Navigating the Bayes maze: The psychologist’s guide to Bayesian statistics, a hands-on tutorial with R code. International Journal of Psychology, 60(1), e13271.
Falconer, J. R., Frank, E., Polaschek, D. L., & Joshi, C. (2022). Methods for eliciting informative prior distributions: A critical review. Decision Analysis, 19(3), 189–204.
Gelman, A., Carlin, J. B., Stern, H. S., & Rubin, D. B. (1995). Bayesian data analysis. Chapman; Hall/CRC.
Gelman, A., Hill, J., & Vehtari, A. (2021). Regression and other stories. Cambridge University Press.
Johnson, A. A., Ott, M., & Dogucu, M. (2022). Bayes Rules! An Introduction to Bayesian Modeling with R. CRC Press.
Kruschke, J. (2014). Doing Bayesian data analysis: A tutorial with R, JAGS, and Stan. Academic Press.
McElreath, R. (2020). Statistical rethinking: A Bayesian course with examples in R and Stan (2nd Edition). CRC Press.