5  Il teorema di Bayes

“It is, without exaggeration, perhaps the most important single equation in history.”

Tom Chivers (2024)

Introduzione

Il teorema di Bayes costituisce un metodo matematico ottimale per risolvere problemi di inferenza induttiva, ovvero situazioni in cui si deducono cause sottostanti, principi generali o strutture complesse a partire da dati parziali e incerti. Trova applicazione in scenari disparati: dalla ricostruzione della percezione tridimensionale basata su segnali retinici all’interpretazione degli stati mentali altrui attraverso il comportamento osservabile, fino alla stima di parametri fisici in condizioni sperimentali rumorose (Baker et al., 2011; Ma et al., 2023). La sua efficacia emerge soprattutto in contesti dove le evidenze disponibili non permettono di discriminare univocamente tra ipotesi concorrenti.

Panoramica del capitolo

  • L’importanza dell teorema di Bayes.
  • l’utilizzo del teorema di Bayes per analizzare e interpretare i test diagnostici, tenendo in considerazione la prevalenza della malattia in questione.
  • Soluzione di problemi di probabilità discreta che necessitano dell’applicazione del teorema di Bayes.
here::here("code", "_common.R") |> 
  source()

5.0.1 Incertezza come fondamento dell’inferenza

Un principio cardine del ragionamento bayesiano è il riconoscimento dell’incertezza intrinseca a qualsiasi processo conoscitivo. Anche in un universo deterministico, la complessità dei sistemi e i limiti dei nostri sensi rendono impossibile una conoscenza completa. Ad esempio, non possiamo determinare con esattezza infiniti dettagli (come posizione e stato di ogni neurone nel cervello di un interlocutore) né accedere direttamente a variabili latenti (come emozioni o intenzioni). Di conseguenza, ogni inferenza conserva un margine probabilistico, che Bayes quantifica e trasforma in uno strumento operativo.

5.0.2 Dinamica bayesiana: aggiornare le credenze

La realtà assomiglia più a una partita di poker che a una di scacchi: operiamo costantemente in condizioni di informazione imperfetta e incompleta. Le decisioni si basano su un bilanciamento dinamico tra conoscenze pregresse (prior) e nuovi indizi (evidenza), un processo formalizzato dall’equazione di Bayes:

\[ P(H \mid E) = \frac{P(E \mid H) \cdot P(H)}{P(E)} , \tag{1} \] dove:

  • \(P(H \mid E)\) (probabilità a posteriori): plausibilità rivista dell’ipotesi \(H\) dopo aver osservato l’evidenza \(E\);
  • \(P(E \mid H)\) (verosimiglianza): probabilità di osservare \(E\) nell’ipotesi che \(H\) sia vera;
  • \(P(H)\) (probabilità a priori): grado di fiducia iniziale in \(H\), prima di raccogliere \(E\);
  • \(P(E)\) (probabilità marginale dell’evidenza): fattore di normalizzazione, calcolato tramite il teorema della probabilità totale.

Questo meccanismo consente di ricalibrare razionalmente le convinzioni alla luce di nuove informazioni, riducendo progressivamente l’incertezza attraverso un aggiornamento sequenziale e coerente.

5.0.3 Inferenza induttiva e razionalità adattiva

L’inferenza induttiva bayesiana rappresenta un pilastro della razionalità scientifica e quotidiana. A differenza della logica deduttiva (dove le conclusioni derivano necessariamente dalle premesse), Bayes riconcilia teoria ed evidenza empirica, consentendo previsioni robuste nonostante dati incompleti. Le applicazioni spaziano:

  • in psicologia cognitiva, modellando come il cervello interpreta segnali ambigui (Caudek & Bruno, 2024; Domini & Caudek, 2003);
  • nell’intelligenza artificiale, guidando algoritmi di apprendimento automatico (Chivers, 2024);
  • nelle scienze sociali, per stimare preferenze nascoste da comportamenti osservati.

Il teorema non elimina l’incertezza, ma fornisce un protocollo formale per gestirla, trasformando l’induzione da atto intuitivo a procedura rigorosa. In questo senso, incarna un principio di razionalità adattiva, dove l’ottimalità non richiede onniscienza, bensì un aggiornamento coerente delle credenze in risposta all’esperienza.

5.0.4 Una rivoluzione nel pensiero probabilistico

Per comprendere appieno il teorema di Bayes, è necessario delineare le sue origini storiche. Nel XVIII secolo, Thomas Bayes (1701-1761), ecclesiastico presbiteriano e matematico britannico, pose le basi di una rivoluzione concettuale nel campo della probabilità e della statistica. Il suo contributo teorico, passato alla storia come teorema di Bayes, ha plasmato in modo decisivo lo sviluppo scientifico e tecnologico dei secoli successivi, influenzando discipline che spaziano dalla medicina all’intelligenza artificiale (Chivers, 2024).

5.0.4.1 La figura di Thomas Bayes

Bayes proveniva da una famiglia benestante e studiò teologia a Edimburgo, preparandosi al ministero religioso. Come ricorda il biografo David Bellhouse, Bayes non era un accademico nel senso moderno del termine, ma un erudito libero, interessato alla conoscenza per passione personale (Bellhouse, 2004).

Durante la sua vita, Bayes pubblicò due testi:

  1. un trattato di teologia: Divine Benevolence: Or, an Attempt to Prove that the Principal End of the Divine Providence and Government is the Happiness of His Creatures (1731), una teodicea che cerca di spiegare come la legge naturale possa ottimizzare il benessere universale;
  2. una difesa del calcolo infinitesimale: An Introduction to the Doctrine of Fluxions (1736), in risposta alle critiche di George Berkeley sugli infinitesimi e i concetti fondamentali del calcolo newtoniano (Jesseph, 1993).

Il lavoro che segnò la svolta nella teoria della probabilità fu però pubblicato postumo, nel 1763, sulle Philosophical Transactions of the Royal Society: An Essay towards Solving a Problem in the Doctrine of Chances. Per la prima volta, si formalizzava un metodo per aggiornare le ipotesi probabilistiche alla luce di nuove evidenze, ponendo le fondamenta dell’inferenza bayesiana (Stigler, 1990).

5.0.4.2 Bayes e il ruolo culturale della scienza

Come sottolinea ancora Bellhouse, nel XVIII secolo era comune, tra le élite colte, dedicarsi allo studio di discipline scientifiche per prestigio sociale. Per Bayes, la matematica era dunque una passione coltivata con spirito libero. Il suo merito straordinario fu di spingere l’interpretazione della probabilità verso una prospettiva epistemologica innovativa, dove la probabilità diventa espressione quantitativa della nostra ignoranza sul mondo.

In contrapposizione alla visione “classica”, che vedeva la probabilità come frequenza osservabile in eventi ripetuti, Bayes propose che essa potesse rappresentare il grado di fiducia di un osservatore, inevitabilmente influenzato da conoscenze pregresse e da pregiudizi individuali. In questo senso, la probabilità assume un carattere dinamico e soggettivo, configurandosi come uno strumento di conoscenza che si aggiorna di continuo al variare dei dati (Spiegelhalter, 2019).

5.0.4.3 Un esperimento mentale illuminante

Per illustrare la sua idea, Bayes propose un semplice esempio: immagina di lanciare alcune palline su un tavolo da biliardo. Dopo aver segnato con una linea il punto in cui si ferma una pallina bianca (e averla poi rimossa), si lanciano altre palline rosse e si conta quante cadono a destra e quante a sinistra di quella linea. Sulla base di queste osservazioni, come si può “indovinare” la posizione della linea? E con quale probabilità la prossima pallina rossa cadrà a sinistra di essa?

La soluzione di Bayes combina i dati osservati (numero di palline cadute a sinistra o a destra) con le convinzioni iniziali dell’osservatore (il cosiddetto “prior”), delineando un processo di apprendimento graduale che guida la revisione critica delle ipotesi.

5.0.4.4 Il ruolo di Richard Price

Dopo la morte di Bayes, fu un altro ecclesiastico, Richard Price (1723-1791), a dare impulso alla diffusione del saggio bayesiano. Price aveva un’ottima reputazione negli ambienti intellettuali dell’epoca, grazie anche alle sue relazioni con figure di spicco come Benjamin Franklin, Thomas Jefferson e John Adams.

Price prese in carico il manoscritto di Bayes, lo sottopose al fisico John Canton e ne curò la pubblicazione postuma, operando modifiche significative. Rispetto alla versione originale di Bayes, concentrata quasi esclusivamente sugli aspetti teorici, Price aggiunse una parte dedicata alle applicazioni pratiche, rendendo il testo più fruibile a un pubblico più ampio. Per questo motivo, lo storico Stephen Stigler lo definisce «il primo bayesiano della storia».

5.0.4.5 Dal silenzio alla riscoperta

Per oltre cinquant’anni, il lavoro di Bayes rimase in ombra, oscurato dall’opera pionieristica di Pierre-Simon Laplace. Già nel 1774, Laplace pervenne indipendentemente a principi analoghi, e successivamente li sistematizzò nella monumentale Théorie analytique des probabilités (1812). Solo in tempi più recenti, con l’avvento dei metodi di calcolo moderno e dell’informatica, la statura del teorema di Bayes è emersa in tutta la sua importanza.

Oggi, il teorema di Bayes è considerato un cardine della statistica moderna: formalizza il modo in cui aggiorniamo le nostre credenze alla luce di nuovi dati. Questo schema è cruciale in ogni disciplina scientifica e tecnologica che debba fare i conti con incertezza e dati incompleti. Dalla genomica all’econometria, dalla fisica delle particelle alle scienze cognitive, il paradigma bayesiano risulta prezioso per gestire e interpretare informazioni in continuo aggiornamento.

5.0.4.6 L’eredità di Bayes nell’era digitale

Nell’intelligenza artificiale, le idee bayesiane sono alla base di sistemi di apprendimento automatico e modelli probabilistici complessi. Strumenti come i moderni modelli linguistici (ad esempio ChatGPT e Claude) sfruttano strategie di inferenza bayesiana – anche se in forme estremamente avanzate – per generare risposte, fare previsioni e adattarsi costantemente agli input degli utenti.

La parabola storica di questo teorema, nato dalle speculazioni di un pastore presbiteriano del Settecento, mostra chiaramente il potenziale trasformativo delle idee matematiche. Come sottolinea Tom Chivers nel suo Everything Is Predictable: How Bayesian Statistics Explain Our World, la statistica bayesiana è diventata una sorta di “grammatica universale” per interpretare la realtà, permettendoci di affrontare con metodo situazioni complesse, modellare l’incertezza e formulare previsioni in contesti dove l’informazione è inevitabilmente limitata (Chivers, 2024).

In sintesi, la forza del teorema di Bayes non risiede soltanto nella sua eleganza formale, ma soprattutto nella sua portata epistemologica: esso traduce in termini matematici la nostra naturale tendenza ad apprendere da ciò che osserviamo e a rivedere continuamente ciò che crediamo. Per questo rimane, ancora oggi, un punto di riferimento fondamentale in qualunque disciplina che affronti il problema della conoscenza in condizioni di incertezza.

5.1 La regola di Bayes e l’inferenza probabilistica

L’inferenza bayesiana utilizza un principio centrale della teoria delle probabilità noto come regola di Bayes. Questo principio consente di aggiornare in modo razionale le nostre credenze sulla base di nuovi dati osservati, integrandoli con conoscenze pregresse.

5.1.1 Derivazione della regola di Bayes

Consideriamo due eventi \(A\) e \(B\). La probabilità congiunta \(P(A \cap B)\), ovvero la probabilità che entrambi gli eventi si verifichino, può essere espressa in due modi equivalenti:

  1. Applicando la regola della catena (o teorema del prodotto): \[ P(A \cap B) = P(A \mid B) \cdot P(B). \] In questa formulazione, \(P(A \mid B)\) rappresenta la probabilità di \(A\) condizionata al verificarsi di \(B\), mentre \(P(B)\) è la probabilità marginale di \(B\).

  2. Sfruttando la simmetria della probabilità congiunta: \[ P(A \cap B) = P(B \mid A) \cdot P(A). \] Qui, \(P(B \mid A)\) è la probabilità di \(B\) dato \(A\), e \(P(A)\) è la probabilità marginale di \(A\).

Uguagliando le due espressioni: \[ P(A \mid B) \cdot P(B) = P(B \mid A) \cdot P(A). \]

Isolando \(P(B \mid A)\) si ottiene la regola di Bayes: \[ P(B \mid A) = \frac{P(A \mid B) \cdot P(B)}{P(A)}. \tag{5.1}\] Questa relazione fondamentale permette di “invertire” le probabilità condizionate, aggiornando la credenza nell’evento \(B\) dopo aver osservato \(A\).

5.1.2 Interpretazione dei termini della regola di Bayes

La regola di Bayes fornisce un framework formale per aggiornare la credenza in un’ipotesi \(B\) dopo l’osservazione di un’evidenza \(A\). I suoi componenti chiave sono:

  • \(P(B)\) (probabilità a priori): rappresenta la probabilità iniziale assegnata all’ipotesi \(B\) prima di considerare l’evidenza \(A\). Riflette la conoscenza pregressa o le aspettative basate sul contesto.

  • \(P(A \mid B)\) (verosimiglianza): esprime la probabilità di osservare l’evidenza \(A\) nell’ipotesi che \(B\) sia vero. Quantifica la compatibilità tra l’evidenza e l’ipotesi.

  • \(P(B \mid A)\) (probabilità a posteriori): corrisponde alla probabilità rivista dell’ipotesi \(B\) dopo aver considerato l’evidenza \(A\). Rappresenta l’aggiornamento bayesiano delle credenze.

  • \(P(A)\) (probabilità marginale dell’evidenza): agisce come fattore di normalizzazione, calcolato integrando o sommando su tutte le possibili ipotesi che potrebbero generare \(A\). Garantisce che la probabilità a posteriori sia coerente e normalizzata.

In sintesi, la regola di Bayes trasforma una probabilità a priori in una probabilità a posteriori, ponderando la verosimiglianza dell’evidenza osservata e normalizzando per l’evidenza complessiva.

5.1.3 Applicazioni della regola di Bayes

Nella pratica, l’aggiornamento bayesiano si articola attraverso i seguenti passi fondamentali:

  1. Definizione dello spazio delle ipotesi: Si identifica l’insieme \(\mathcal{H}\) di tutte le ipotesi, modelli o spiegazioni plausibili che potrebbero aver generato i dati osservati \(D\). Questo spazio può essere discreto (es.: un insieme finito di modelli) o continuo (es.: un intervallo di valori per un parametro).

  2. Specificazione dei priori: Ad ogni ipotesi \(H \in \mathcal{H}\) viene assegnata una probabilità a priori \(P(H)\). Questa quantifica il nostro grado di fiducia in \(H\) prima di osservare i dati \(D\), basandosi su conoscenza pregressa, letteratura scientifica o esperienza soggettiva.

  3. Aggiornamento bayesiano: Osservati i dati \(D\), le probabilità a priori vengono aggiornate calcolando le probabilità a posteriori \(P(H \mid D)\) utilizzando il teorema di Bayes:

    \[ P(H \mid D) = \frac{P(D \mid H) \, P(H)}{P(D)} \tag{5.2}\] dove:

    • \(P(D \mid H)\) è la funzione di verosimiglianza (likelihood). Essa rappresenta la probabilità (o densità di probabilità) di osservare i dati \(D\) sotto l’ipotesi \(H\).
    • \(P(H)\) è la probabilità a priori, come definita sopra.
    • \(P(D)\) è la probabilità marginale dei dati o evidenza. Questo termine funziona da costante di normalizzazione, assicurando che le probabilità a posteriori sommino (o integrino) a 1.
  4. Calcolo dell’evidenza (\(P(D)\)): La probabilità marginale viene calcolata considerando tutte le possibili ipotesi nello spazio \(\mathcal{H}\):

    • Caso discreto (somma su tutte le ipotesi): \[ P(D) = \sum_{H' \in \mathcal{H}} P(D \mid H')\, P(H') \]
    • Caso continuo (integrale su tutto lo spazio delle ipotesi): \[ P(D) = \int_{\mathcal{H}} P(D \mid H')\, P(H') \, dH' \]

Il risultato di questo processo è la distribuzione a posteriori \(P(H \mid D)\), che sintetizza in modo probabilistico tutto ciò che sappiamo su tutte le ipotesi considerate, dopo aver tenuto conto sia della nostra conoscenza iniziale (il priori) che delle nuove osservazioni (la verosimiglianza).

5.1.3.1 Un processo iterativo e dinamico

È cruciale sottolineare che l’inferenza bayesiana non è un procedimento statico che conduce a una verità finale. Al contrario, è un ciclo iterativo e perpetuo di apprendimento. La distribuzione a posteriori ottenuta (\(P(H \mid D)\)) diventa, a sua volta, la nuova distribuzione a priori per il successivo round di inferenza non appena diventano disponibili nuovi dati (\(D'\)):

\[ P(H \mid D, D') = \frac{P(D' \mid H, D) \, P(H \mid D)}{P(D' \mid D)} \] Questo processo di aggiornamento sequenziale riflette l’essenza stessa del metodo scientifico: le nostre credenze si evolvono e si affinano in modo dinamico, diventando sempre più informate man mano che accumuliamo evidenze. Non si giunge mai a un “punto di arrivo” assoluto, ma a uno stato di conoscenza sempre provvisorio e migliorabile, pronto a essere aggiornato dalla prossima osservazione.

Immagina di avere ricevuto un messaggio anonimo sul tuo cellulare con scritto solo “Ci vediamo stasera!”. Vuoi capire chi può essere stato a mandartelo. In questo esempio, il tuo “spazio delle ipotesi” sarà rappresentato da tre persone possibili: Alice, Bruno e Carla.

Quindi, hai un insieme di ipotesi molto semplice:

\[ \mathcal{H} = \{\text{Alice},\, \text{Bruno},\, \text{Carla}\} . \]

1. Probabilità a priori (prima di guardare i dati).

Supponi che ciascuna persona abbia una probabilità diversa di scriverti:

Ipotesi \(P(H)\)
Alice 0.5
Bruno 0.3
Carla 0.2

Queste sono le tue probabilità a priori, basate sulla tua esperienza o conoscenza passata (ad esempio, Alice tende a scriverti spesso, Carla raramente).

2. Come le ipotesi generano i dati (informazioni aggiuntive).

Ora raccogli alcune informazioni utili (i tuoi dati \(D\)):

  • Il messaggio dice “Ci vediamo stasera!”.

Rifletti sul fatto che ciascuna delle tre persone usa questa frase con frequenze diverse (sai, ad esempio, che Alice usa spesso frasi brevi come questa, mentre Bruno e Carla la usano meno spesso, ovvero tendono a scrivere messaggi più lunghi):

Ipotesi Probabilità di inviare questa specifica frase (\(P(D \mid H)\))
Alice 0.7
Bruno 0.4
Carla 0.1

Queste probabilità rappresentano il “meccanismo generatore dei dati”, ovvero come ciascuna persona (ipotesi) potrebbe generare proprio il messaggio che hai ricevuto.

3. Aggiornamento delle probabilità a posteriori (dopo aver osservato il messaggio).

Ora applichiamo la formula di Bayes per aggiornare la nostra fiducia iniziale:

\[ P(H \mid D) = \frac{P(D \mid H) \, P(H)}{P(D)} . \]

Prima calcoliamo la probabilità totale di ricevere quello specifico messaggio, indipendentemente da chi l’ha inviato. Usiamo il teorema della probabilità totale:

\[ P(D) = P(D\mid\text{Alice})P(\text{Alice}) + P(D\mid\text{Bruno})P(\text{Bruno}) + P(D\mid\text{Carla})P(\text{Carla}) . \]

Cioè:

\[ P(D) = (0.7 \times 0.5) + (0.4 \times 0.3) + (0.1 \times 0.2) = 0.35 + 0.12 + 0.02 = 0.49 . \]

Ora aggiorniamo ciascuna ipotesi:

  • Alice:

\[ P(\text{Alice}\mid D) = \frac{0.7\times0.5}{0.49} = \frac{0.35}{0.49} \approx 0.714 . \]

  • Bruno:

\[ P(\text{Bruno}\mid D) = \frac{0.4\times0.3}{0.49} = \frac{0.12}{0.49} \approx 0.245 . \]

  • Carla:

\[ P(\text{Carla}\mid D) = \frac{0.1\times0.2}{0.49} = \frac{0.02}{0.49} \approx 0.041 . \]

4. Interpretazione finale (intuizione bayesiana).

Dopo aver osservato il messaggio (“dati”), la tua fiducia si è aggiornata rispetto alle probabilità iniziali:

Ipotesi Probabilità a priori Probabilità a posteriori
Alice 0.5 0.714
Bruno 0.3 0.245
Carla 0.2 0.041

Ora credi molto più fortemente che sia stata Alice a scriverti.

In sintesi, in questo esempio semplice, lo spazio delle ipotesi era costituito da tre persone possibili. Ciascuna ipotesi poteva “generare” (cioè produrre o inviare) lo specifico messaggio che hai ricevuto con una diversa probabilità (“meccanismo generatore dei dati”). Prima dei dati avevi delle credenze su chi poteva averti scritto (“probabilità a priori”), poi lo specifico messaggio osservato (“i dati”) ha modificato le tue convinzioni (“probabilità a posteriori”), secondo la logica della Regola di Bayes.

Questo esempio chiarisce intuitivamente il significato di:

  • spazio delle ipotesi (le possibili spiegazioni);
  • meccanismo generatore dei dati (la probabilità con cui ciascuna ipotesi produce il dato osservato);
  • aggiornamento bayesiano (come cambia la fiducia nelle ipotesi dopo aver visto i dati).

5.1.3.2 Considerazioni pratiche

Nelle applicazioni reali, il calcolo diretto della probabilità marginale \(P(D)\) (o evidenza) rappresenta spesso la sfida computazionale principale. Questo termine, che nell’esempio del messaggio corrisponde alla probabilità di osservare quello specifico pattern di notifiche indipendentemente dalla sorgente, richiede di valutare tutte le possibili ipotesi.

Quando lo spazio delle ipotesi è vasto, discreto e complesso o continuo ad alta dimensionalità, il calcolo esatto dell’integrale (o della somma) diventa proibitivo o analiticamente intrattabile.

Per superare questo ostacolo, si ricorre a sofisticati metodi numerici approssimati:

  • Metodi Monte Carlo Markov Chain (MCMC): Tecniche di campionamento che permettono di stimare la distribuzione a posteriori generando un campione rappresentativo delle ipotesi, senza dover calcolare \(P(D)\) direttamente.
  • Inferenza Variazionale (VI): Un approccio alternativo che trasforma il problema di integrazione in un problema di ottimizzazione, approssimando la vera distribuzione a posteriori con una famiglia di distribuzioni più semplice da calcolare.

Queste tecniche permettono di applicare l’inferenza bayesiana in scenari complessi e realistici—dall’apprendimento automatico all’analisi genomica—rendendo fattibile l’aggiornamento delle credenze laddove un calcolo esatto sarebbe impossibile.

In sintesi, la regola di Bayes fornisce uno schema formale e razionale per integrare sistematicamente il know-how pregresso (il prior) con l’evidenza empirica (i dati). La sua potenza risiede proprio in questa capacità di quantificare dinamicamente l’incertezza e di aggiornare coerentemente il nostro stato di conoscenza. È questa caratteristica a renderla il fondamento del ragionamento probabilistico moderno e uno strumento indispensabile in una vastissima gamma di discipline scientifiche e ingegneristiche.

Immaginiamo questo scenario: sospettiamo che una moneta possa essere truccata e vogliamo verificarlo attraverso due lanci. Utilizzeremo il ragionamento bayesiano per combinare le nostre convinzioni iniziali con i dati osservati.

Le Due Ipotesi.

Supponiamo che la moneta possa essere:

  • bilanciata (pari probabilità di Testa e Croce: 50% ciascuna);
  • truccata (sbilanciata, con probabilità di Testa del 80% e Croce del 20%).

Il nostro obiettivo è capire quale ipotesi sia più plausibile dopo ogni lancio.

Fase 1: credenze iniziali (prior).

Prima di lanciare la moneta, abbiamo una certa idea di quanto sia probabile ciascuna ipotesi:

\[ P(\text{Bilanciata}) = 0.85 \quad\text{e}\quad P(\text{Truccata}) = 0.15. \]

Queste probabilità rappresentano il prior, ovvero le nostre convinzioni iniziali prima di osservare qualunque risultato.

Fase 2: primo lancio - esce Testa.

Lanciamo la moneta una volta e osserviamo il risultato: esce Testa.

Ci chiediamo: “Quanto è probabile osservare Testa se ciascuna delle due ipotesi fosse vera?”

  • Se la moneta è bilanciata, la probabilità di osservare Testa è 0.5 (50%).
  • Se la moneta è truccata, la probabilità di osservare Testa è 0.8 (80%).

Queste due probabilità rappresentano la verosimiglianza:

\[ P(\text{Testa} \mid \text{Bilanciata}) = 0.5 \quad\text{e}\quad P(\text{Testa} \mid \text{Truccata}) = 0.8. \]

Evidenza: Probabilità Complessiva dell’Evento Osservato.

Vogliamo ora sapere quanto sia probabile osservare Testa in generale, considerando entrambe le ipotesi possibili. Per calcolarlo, usiamo la probabilità totale, che tiene conto di tutte le possibili ipotesi:

\[ P(\text{Testa}) = P(\text{Testa} \mid \text{Bilanciata}) \times P(\text{Bilanciata}) + P(\text{Testa} \mid \text{Truccata}) \times P(\text{Truccata}). \]

Sostituiamo i valori numerici:

\[ P(\text{Testa}) = (0.5 \times 0.85) + (0.8 \times 0.15) = 0.425 + 0.12 = 0.545. \]

Questa è la probabilità marginale o evidenza del risultato osservato.

Posterior: Aggiornamento delle Credenze dopo l’Evidenza.

Ora possiamo usare il Teorema di Bayes per aggiornare le nostre credenze iniziali alla luce dell’evento osservato (Testa):

\[ \begin{aligned} P(\text{Bilanciata} \mid \text{Testa}) &= \frac{P(\text{Testa} \mid \text{Bilanciata}) \times P(\text{Bilanciata})}{P(\text{Testa})}\notag\\ &= \frac{0.5 \times 0.85}{0.545} \notag\\ &= 0.7798 \quad (77.98\%). \end{aligned} \notag \]

\[ \begin{aligned} P(\text{Truccata} \mid \text{Testa}) &= \frac{P(\text{Testa} \mid \text{Truccata}) \times P(\text{Truccata})}{P(\text{Testa})} \notag\\ &= \frac{0.8 \times 0.15}{0.545} \notag\\ &= 0.2202 \quad (22.02\%). \notag \end{aligned} \]

Interpretazione Intuitiva.

Prima del lancio, eravamo abbastanza sicuri (85%) che la moneta fosse bilanciata. Dopo aver osservato un singolo lancio che mostra Testa, questa certezza diminuisce (passa a circa 77.98%), mentre la probabilità che la moneta sia truccata aumenta (passa da 15% a circa 22.02%).

Questo esempio mostra come il prior, la verosimiglianza e l’evidenza si combinino nel ragionamento bayesiano per produrre un aggiornamento razionale e coerente delle credenze.

Fase 3: secondo Lancio - esce Testa.

Supponiamo ora di lanciare la moneta una seconda volta, osservando ancora Testa. Usiamo le nuove probabilità ottenute (posterior) come prior aggiornati:

\[ P(\text{Bilanciata}) = 0.7798 \quad\text{e}\quad P(\text{Truccata}) = 0.2202. \]

Calcoliamo nuovamente l’evidenza:

\[ P(\text{Testa}) = (0.5 \times 0.7798) + (0.8 \times 0.2202) = 0.3899 + 0.1762 = 0.5661. \]

Aggiorniamo quindi le credenze con il teorema di Bayes:

\[ P(\text{Bilanciata} \mid \text{Testa}) = \frac{0.5 \times 0.7798}{0.5661} = 0.6887 \quad (68.87\%). \]

\[ P(\text{Truccata} \mid \text{Testa}) = \frac{0.8 \times 0.2202}{0.5661} = 0.3113 \quad (31.13\%). \]

Interpretazione del Secondo Aggiornamento.

Dopo il secondo lancio che mostra ancora Testa, la probabilità che la moneta sia bilanciata scende ulteriormente da 0.7798 a 0.6887, mentre la probabilità che la moneta sia truccata sale a 0.3113. Questo esempio mostra come l’aggiornamento bayesiano consenta di modificare progressivamente le nostre credenze, adattandole coerentemente a ogni nuova evidenza osservata.

5.1.4 Applicazioni in psicologia

Negli ultimi anni, i modelli bayesiani hanno acquisito un ruolo centrale nello studio della cognizione umana, fornendo una struttura formale per comprendere come il cervello costruisca rappresentazioni del mondo e prenda decisioni sulla base di dati incerti. Come discusso da Griffiths et al. (2024), questi modelli sono stati applicati a una vasta gamma di processi cognitivi, tra cui:

  • Apprendimento e generalizzazione: i modelli bayesiani descrivono come gli individui apprendano nuove categorie e concetti sulla base di dati limitati e rumorosi (Tenenbaum, Griffiths, & Kemp, 2006).
  • Percezione e interpretazione sensoriale: la percezione visiva e il riconoscimento di oggetti possono essere spiegati come un’inferenza bayesiana sulla base di segnali sensoriali ambigui (Domini & Caudek, 2003; Yuille & Kersten, 2006).
  • Controllo motorio: il sistema motorio umano sembra ottimizzare i movimenti attraverso una combinazione di modelli interni e aggiornamenti bayesiani (Kording & Wolpert, 2006).
  • Memoria e recupero delle informazioni: i processi mnemonici, come il richiamo della memoria semantica, possono essere modellati come inferenze bayesiane basate su conoscenze pregresse (Steyvers, Griffiths, & Dennis, 2006).
  • Acquisizione del linguaggio: l’apprendimento del linguaggio nei bambini può essere descritto attraverso processi probabilistici che permettono di inferire le strutture grammaticali sulla base di dati linguistici limitati (Chater & Manning, 2006; Xu & Tenenbaum, in press).
  • Apprendimento causale: la capacità di inferire relazioni causali dagli eventi osservati è coerente con un modello bayesiano, in cui la mente valuta la probabilità di una relazione causale sulla base dell’evidenza disponibile (Griffiths & Tenenbaum, 2005, 2007).
  • Ragionamento e decisione: il ragionamento simbolico e il processo decisionale possono essere formalizzati come un aggiornamento bayesiano delle credenze sulla base di nuove informazioni (Oaksford & Chater, 2001).
  • Cognizione sociale: le inferenze sulle intenzioni e credenze altrui possono essere modellate attraverso processi bayesiani, permettendo di spiegare come le persone comprendano il comportamento altrui (Baker, Tenenbaum, & Saxe, 2007).

5.1.4.1 L’inferenza bayesiana nella cognizione umana

Un tema centrale che emerge da questi programmi di ricerca è la seguente domanda: come fa la mente umana ad andare oltre i dati dell’esperienza? In altre parole, come riesce il cervello a costruire modelli complessi del mondo a partire da informazioni limitate e spesso ambigue?

L’approccio bayesiano propone che il cervello utilizzi un processo di inferenza probabilistica per aggiornare continuamente le proprie credenze, combinando informazioni pregresse con nuove osservazioni per affinare le proprie rappresentazioni mentali. Questo meccanismo consente di spiegare molte delle capacità cognitive umane, dall’apprendimento rapido di nuove categorie alla capacità di adattarsi a un ambiente mutevole, fino alla formulazione di inferenze sociali e alla presa di decisioni in condizioni di incertezza.

L’adozione dei modelli bayesiani nella psicologia cognitiva ha portato a una nuova comprensione della mente come sistema predittivo, in grado di formulare ipotesi probabilistiche sugli eventi futuri e di correggerle dinamicamente sulla base dell’esperienza. Questo approccio ha profonde implicazioni per lo studio del comportamento umano e per lo sviluppo di nuove tecniche di modellizzazione nei campi della psicologia, delle neuroscienze e dell’intelligenza artificiale.

5.2 Test medici

Uno degli esempi più comuni per comprendere il teorema di Bayes riguarda i test diagnostici.

Consideriamo un test di mammografia utilizzato per diagnosticare il cancro al seno che abbiamo già discusso nel Capitolo 4. Definiamo le seguenti ipotesi:

  • \(M^+\): la persona ha il cancro al seno;
  • \(M^-\): la persona non ha il cancro al seno.

L’evidenza è il risultato positivo del test, indicato con \(T^+\). Il nostro obiettivo è calcolare la probabilità che una persona abbia il cancro al seno, dato un risultato positivo al test, ovvero \(P(M^+ \mid T^+)\).

Definizione dei termini nella regola di Bayes.
Il teorema di Bayes afferma che:

\[ P(M^+ \mid T^+) = \frac{P(T^+ \mid M^+) P(M^+)}{P(T^+)} , \]

dove:

  • \(P(T^+ \mid M^+)\) è la sensibilità del test, cioè la probabilità che il test risulti positivo se la persona ha effettivamente il cancro. Nel nostro caso, \(P(T^+ \mid M^+) = 0.90\).
  • \(P(M^+)\) è la probabilità a priori di avere il cancro al seno, ovvero la prevalenza della malattia nella popolazione. Supponiamo che sia \(P(M^+) = 0.01\) (1%).
  • \(P(T^+ \mid M^-)\) è la probabilità di un falso positivo, cioè la probabilità che il test risulti positivo anche in assenza di malattia. Questa è complementare alla specificità del test:

\[ P(T^+ \mid M^-) = 1 - \text{Specificità} = 1 - 0.90 = 0.10. \]

  • \(P(M^-)\) è la probabilità a priori che una persona non abbia il cancro, ovvero:

\[ P(M^-) = 1 - P(M^+) = 1 - 0.01 = 0.99. \]

  • \(P(T^+)\) è la probabilità marginale che il test risulti positivo, calcolata considerando entrambe le possibilità (cioè che la persona abbia o non abbia il cancro):

\[ P(T^+) = P(T^+ \mid M^+) P(M^+) + P(T^+ \mid M^-) P(M^-). \]

Sostituendo i valori numerici:

\[ P(T^+) = (0.90 \cdot 0.01) + (0.10 \cdot 0.99) = 0.009 + 0.099 = 0.108. \]

Applicazione della Regola di Bayes.
Ora possiamo calcolare la probabilità a posteriori \(P(M^+ \mid T^+)\):

\[ P(M^+ \mid T^+) = \frac{0.90 \cdot 0.01}{0.108} = \frac{0.009}{0.108} = 0.0833. \]

Interpretazione del Risultato.
Questo risultato indica che, nonostante il test abbia una sensibilità e una specificità del 90%, la probabilità che una persona con un test positivo abbia effettivamente il cancro è solo dell’8.3%. Questo effetto è dovuto alla bassa prevalenza della malattia: anche se il test è relativamente accurato, il numero di falsi positivi è ancora alto rispetto ai veri positivi. Tale risultato conferma quanto precedentemente ottenuto nel Capitolo 4, attraverso un metodo di calcolo alternativo.

Questa formulazione mostra come la regola di Bayes permetta di aggiornare la probabilità di avere la malattia dopo aver osservato il risultato del test, combinando la sensibilità, la specificità e la prevalenza della malattia nella popolazione.

In un secondo esempio, vogliamo valutare l’affidabilità di un test per l’HIV e capire come la nostra stima di infezione cambia dopo due test consecutivi positivi. Utilizzeremo la regola di Bayes per aggiornare la probabilità di avere l’HIV man mano che otteniamo nuovi risultati.

Immaginiamo che una persona esegua due volte un test per l’HIV.

Notazione e dati iniziali.

Indichiamo con:

  • \(M^+\): la persona ha l’HIV;
  • \(M^-\): la persona non ha l’HIV;
  • \(T^+\): il test è positivo;
  • \(T^-\): il test è negativo.

Abbiamo inoltre i seguenti dati:

  • Prevalenza (probabilità a priori di avere l’HIV):
    \[ P(M^+) = 0.003 \quad (0.3\%). \]

  • Sensibilità del test (probabilità che il test sia positivo se la persona è malata):
    \[ P(T^+ \mid M^+) = 0.95. \]

  • Specificità del test (probabilità che il test sia negativo se la persona è sana):
    \[ P(T^- \mid M^-) = 0.9928 \quad \Longrightarrow \quad P(T^+ \mid M^-) = 0.0072. \]

Passo 1: dopo il primo test positivo.

Usiamo la regola di Bayes per aggiornare la probabilità di essere malati, dopo un primo risultato positivo:

\[ P(M^+ \mid T^+) = \frac{P(T^+ \mid M^+)P(M^+)}{P(T^+)}. \]

Calcoliamo la probabilità marginale di un test positivo, considerando entrambe le ipotesi:

\[ P(T^+) = P(T^+ \mid M^+)P(M^+) + P(T^+ \mid M^-)P(M^-). \]

Sostituendo i valori noti, otteniamo:

\[ P(T^+) = (0.95 \times 0.003) + (0.0072 \times 0.997) = 0.00285 + 0.00718 = 0.01003. \]

La probabilità aggiornata (posterior) diventa quindi:

\[ P(M^+ \mid T^+) = \frac{0.00285}{0.01003} \approx 0.2844 \quad (28.44\%). \]

Dopo un primo test positivo, la probabilità che la persona sia effettivamente HIV-positiva sale da un valore iniziale molto basso (0.3%) a 28.44%, aumentando notevolmente ma senza ancora garantire la certezza.

Passo 2: aggiornamento dopo un secondo test positivo.

Adesso immaginiamo di ripetere il test e ottenere nuovamente un risultato positivo. La nuova probabilità si calcola applicando ancora la regola di Bayes, utilizzando come prior il risultato appena trovato:

\[ P(M^+ \mid T_1^+, T_2^+) = \frac{P(T_2^+ \mid M^+, T_1^+)P(M^+ \mid T_1^+)}{P(T_2^+ \mid T_1^+)}. \]

Assumendo che i risultati dei test siano indipendenti dato lo stato di malattia o meno, possiamo semplificare:

  • \(P(T_2^+ \mid M^+, T_1^+) = P(T^+ \mid M^+) = 0.95\)
  • \(P(T_2^+ \mid M^-, T_1^+) = P(T^+ \mid M^-) = 0.0072\)

La probabilità di ottenere un secondo test positivo diventa quindi:

\[ P(T_2^+ \mid T_1^+) = P(T^+ \mid M^+)P(M^+ \mid T_1^+) + P(T^+ \mid M^-)P(M^- \mid T_1^+). \]

Sostituendo i valori numerici calcolati in precedenza:

\[ P(T_2^+ \mid T_1^+) = (0.95 \times 0.2844) + (0.0072 \times 0.7156) = 0.2702 + 0.00515 = 0.27535. \]

Ora calcoliamo la nuova probabilità a posteriori dopo due test positivi:

\[ P(M^+ \mid T_1^+, T_2^+) = \frac{0.95 \times 0.2844}{0.27535} \approx 0.981 \quad (98.1\%). \]

Interpretazione finale.

  • Dopo il primo test positivo, la probabilità passa dallo 0.3% iniziale a circa il 28.44%, aumentando notevolmente ma restando incerta.
  • Dopo il secondo test positivo, la probabilità sale drasticamente al 98.1%, rendendo quasi certa la diagnosi.

Questo esempio dimostra chiaramente il valore dell’aggiornamento bayesiano: un singolo risultato positivo incrementa la probabilità, ma in presenza di una bassa prevalenza non basta per una diagnosi certa. Ripetere il test e ottenere conferme successive permette invece di raggiungere una certezza diagnostica molto elevata.

5.3 La fallacia del procuratore

Il teorema di Bayes non trova applicazione solo in campo medico, ma è essenziale anche nei procedimenti giudiziari. Infatti, fraintendimenti nell’interpretazione di probabilità e statistiche possono portare a gravi errori di giudizio. Uno degli errori più comuni in questo contesto è la fallacia del procuratore.

5.3.1 Che cos’è la fallacia del procuratore?

La fallacia del procuratore consiste nel confondere la probabilità di osservare una certa evidenza se una persona è innocente, \(P(T^+ \mid I)\), con la probabilità che una persona sia innocente dopo aver osservato quella evidenza, \(P(I \mid T^+)\).

  • In termini giudiziari, questo equivale a dire: “Poiché è estremamente improbabile ottenere un certo riscontro (ad es. un test positivo) se la persona è innocente, allora è estremamente improbabile che la persona sia innocente se si è ottenuto un esito positivo”.
  • In realtà, per stabilire se la persona è innocente o colpevole dopo aver visto il risultato, occorre considerare sia la bassa frequenza delle persone effettivamente colpevoli nella popolazione (prevalenza) sia la possibilità di falsi positivi. Il teorema di Bayes fornisce lo strumento formale per integrare questi elementi.

Consideriamo il seguente esempio. Supponiamo di utilizzare un test del DNA per identificare un sospetto tra 65 milioni di persone. Il test ha:

  • Sensibilità (\(P(T^+ \mid C)\)) = 99%
    \(\rightarrow\) Se la persona è effettivamente colpevole, il test risulta positivo il 99% delle volte.
  • Specificità (\(P(T^- \mid I)\)) = 99.99997%
    \(\rightarrow\) Se la persona è innocente, il test risulta negativo il 99.99997% delle volte.
    Da cui segue che il tasso di falso positivo è \(1 - 0.9999997 = 0.0000003 = 0.00003\%\).
  • Prevalenza (\(P(C)\)) = \(1/65{,}000{,}000 \approx 1.54 \times 10^{-8}\)
    \(\rightarrow\) Un individuo scelto a caso ha una probabilità di circa \(1.54 \times 10^{-8}\) (cioè 1 su 65 milioni) di essere il vero colpevole.

Un campione di DNA coincide con quello di una persona trovata nel database e il test dà risultato positivo. Qual è la probabilità che costui sia davvero colpevole? Formalmente, vogliamo \(P(C \mid T^+)\).

Passo 1: Calcolare \(P(T^+)\), la probabilità di un test positivo.

La probabilità complessiva di un esito positivo deriva da due scenari alternativi:

  1. La persona è colpevole e il test è positivo:
    \(P(T^+ \mid C) \times P(C)\).
  2. La persona è innocente e il test è positivo per errore (falso positivo):
    \(P(T^+ \mid I) \times P(I)\).

Perciò, usando la regola della probabilità totale:

\[ P(T^+) = P(T^+ \mid C) \, P(C) \;+\; P(T^+ \mid I) \, P(I). \]

Assegniamo i valori numerici:

  • \(P(T^+ \mid C) = 0.99\) (sensibilità).
  • \(P(C) = 1.54 \times 10^{-8}\).
  • \(P(T^+ \mid I) = 1 - P(T^- \mid I) = 1 - 0.9999997 = 0.0000003\).
  • \(P(I) = 1 - P(C) \approx 0.99999998\).

Eseguiamo il calcolo:

\[ \begin{aligned} P(T^+) &= (0.99 \times 1.54 \times 10^{-8}) + (0.0000003 \times 0.99999998)\\ &= 1.5231 \times 10^{-8} + 2.9999994 \times 10^{-7}\\ &= 3.1523 \times 10^{-7}. \end{aligned} \]

Passo 2: Applicare la regola di Bayes per \(P(C \mid T^+)\).

Ora possiamo calcolare la probabilità di essere colpevoli dato che il test è positivo:

\[ P(C \mid T^+) = \frac{P(T^+ \mid C)\,P(C)}{P(T^+)}. \]

Inseriamo i valori:

\[ \begin{aligned} P(C \mid T^+) &= \frac{(0.99 \times 1.54 \times 10^{-8})}{3.1523 \times 10^{-7}}\\ &= \frac{1.5231 \times 10^{-8}}{3.1523 \times 10^{-7}}\\ &\approx 0.0483 \quad (\text{cioè } 4.83\%). \end{aligned} \]

Interpretazione: perché è “solo” il 4.83%?

Sebbene sensibilità e specificità del test siano entrambe molto alte, la prevalenza estremamente bassa del colpevole (1 su 65 milioni) riduce notevolmente la probabilità a posteriori \(P(C \mid T^+)\). In una popolazione di 65 milioni di individui, anche un esiguo tasso di falsi positivi (\(0.0000003\)) genera un numero assoluto di risultati positivi fra gli innocenti molto più grande del numero di colpevoli reali.

In pratica, pur avendo un test positivo, la probabilità che la persona sia davvero colpevole resta modesta (circa 4.83%), perché i “falsi allarmi” nella massa di individui innocenti superano di gran lunga i (pochi) veri positivi.

5.3.2 Evitare la fallacia del procuratore

La fallacia del procuratore consiste nel confondere:

  • \(P(T^+ \mid I)\): la probabilità che un innocente risulti positivo (falso positivo),
  • \(P(I \mid T^+)\): la probabilità di essere innocenti dopo un test positivo.

Questa confusione porta a sovrastimare la colpevolezza di un individuo basandosi su una singola evidenza statistica. Applicando il teorema di Bayes, invece, si comprende che un test positivo non implica automaticamente colpevolezza, soprattutto quando la malattia (o il reato, in questo caso) è molto raro. Nei processi giudiziari, ciò significa che un dato probabilistico deve sempre essere contestualizzato alla popolazione di riferimento: la corretta interpretazione delle prove è fondamentale per evitare errori giudiziari.

5.3.2.1 Conclusione epistemologica

L’impiego di test probabilistici in ambito giudiziario richiede un’applicazione rigorosa del teorema di Bayes per evitare distorsioni interpretative. Solo un corretto aggiornamento delle credenze, integrando:

  • la probabilità pre-test (\(P(C)\), prevalenza del colpevole nella popolazione investigata),
  • la potenza diagnostica del test (sensibilità e specificità),
  • il tasso di errore strumentale (falsi positivi e falsi negativi),

consente di ridurre il rischio di errori giudiziari sistematici. In assenza di questa integrazione, anche test estremamente precisi possono condurre a ingiuste condanne, trasformando strumenti scientifici affidabili in fonti di distorsione probatoria.

5.4 La probabilità inversa

Gli esempi precedenti illustrano due domande probabilistiche fondamentalmente diverse, che distinguono l’approccio classico (frequentista) da quello bayesiano.

La probabilità diretta risponde a domande come: “Supposto che un’ipotesi sia vera, qual è la probabilità di osservare questi dati?”. Questo è il tipico ambito della statistica frequentista, che calcola la probabilità di risultati sotto ipotesi fissate.

La probabilità inversa, invece, capovolge completamente questa prospettiva, chiedendo: “Alla luce dei dati osservati, qual è la probabilità che un’ipotesi sia vera?”. Questa domanda, che riguarda direttamente la credibilità delle ipotesi date le evidenze, è al centro dell’approccio bayesiano.

5.4.1 Il problema fondamentale: da \(P(D \mid H)\) a \(P(H \mid D)\)

Consideriamo il lancio di una moneta. La probabilità diretta ci chiede: se la moneta è equa (\(P(\text{Testa})\) = 0.5), qual è la probabilità di osservare zero teste in cinque lanci? Calcoliamo \(P(D \mid H) = (0.5)^5 = 0.03125\).

La probabilità inversa affronta la questione opposta: dopo aver osservato zero teste in cinque lanci, quanto è probabile che la moneta sia effettivamente equa? Questa domanda cerca \(P(H \mid D)\), non \(P(D \mid H)\).

In questo contesto emerge il contributo fondamentale di Thomas Bayes, che ha riconosciuto come, per rispondere alla seconda domanda - l’unica rilevante dal punto di vista scientifico nella maggior parte dei contesti reali - non sia sufficiente la verosimiglianza \(P(D \mid H)\). È necessario combinarla con una probabilità a priori, \(P(H)\), che esprime la nostra convinzione iniziale sull’ipotesi prima di osservare i dati.

5.4.2 La rivoluzione bayesiana: dall’ipotesi ai dati, e ritorno

Prima di Bayes, la probabilità si occupava principalmente del calcolo diretto P(D|H). La geniale intuizione di Bayes fu di invertire la prospettiva, mostrando come fosse possibile ritornare dall’osservazione dei dati alla valutazione delle ipotesi che li avevano generati.

Questa inversione concettuale ha reso possibile l’inferenza bayesiana, fornendo uno strumento formale per aggiornare sistematicamente le nostre credenze alla luce di nuove evidenze. Il teorema di Bayes permette infatti di combinare rigorosamente:

  • la verosimiglianza dei dati sotto l’ipotesi [\(P(D \mid H)\)];
  • la nostra conoscenza pregressa [\(P(H)\)]

per ottenere la probabilità a posteriori [\(P(H \mid D)\)], ovvero la nostra convinzione aggiornata.

5.4.3 L’importanza epistemologica della probabilità inversa

La capacità di calcolare \(P(H \mid D)\) invece che solo \(P(D \mid H)\) ha profonde implicazioni in quasi tutti i campi del sapere:

  • In ambito scientifico, permette di quantificare direttamente quanto i dati supportino un’ipotesi rispetto ad altre, superando la logica del puro rifiuto/accettazione di ipotesi.

  • In ambito medico, consente di rispondere alla domanda clinicamente rilevante: “Data una positività del test, qual è la probabilità che il paziente abbia realmente la malattia?” anziché limitarsi a “Data la malattia, qual è la probabilità di un test positivo?”.

  • Nel sistema giudiziario, aiuta a valutare la domanda “Data l’evidenza forense, qual è la probabilità che l’imputato sia colpevole?” piuttosto che limitarsi a “Data la colpevolezza, qual è la probabilità di trovare questa evidenza?”.

Senza il concetto di probabilità inversa, infatti, rimarremmo intrappolati in un paradosso epistemologico: potremmo calcolare la probabilità dei dati sotto varie ipotesi, ma non potremmo mai stabilire quale ipotesi sia più credibile alla luce dei dati osservati. Il teorema di Bayes fornisce questo ponte logico che collega razionalmente l’evidenza empirica alla valutazione delle ipotesi, rendendo possibile un ragionamento probabilistico scientificamente fondato.

Riflessioni conclusive

In questo capitolo abbiamo esplorato vari esempi, principalmente nel campo medico e forense, per illustrare come il teorema di Bayes permetta di combinare le informazioni derivate dalle osservazioni con le conoscenze precedenti (priori), aggiornando così il nostro grado di convinzione rispetto a un’ipotesi. Il teorema di Bayes fornisce un meccanismo razionale, noto come “aggiornamento bayesiano”, che ci consente di ricalibrare le nostre convinzioni iniziali alla luce di nuove evidenze.

La lezione fondamentale che emerge, tanto nella ricerca scientifica quanto nella vita quotidiana, è che raramente ci interessa soltanto la probabilità di osservare un dato presupposta vera un’ipotesi, \(P(D \mid H)\). Ciò che realmente conta è spesso la probabilità inversa: stabilire quanto un’ipotesi sia credibile dato ciò che abbiamo osservato, \(P(H \mid D)\). La potenza del teorema di Bayes risiede proprio nella sua capacità di affrontare direttamente questo problema inverso, permettendoci di dedurre la plausibilità delle ipotesi a partire dalle osservazioni empiriche.

Il framework bayesiano offre così un approccio generale per comprendere come i problemi induttivi possano essere affrontati razionalmente, e fornisce anche un modello plausibile per interpretare come la mente umana elabori l’incertezza e aggiorni le proprie credenze.

In questo capitolo ci siamo concentrati su applicazioni che utilizzano probabilità puntuali, per rendere i concetti più accessibili. Tuttavia, il teorema di Bayes esprime pienamente il suo potenziale quando sia l’evidenza che i gradi di incertezza iniziali vengono rappresentati attraverso distribuzioni di probabilità continue. Questo approccio più generale e potente, che consente di modellare situazioni realistiche in tutta la loro complessità, sarà l’argomento centrale della prossima sezione della dispensa, dove approfondiremo il flusso di lavoro bayesiano completo e l’uso di distribuzioni continue nell’aggiornamento probabilistico.

Esercizi

È facile trovare online esercizi sull’applicazione del teorema di Bayes. Ad esempio, consiglio gli esercizi 1–6 disponibili sulla seguente pagina web.

sessionInfo()
#> R version 4.5.1 (2025-06-13)
#> Platform: aarch64-apple-darwin20
#> Running under: macOS Tahoe 26.0
#> 
#> Matrix products: default
#> BLAS:   /Library/Frameworks/R.framework/Versions/4.5-arm64/Resources/lib/libRblas.0.dylib 
#> LAPACK: /Library/Frameworks/R.framework/Versions/4.5-arm64/Resources/lib/libRlapack.dylib;  LAPACK version 3.12.1
#> 
#> locale:
#> [1] C.UTF-8/UTF-8/C.UTF-8/C/C.UTF-8/C.UTF-8
#> 
#> time zone: Europe/Rome
#> tzcode source: internal
#> 
#> attached base packages:
#> [1] stats     graphics  grDevices utils     datasets  methods   base     
#> 
#> other attached packages:
#>  [1] pillar_1.11.1         tinytable_0.13.0      patchwork_1.3.2      
#>  [4] ggdist_3.3.3          tidybayes_3.0.7       bayesplot_1.14.0     
#>  [7] ggplot2_4.0.0         reliabilitydiag_0.2.1 priorsense_1.1.1     
#> [10] posterior_1.6.1       loo_2.8.0             rstan_2.32.7         
#> [13] StanHeaders_2.32.10   brms_2.23.0           Rcpp_1.1.0           
#> [16] sessioninfo_1.2.3     conflicted_1.2.0      janitor_2.2.1        
#> [19] matrixStats_1.5.0     modelr_0.1.11         tibble_3.3.0         
#> [22] dplyr_1.1.4           tidyr_1.3.1           rio_1.2.3            
#> [25] here_1.0.2           
#> 
#> loaded via a namespace (and not attached):
#>  [1] svUnit_1.0.8          tidyselect_1.2.1      farver_2.1.2         
#>  [4] S7_0.2.0              fastmap_1.2.0         TH.data_1.1-4        
#>  [7] tensorA_0.36.2.1      digest_0.6.37         timechange_0.3.0     
#> [10] estimability_1.5.1    lifecycle_1.0.4       survival_3.8-3       
#> [13] magrittr_2.0.4        compiler_4.5.1        rlang_1.1.6          
#> [16] tools_4.5.1           knitr_1.50            bridgesampling_1.1-2 
#> [19] htmlwidgets_1.6.4     curl_7.0.0            pkgbuild_1.4.8       
#> [22] RColorBrewer_1.1-3    abind_1.4-8           multcomp_1.4-28      
#> [25] withr_3.0.2           purrr_1.1.0           grid_4.5.1           
#> [28] stats4_4.5.1          colorspace_2.1-1      xtable_1.8-4         
#> [31] inline_0.3.21         emmeans_1.11.2-8      scales_1.4.0         
#> [34] MASS_7.3-65           cli_3.6.5             mvtnorm_1.3-3        
#> [37] rmarkdown_2.29        ragg_1.5.0            generics_0.1.4       
#> [40] RcppParallel_5.1.11-1 cachem_1.1.0          stringr_1.5.2        
#> [43] splines_4.5.1         parallel_4.5.1        vctrs_0.6.5          
#> [46] V8_7.0.0              Matrix_1.7-4          sandwich_3.1-1       
#> [49] jsonlite_2.0.0        arrayhelpers_1.1-0    systemfonts_1.2.3    
#> [52] glue_1.8.0            codetools_0.2-20      distributional_0.5.0 
#> [55] lubridate_1.9.4       stringi_1.8.7         gtable_0.3.6         
#> [58] QuickJSR_1.8.0        htmltools_0.5.8.1     Brobdingnag_1.2-9    
#> [61] R6_2.6.1              textshaping_1.0.3     rprojroot_2.1.1      
#> [64] evaluate_1.0.5        lattice_0.22-7        backports_1.5.0      
#> [67] memoise_2.0.1         broom_1.0.10          snakecase_0.11.1     
#> [70] rstantools_2.5.0      gridExtra_2.3         coda_0.19-4.1        
#> [73] nlme_3.1-168          checkmate_2.3.3       xfun_0.53            
#> [76] zoo_1.8-14            pkgconfig_2.0.3

Bibliografia

Baker, C., Saxe, R., & Tenenbaum, J. (2011). Bayesian theory of mind: Modeling joint belief-desire attribution. Proceedings of the annual meeting of the cognitive science society, 33.
Bellhouse, D. R. (2004). The Reverend Thomas Bayes, FRS: a biography to celebrate the tercentenary of his birth.
Caudek, C., & Bruno, N. (2024). Fenomeni stereocinetici, teorie della percezione e sociologia della scienza. Giornale italiano di psicologia, 51(3), 451–466.
Chivers, T. (2024). Everything is Predictable: How Bayesian Statistics Explain Our World. Simon; Schuster.
Domini, F., & Caudek, C. (2003). 3-D structure perceived from dynamic information: A new theory. Trends in Cognitive Sciences, 7(10), 444–449.
Griffiths, T. L., Chater, N., & Tenenbaum, J. B. (2024). Bayesian models of cognition: reverse engineering the mind. MIT Press.
Jesseph, D. M. (1993). Berkeley’s philosophy of mathematics. University of Chicago Press.
Ma, W. J., Kording, K. P., & Goldreich, D. (2023). Bayesian models of perception and action: An introduction. MIT press.
Schervish, M. J., & DeGroot, M. H. (2014). Probability and statistics (Vol. 563). Pearson Education London, UK:
Spiegelhalter, D. (2019). The art of statistics: Learning from data. Penguin UK.
Stigler, S. M. (1990). The history of statistics: The measurement of uncertainty before 1900. Harvard University Press.
Yuille, A., & Kersten, D. (2006). Vision as Bayesian inference: analysis by synthesis? Trends in cognitive sciences, 10(7), 301–308.