30  Il teorema di Bayes

In questo capitolo imparerai a
  • capire in profondità il teorema di Bayes e la sua importanza;
  • utilizzare il teorema di Bayes per analizzare e interpretare i test diagnostici, tenendo in considerazione la prevalenza della malattia in questione;
  • affrontare e risolvere problemi di probabilità discreta che necessitano dell’applicazione del teorema di Bayes.
Prerequisiti
Preparazione del Notebook
here::here("code", "_common.R") |> 
  source()

“It is, without exaggeration, perhaps the most important single equation in history.”
Tom Chivers (2024)

30.1 Introduzione

Il teorema di Bayes costituisce un metodo matematico ottimale per risolvere problemi di inferenza induttiva, ovvero situazioni in cui si deducono cause sottostanti, principi generali o strutture complesse a partire da dati parziali e incerti. Trova applicazione in scenari disparati: dalla ricostruzione della percezione tridimensionale basata su segnali retinici all’interpretazione degli stati mentali altrui attraverso il comportamento osservabile, fino alla stima di parametri fisici in condizioni sperimentali rumorose (Baker et al., 2011; Ma et al., 2023). La sua efficacia emerge soprattutto in contesti dove le evidenze disponibili non permettono di discriminare univocamente tra ipotesi concorrenti.

30.1.1 Incertezza come Fondamento dell’Inferenza

Un principio cardine del ragionamento bayesiano è il riconoscimento dell’incertezza intrinseca a qualsiasi processo conoscitivo. Anche in un universo deterministico, la complessità dei sistemi e i limiti dei nostri sensi rendono impossibile una conoscenza completa. Ad esempio, non possiamo determinare con esattezza infiniti dettagli (come posizione e stato di ogni neurone nel cervello di un interlocutore) né accedere direttamente a variabili latenti (come emozioni o intenzioni). Di conseguenza, ogni inferenza conserva un margine probabilistico, che Bayes quantifica e trasforma in uno strumento operativo.

30.1.2 Dinamica Bayesiana: Aggiornare le Credenze

La realtà può essere paragonata a una partita di poker più che a una di scacchi: operiamo sempre in condizioni di informazione imperfetta. Le decisioni si basano su un bilanciamento tra conoscenze pregresse (prior) e nuovi indizi (likelihood), in un processo dinamico formalizzato dall’equazione:

\[ P(H \mid E) = \frac{P(E \mid H) \cdot P(H)}{P(E)} , \]

dove:

  • \(P(H \mid E)\) (posterior): plausibilità rivista dell’ipotesi \(H\) dopo aver osservato l’evidenza \(E\);
  • \(P(E \mid H)\) (likelihood): probabilità di osservare \(E\) se \(H\) fosse vera;
  • \(P(H)\) (prior): fiducia iniziale in \(H\);
  • \(P(E)\): fattore di normalizzazione.

Questo meccanismo permette di ricalibrare razionalmente le convinzioni, riducendo l’incertezza man mano che nuovi dati vengono integrati.

30.1.3 Inferenza Induttiva e Razionalità Adattiva

L’inferenza induttiva bayesiana rappresenta un pilastro della razionalità scientifica e quotidiana. A differenza della logica deduttiva (dove le conclusioni derivano necessariamente dalle premesse), Bayes riconcilia teoria ed evidenza empirica, consentendo previsioni robuste nonostante dati incompleti. Le applicazioni spaziano:

  • In psicologia cognitiva, modellando come il cervello interpreta segnali ambigui (Caudek & Bruno, 2024; Domini & Caudek, 2003);
  • In intelligenza artificiale, guidando algoritmi di apprendimento automatico (Chivers, 2024);
  • Nelle scienze sociali, per stimare preferenze nascoste da comportamenti osservati.

Il teorema non elimina l’incertezza, ma fornisce un protocollo formale per gestirla, trasformando l’induzione da atto intuitivo a procedura rigorosa. In questo senso, incarna un principio di razionalità adattiva, dove l’ottimalità non richiede onniscienza, bensì un aggiornamento coerente delle credenze in risposta all’esperienza.

30.2 Il Teorema di Bayes nella Psicologia: il Modello Rescorla-Wagner come Esempio di Adattamento all’Ambiente

Per illustrare concretamente il ruolo del teorema di Bayes in psicologia, possiamo considerare un fenomeno molto comune nella vita quotidiana: l’apprendimento associativo. Questa capacità permette a esseri umani e altri organismi viventi di prevedere eventi futuri sulla base delle esperienze passate, adattando continuamente il proprio comportamento a un ambiente in costante mutamento.

Un modello psicologico particolarmente influente che formalizza questo processo è il modello Rescorla-Wagner. Nato inizialmente per spiegare come gli animali apprendano ad associare segnali ambientali a specifiche conseguenze, questo modello si è rivelato utile anche per comprendere l’apprendimento umano. Esso mostra chiaramente come le persone aggiornino le proprie aspettative ogni volta che si trovano davanti a nuove informazioni o situazioni inattese, evidenziando un processo continuo di adattamento alle condizioni mutevoli dell’ambiente circostante.

30.2.1 Il Modello Rescorla-Wagner e l’Adattamento all’Ambiente

Secondo il modello Rescorla-Wagner, quando ci troviamo di fronte a situazioni nuove o imprevedibili, sviluppiamo aspettative su ciò che potrebbe accadere. Se queste aspettative vengono disattese (ad esempio, ricevendo una ricompensa diversa da quella prevista), sperimentiamo quello che il modello definisce “errore di previsione”. Questo errore, fondamentale per l’apprendimento, funge da meccanismo chiave per aggiornare rapidamente la nostra comprensione della realtà.

Facciamo un esempio: immaginiamo un agente che, in un contesto in cui premere un pulsante genera solitamente una ricompensa (una moneta, una caramella, ecc.), si trovi improvvisamente a non riceverla più. L’errore di previsione generato da questa discrepanza modifica le aspettative dell’agente. Di conseguenza, nelle occasioni successive, le sue previsioni si adatteranno alla nuova realtà, riducendo la probabilità attesa della ricompensa.

Il principale vantaggio del modello Rescorla-Wagner risiede nella sua essenzialità: basandosi su pochi principi fondamentali, riesce a descrivere in modo efficace come gli individui regolino le proprie aspettative in risposta a cambiamenti ambientali, garantendo un adattamento rapido e dinamico.

30.2.2 Una Prospettiva Bayesiana sull’Apprendimento

Anche se il modello di Rescorla-Wagner non nasce direttamente dal teorema di Bayes, può essere interpretato facilmente come un caso speciale di aggiornamento bayesiano. Il teorema di Bayes, infatti, descrive come dovremmo modificare razionalmente le nostre credenze alla luce di nuove evidenze. In psicologia, questa “evidenza” può essere pensata come la differenza tra ciò che ci aspettavamo e ciò che realmente accade—proprio come fa il modello Rescorla-Wagner.

Nella prospettiva bayesiana, le aspettative di una persona vengono considerate come “credenze” che vengono aggiornate costantemente sulla base delle nuove informazioni che emergono. Ogni volta che riceviamo un’informazione che contraddice le nostre aspettative iniziali, la nostra credenza viene rivista. Questo processo bayesiano permette di adattarsi in modo ottimale alle situazioni nuove o incerte, proprio come avviene con il modello Rescorla-Wagner (si veda l’esempio presentato nella Sezione 30.4).

In sintesi, il modello Rescorla-Wagner non solo rappresenta efficacemente come avviene l’apprendimento associativo nella vita quotidiana, ma fornisce anche un esempio pratico e intuitivo del ruolo del teorema di Bayes in psicologia: aiuta a capire come la nostra mente sia continuamente impegnata ad adattarsi razionalmente e rapidamente ai cambiamenti di un ambiente imprevedibile.

30.2.3 Una Rivoluzione nel Pensiero Probabilistico

Per comprendere appieno il teorema di Bayes, è necessario delineare le sue origini storiche. Nel XVIII secolo, Thomas Bayes (1701-1761), ecclesiastico presbiteriano e matematico britannico, pose le basi di una rivoluzione concettuale nel campo della probabilità e della statistica. Il suo contributo teorico, passato alla storia come teorema di Bayes, ha plasmato in modo decisivo lo sviluppo scientifico e tecnologico dei secoli successivi, influenzando discipline che spaziano dalla medicina all’intelligenza artificiale (Chivers, 2024).

30.2.4 La Figura di Thomas Bayes

Bayes proveniva da una famiglia benestante e studiò teologia a Edimburgo, preparandosi al ministero religioso. Come ricorda il biografo David Bellhouse, Bayes non era un accademico nel senso moderno del termine, ma un erudito libero, interessato alla conoscenza per passione personale (Bellhouse, 2004).

Durante la sua vita, Bayes pubblicò due testi:

  1. Un trattato di teologia: Divine Benevolence: Or, an Attempt to Prove that the Principal End of the Divine Providence and Government is the Happiness of His Creatures (1731), una teodicea che cerca di spiegare come la legge naturale possa ottimizzare il benessere universale.
  2. Una difesa del calcolo infinitesimale: An Introduction to the Doctrine of Fluxions (1736), in risposta alle critiche di George Berkeley sugli infinitesimi e i concetti fondamentali del calcolo newtoniano (Jesseph, 1993).

Il lavoro che segnò la svolta nella teoria della probabilità fu però pubblicato postumo, nel 1763, sulle Philosophical Transactions of the Royal Society: An Essay towards Solving a Problem in the Doctrine of Chances. Per la prima volta, si formalizzava un metodo per aggiornare le ipotesi probabilistiche alla luce di nuove evidenze, ponendo le fondamenta dell’inferenza bayesiana (Stigler, 1990).

30.2.5 Bayes e il Ruolo Culturale della Scienza

Come sottolinea ancora Bellhouse, nel XVIII secolo era comune, tra le élite colte, dedicarsi allo studio di discipline scientifiche per prestigio sociale. Per Bayes, la matematica era dunque una passione coltivata con spirito libero. Il suo merito straordinario fu di spingere l’interpretazione della probabilità verso una prospettiva epistemologica innovativa, dove la probabilità diventa espressione quantitativa della nostra ignoranza sul mondo.

In contrapposizione alla visione “classica”, che vedeva la probabilità come frequenza osservabile in eventi ripetuti, Bayes propose che essa potesse rappresentare il grado di fiducia di un osservatore, inevitabilmente influenzato da conoscenze pregresse e da pregiudizi individuali. In questo senso, la probabilità assume un carattere dinamico e soggettivo, configurandosi come uno strumento di conoscenza che si aggiorna di continuo al variare dei dati (Spiegelhalter, 2019).

30.2.5.1 Un Esperimento Mentale Illuminante

Per illustrare la sua idea, Bayes propose un semplice esempio: immagina di lanciare alcune palline su un tavolo da biliardo. Dopo aver segnato con una linea il punto in cui si ferma una pallina bianca (e averla poi rimossa), si lanciano altre palline rosse e si conta quante cadono a destra e quante a sinistra di quella linea. Sulla base di queste osservazioni, come si può “indovinare” la posizione della linea? E con quale probabilità la prossima pallina rossa cadrà a sinistra di essa?

La soluzione di Bayes combina i dati osservati (numero di palline cadute a sinistra o a destra) con le convinzioni iniziali dell’osservatore (il cosiddetto “prior”), delineando un processo di apprendimento graduale che guida la revisione critica delle ipotesi.

30.2.6 Il Ruolo di Richard Price

Dopo la morte di Bayes, fu un altro ecclesiastico, Richard Price (1723-1791), a dare impulso alla diffusione del saggio bayesiano. Price aveva un’ottima reputazione negli ambienti intellettuali dell’epoca, grazie anche alle sue relazioni con figure di spicco come Benjamin Franklin, Thomas Jefferson e John Adams.

Price prese in carico il manoscritto di Bayes, lo sottopose al fisico John Canton e ne curò la pubblicazione postuma, operando modifiche significative. Rispetto alla versione originale di Bayes, concentrata quasi esclusivamente sugli aspetti teorici, Price aggiunse una parte dedicata alle applicazioni pratiche, rendendo il testo più fruibile a un pubblico più ampio. Per questo motivo, lo storico Stephen Stigler lo definisce «il primo bayesiano della storia».

30.2.7 Dal Silenzio alla Riscoperta

Per oltre cinquant’anni, il lavoro di Bayes rimase in ombra, oscurato dall’opera pionieristica di Pierre-Simon Laplace. Già nel 1774, Laplace pervenne indipendentemente a principi analoghi, e successivamente li sistematizzò nella monumentale Théorie analytique des probabilités (1812). Solo in tempi più recenti, con l’avvento dei metodi di calcolo moderno e dell’informatica, la statura del teorema di Bayes è emersa in tutta la sua importanza.

Oggi, il teorema di Bayes è considerato un cardine della statistica moderna: formalizza il modo in cui aggiorniamo le nostre credenze alla luce di nuovi dati. Questo schema è cruciale in ogni disciplina scientifica e tecnologica che debba fare i conti con incertezza e dati incompleti. Dalla genomica all’econometria, dalla fisica delle particelle alle scienze cognitive, il paradigma bayesiano risulta prezioso per gestire e interpretare informazioni in continuo aggiornamento.

30.2.8 L’Eredità di Bayes nell’Era Digitale

Nell’intelligenza artificiale, le idee bayesiane sono alla base di sistemi di apprendimento automatico e modelli probabilistici complessi. Strumenti come i moderni modelli linguistici (ad esempio ChatGPT e Claude) sfruttano strategie di inferenza bayesiana – anche se in forme estremamente avanzate – per generare risposte, fare previsioni e adattarsi costantemente agli input degli utenti.

La parabola storica di questo teorema, nato dalle speculazioni di un pastore presbiteriano del Settecento, mostra chiaramente il potenziale trasformativo delle idee matematiche. Come sottolinea Tom Chivers nel suo Everything Is Predictable: How Bayesian Statistics Explain Our World, la statistica bayesiana è diventata una sorta di “grammatica universale” per interpretare la realtà, permettendoci di affrontare con metodo situazioni complesse, modellare l’incertezza e formulare previsioni in contesti dove l’informazione è inevitabilmente limitata (Chivers, 2024).

In sintesi, la forza del teorema di Bayes non risiede soltanto nella sua eleganza formale, ma soprattutto nella sua portata epistemologica: esso traduce in termini matematici la nostra naturale tendenza ad apprendere da ciò che osserviamo e a rivedere continuamente ciò che crediamo. Per questo rimane, ancora oggi, un punto di riferimento fondamentale in qualunque disciplina che affronti il problema della conoscenza in condizioni di incertezza. ## La Regola di Bayes e l’inferenza probabilistica

L’inferenza bayesiana utilizza un principio centrale della teoria delle probabilità noto come regola di Bayes. Questo principio consente di aggiornare in modo razionale le nostre credenze sulla base di nuovi dati osservati, integrandoli con conoscenze pregresse.

30.2.9 Derivazione della Regola di Bayes

Consideriamo due eventi casuali, \(A\) e \(B\). La probabilità congiunta \(P(A, B)\), ossia la probabilità che entrambi gli eventi accadano simultaneamente, può essere espressa in due modi equivalenti:

  1. Tramite la regola della catena, possiamo scrivere: \[ P(A, B) = P(A \mid B)P(B). \] Qui, \(P(A \mid B)\) è la probabilità condizionata che si verifichi l’evento \(A\) sapendo che l’evento \(B\) è avvenuto, mentre \(P(B)\) è la probabilità marginale di \(B\), indipendente da \(A\).

  2. Utilizzando la simmetria della probabilità congiunta, possiamo invertire gli eventi: \[ P(A, B) = P(B \mid A)P(A). \]

Dato che entrambe le espressioni rappresentano la stessa probabilità congiunta, possiamo eguagliarle:

\[ P(A \mid B)P(B) = P(B \mid A)P(A). \]

Risolvendo per \(P(B \mid A)\) otteniamo la regola di Bayes:

\[ P(B \mid A) = \frac{P(A \mid B) P(B)}{P(A)}. \tag{30.1}\]

30.2.10 Interpretazione dei termini della regola di Bayes

La regola di Bayes permette di aggiornare la nostra credenza sulla probabilità di un’ipotesi o evento (\(B\)), dopo aver osservato un dato o evidenza (\(A\)):

  • \(P(B)\) (prior): è la probabilità iniziale assegnata all’evento \(B\) prima di osservare il dato \(A\). Rappresenta la nostra conoscenza pregressa o il nostro grado iniziale di fiducia.
  • \(P(A \mid B)\) (verosimiglianza): è la probabilità di osservare il dato \(A\) nell’ipotesi che \(B\) sia vero. Indica quanto il dato sia compatibile con l’ipotesi.
  • \(P(B \mid A)\) (posterior): è la probabilità aggiornata, cioè la nostra nuova credenza sull’evento \(B\) dopo aver osservato il dato \(A\).
  • \(P(A)\) (evidenza): è la probabilità marginale del dato osservato, calcolata sommando o integrando su tutte le possibili ipotesi alternative che potrebbero aver generato tale dato. Agisce da termine di normalizzazione per garantire che la somma delle probabilità a posteriori sia uguale a 1.

30.2.11 Applicazioni della Regola di Bayes

Nella pratica, l’inferenza bayesiana si svolge tipicamente nel seguente modo:

  1. Si parte da uno spazio delle ipotesi \(\mathcal{H}\), ovvero un insieme di tutte le possibili spiegazioni o modelli che potrebbero aver generato i dati osservati \(D\).
  2. A ciascuna ipotesi \(H \in \mathcal{H}\) viene assegnata una probabilità a priori \(P(H)\) che riflette la nostra fiducia iniziale.
  3. Una volta raccolti i dati \(D\), aggiorniamo le probabilità delle ipotesi usando la formula:

\[ P(H \mid D) = \frac{P(D \mid H) \, P(H)}{P(D)}, \tag{30.2}\]

dove:

  • \(P(D \mid H)\) è la verosimiglianza, cioè la probabilità che l’ipotesi \(H\) abbia generato i dati \(D\);
  • \(P(D)\) è la probabilità marginale (evidenza), calcolata considerando tutte le possibili ipotesi:

\[ P(D) = \sum_{H' \in \mathcal{H}} P(D \mid H')P(H'), \]

nel caso discreto, oppure:

\[ P(D) = \int_{\mathcal{H}} P(D \mid H')P(H') \, dH', \]

nel caso continuo.

30.3 Esempio: Chi mi ha mandato un messaggio?

Immagina di avere ricevuto un messaggio anonimo sul tuo cellulare con scritto solo “Ci vediamo stasera!”. Vuoi capire chi può essere stato a mandartelo. In questo esempio, il tuo “spazio delle ipotesi” sarà rappresentato da tre persone possibili:

  • Alice
  • Bruno
  • Carla

Quindi, hai un insieme di ipotesi molto semplice:

\[ \mathcal{H} = \{\text{Alice},\, \text{Bruno},\, \text{Carla}\} . \]

1. Probabilità a priori (prima di guardare i dati).

Supponi che ciascuna persona abbia una probabilità diversa di scriverti:

Ipotesi \(P(H)\)
Alice 0.5
Bruno 0.3
Carla 0.2

Queste sono le tue probabilità a priori, basate sulla tua esperienza o conoscenza passata (ad esempio, Alice tende a scriverti spesso, Carla raramente).

2. Come le ipotesi generano i dati (informazioni aggiuntive).

Ora raccogli alcune informazioni utili (i tuoi dati \(D\)):

  • Il messaggio dice “Ci vediamo stasera!”.

Rifletti sul fatto che ciascuna delle tre persone usa questa frase con frequenze diverse (sai, ad esempio, che Alice usa spesso frasi brevi come questa, mentre Bruno e Carla la usano meno spesso, ovvero tendono a scrivere messaggi più lunghi):

Ipotesi Probabilità di inviare questa specifica frase (\(P(D \mid H)\))
Alice 0.7
Bruno 0.4
Carla 0.1

Queste probabilità rappresentano il “meccanismo generatore dei dati”, ovvero come ciascuna persona (ipotesi) potrebbe generare proprio il messaggio che hai ricevuto.

3. Aggiornamento delle probabilità a posteriori (dopo aver osservato il messaggio).

Ora applichiamo la formula di Bayes per aggiornare la nostra fiducia iniziale:

\[ P(H \mid D) = \frac{P(D \mid H) \, P(H)}{P(D)} . \]

Prima calcoliamo la probabilità totale di ricevere quello specifico messaggio, indipendentemente da chi l’ha inviato. Usiamo il teorema della probabilità totale:

\[ P(D) = P(D\mid\text{Alice})P(\text{Alice}) + P(D\mid\text{Bruno})P(\text{Bruno}) + P(D\mid\text{Carla})P(\text{Carla}) . \]

Cioè:

\[ P(D) = (0.7 \times 0.5) + (0.4 \times 0.3) + (0.1 \times 0.2) = 0.35 + 0.12 + 0.02 = 0.49 . \]

Ora aggiorniamo ciascuna ipotesi:

  • Alice:

\[ P(\text{Alice}\mid D) = \frac{0.7\times0.5}{0.49} = \frac{0.35}{0.49} \approx 0.714 . \]

  • Bruno:

\[ P(\text{Bruno}\mid D) = \frac{0.4\times0.3}{0.49} = \frac{0.12}{0.49} \approx 0.245 . \]

  • Carla:

\[ P(\text{Carla}\mid D) = \frac{0.1\times0.2}{0.49} = \frac{0.02}{0.49} \approx 0.041 . \]

4. Interpretazione finale (intuizione bayesiana).

Dopo aver osservato il messaggio (“dati”), la tua fiducia si è aggiornata rispetto alle probabilità iniziali:

Ipotesi Probabilità a priori Probabilità a posteriori
Alice 0.5 0.714
Bruno 0.3 0.245
Carla 0.2 0.041

Ora credi molto più fortemente che sia stata Alice a scriverti.

In sintesi, in questo esempio semplice, lo spazio delle ipotesi era costituito da tre persone possibili. Ciascuna ipotesi poteva “generare” (cioè produrre o inviare) lo specifico messaggio che hai ricevuto con una diversa probabilità (“meccanismo generatore dei dati”). Prima dei dati avevi delle credenze su chi poteva averti scritto (“probabilità a priori”), poi lo specifico messaggio osservato (“i dati”) ha modificato le tue convinzioni (“probabilità a posteriori”), secondo la logica della Regola di Bayes.

Questo esempio chiarisce intuitivamente il significato di:

  • spazio delle ipotesi (le possibili spiegazioni);
  • meccanismo generatore dei dati (la probabilità con cui ciascuna ipotesi produce il dato osservato);
  • aggiornamento bayesiano (come cambia la fiducia nelle ipotesi dopo aver visto i dati).

30.3.1 Il Processo Iterativo dell’Aggiornamento Bayesiano

L’inferenza bayesiana è intrinsecamente iterativa. Ogni volta che emergono nuovi dati, la distribuzione a posteriori \(P(H \mid D)\) ottenuta diventa il nuovo prior per aggiornamenti successivi. Questo permette un affinamento continuo delle credenze, adattando la nostra comprensione del mondo in modo dinamico e coerente con le nuove evidenze.

30.3.2 Considerazioni Pratiche

Spesso, il calcolo diretto della probabilità marginale \(P(D)\) — corrispondente, nell’esempio illustrato nella Sezione 30.3, alla probabilità di osservare lo specifico messaggio ricevuto sul dispositivo mobile — risulta computazionalmente oneroso, in particolare quando lo spazio delle ipotesi è discreto o continuo di alta dimensionalità. Per ovviare a questa limitazione, vengono impiegati metodi numerici approssimativi come il Campionamento Monte Carlo o le inferenze variazionali, tecniche che permettono di stimare in modo efficiente tali grandezze probabilistiche anche in scenari reali complessi, senza ricorrere a calcoli analitici esatti.

In sintesi, la regola di Bayes fornisce uno schema formale e razionale per integrare informazioni pregresse con nuove osservazioni. Questa capacità di aggiornare continuamente le nostre credenze rappresenta il cuore del ragionamento probabilistico e rende l’approccio bayesiano uno strumento fondamentale in molte discipline scientifiche e applicazioni pratiche.

30.4 Un Esempio Intuitivo: la Moneta Bilanciata o Truccata

Immaginiamo questo scenario: sospettiamo che una moneta possa essere truccata e vogliamo verificarlo attraverso due lanci. Utilizzeremo il ragionamento bayesiano per combinare le nostre convinzioni iniziali con i dati osservati.

Le Due Ipotesi.

Supponiamo che la moneta possa essere:

  • bilanciata (pari probabilità di Testa e Croce: 50% ciascuna);
  • truccata (sbilanciata, con probabilità di Testa del 80% e Croce del 20%).

Il nostro obiettivo è capire quale ipotesi sia più plausibile dopo ogni lancio.

30.4.1 Fase 1: Credenze Iniziali (Prior).

Prima di lanciare la moneta, abbiamo una certa idea di quanto sia probabile ciascuna ipotesi:

\[ P(\text{Bilanciata}) = 0.85 \quad\text{e}\quad P(\text{Truccata}) = 0.15. \]

Queste probabilità rappresentano il prior, ovvero le nostre convinzioni iniziali prima di osservare qualunque risultato.

30.4.2 Fase 2: Primo Lancio - Esce Testa

Lanciamo la moneta una volta e osserviamo il risultato: esce Testa.

Ci chiediamo: “Quanto è probabile osservare Testa se ciascuna delle due ipotesi fosse vera?”

  • Se la moneta è bilanciata, la probabilità di osservare Testa è 0.5 (50%).
  • Se la moneta è truccata, la probabilità di osservare Testa è 0.8 (80%).

Queste due probabilità rappresentano la verosimiglianza:

\[ P(\text{Testa} \mid \text{Bilanciata}) = 0.5 \quad\text{e}\quad P(\text{Testa} \mid \text{Truccata}) = 0.8. \]

Evidenza: Probabilità Complessiva dell’Evento Osservato.

Vogliamo ora sapere quanto sia probabile osservare Testa in generale, considerando entrambe le ipotesi possibili. Per calcolarlo, usiamo la probabilità totale, che tiene conto di tutte le possibili ipotesi:

\[ P(\text{Testa}) = P(\text{Testa} \mid \text{Bilanciata}) \times P(\text{Bilanciata}) + P(\text{Testa} \mid \text{Truccata}) \times P(\text{Truccata}). \]

Sostituiamo i valori numerici:

\[ P(\text{Testa}) = (0.5 \times 0.85) + (0.8 \times 0.15) = 0.425 + 0.12 = 0.545. \]

Questa è la probabilità marginale o evidenza del risultato osservato.

Posterior: Aggiornamento delle Credenze dopo l’Evidenza.

Ora possiamo usare il Teorema di Bayes per aggiornare le nostre credenze iniziali alla luce dell’evento osservato (Testa):

\[ \begin{align} P(\text{Bilanciata} \mid \text{Testa}) &= \frac{P(\text{Testa} \mid \text{Bilanciata}) \times P(\text{Bilanciata})}{P(\text{Testa})}\notag\\ &= \frac{0.5 \times 0.85}{0.545} \notag\\ &= 0.7798 \quad (77.98\%). \end{align} \notag \]

\[ \begin{align} P(\text{Truccata} \mid \text{Testa}) &= \frac{P(\text{Testa} \mid \text{Truccata}) \times P(\text{Truccata})}{P(\text{Testa})} \notag\\ &= \frac{0.8 \times 0.15}{0.545} \notag\\ &= 0.2202 \quad (22.02\%). \notag \end{align} \]

Interpretazione Intuitiva.

Prima del lancio, eravamo abbastanza sicuri (85%) che la moneta fosse bilanciata. Dopo aver osservato un singolo lancio che mostra Testa, questa certezza diminuisce (passa a circa 77.98%), mentre la probabilità che la moneta sia truccata aumenta (passa da 15% a circa 22.02%).

Questo esempio mostra come il prior, la verosimiglianza e l’evidenza si combinino nel ragionamento bayesiano per produrre un aggiornamento razionale e coerente delle credenze.

30.4.3 Fase 3: Secondo Lancio - Esce Testa

Supponiamo ora di lanciare la moneta una seconda volta, osservando ancora Testa. Usiamo le nuove probabilità ottenute (posterior) come prior aggiornati:

\[ P(\text{Bilanciata}) = 0.7798 \quad\text{e}\quad P(\text{Truccata}) = 0.2202. \]

Calcoliamo nuovamente l’evidenza:

\[ P(\text{Testa}) = (0.5 \times 0.7798) + (0.8 \times 0.2202) = 0.3899 + 0.1762 = 0.5661. \]

Aggiorniamo quindi le credenze con il teorema di Bayes:

\[ P(\text{Bilanciata} \mid \text{Testa}) = \frac{0.5 \times 0.7798}{0.5661} = 0.6887 \quad (68.87\%). \]

\[ P(\text{Truccata} \mid \text{Testa}) = \frac{0.8 \times 0.2202}{0.5661} = 0.3113 \quad (31.13\%). \]

Interpretazione del Secondo Aggiornamento.

Dopo il secondo lancio che mostra ancora Testa, la probabilità che la moneta sia bilanciata scende ulteriormente da 0.7798 a 0.6887, mentre la probabilità che la moneta sia truccata sale a 0.3113. Questo esempio mostra come l’aggiornamento bayesiano consenta di modificare progressivamente le nostre credenze, adattandole coerentemente a ogni nuova evidenza osservata.

30.4.4 Applicazioni in Psicologia

Negli ultimi anni, i modelli bayesiani hanno acquisito un ruolo centrale nello studio della cognizione umana, fornendo una struttura formale per comprendere come il cervello costruisca rappresentazioni del mondo e prenda decisioni sulla base di dati incerti. Come discusso da Griffiths et al. (2024), questi modelli sono stati applicati a una vasta gamma di processi cognitivi, tra cui:

  • Apprendimento e generalizzazione: i modelli bayesiani descrivono come gli individui apprendano nuove categorie e concetti sulla base di dati limitati e rumorosi (Tenenbaum, Griffiths, & Kemp, 2006).
  • Percezione e interpretazione sensoriale: la percezione visiva e il riconoscimento di oggetti possono essere spiegati come un’inferenza bayesiana sulla base di segnali sensoriali ambigui (Domini & Caudek, 2003; Yuille & Kersten, 2006).
  • Controllo motorio: il sistema motorio umano sembra ottimizzare i movimenti attraverso una combinazione di modelli interni e aggiornamenti bayesiani (Kording & Wolpert, 2006).
  • Memoria e recupero delle informazioni: i processi mnemonici, come il richiamo della memoria semantica, possono essere modellati come inferenze bayesiane basate su conoscenze pregresse (Steyvers, Griffiths, & Dennis, 2006).
  • Acquisizione del linguaggio: l’apprendimento del linguaggio nei bambini può essere descritto attraverso processi probabilistici che permettono di inferire le strutture grammaticali sulla base di dati linguistici limitati (Chater & Manning, 2006; Xu & Tenenbaum, in press).
  • Apprendimento causale: la capacità di inferire relazioni causali dagli eventi osservati è coerente con un modello bayesiano, in cui la mente valuta la probabilità di una relazione causale sulla base dell’evidenza disponibile (Griffiths & Tenenbaum, 2005, 2007).
  • Ragionamento e decisione: il ragionamento simbolico e il processo decisionale possono essere formalizzati come un aggiornamento bayesiano delle credenze sulla base di nuove informazioni (Oaksford & Chater, 2001).
  • Cognizione sociale: le inferenze sulle intenzioni e credenze altrui possono essere modellate attraverso processi bayesiani, permettendo di spiegare come le persone comprendano il comportamento altrui (Baker, Tenenbaum, & Saxe, 2007).

30.4.5 L’Inferenza Bayesiana nella Cognizione Umana

Un tema centrale che emerge da questi programmi di ricerca è la seguente domanda: come fa la mente umana ad andare oltre i dati dell’esperienza? In altre parole, come riesce il cervello a costruire modelli complessi del mondo a partire da informazioni limitate e spesso ambigue?

L’approccio bayesiano propone che il cervello utilizzi un processo di inferenza probabilistica per aggiornare continuamente le proprie credenze, combinando informazioni pregresse con nuove osservazioni per affinare le proprie rappresentazioni mentali. Questo meccanismo consente di spiegare molte delle capacità cognitive umane, dall’apprendimento rapido di nuove categorie alla capacità di adattarsi a un ambiente mutevole, fino alla formulazione di inferenze sociali e alla presa di decisioni in condizioni di incertezza (si veda la Sezione 30.2).

L’adozione dei modelli bayesiani nella psicologia cognitiva ha portato a una nuova comprensione della mente come sistema predittivo, in grado di formulare ipotesi probabilistiche sugli eventi futuri e di correggerle dinamicamente sulla base dell’esperienza. Questo approccio ha profonde implicazioni per lo studio del comportamento umano e per lo sviluppo di nuove tecniche di modellizzazione nei campi della psicologia, delle neuroscienze e dell’intelligenza artificiale.

30.5 Test Medici

Uno degli esempi più comuni per comprendere il teorema di Bayes riguarda i test diagnostici.

Esempio 30.1 Consideriamo un test di mammografia utilizzato per diagnosticare il cancro al seno che abbiamo già discusso nel Capitolo 29. Definiamo le seguenti ipotesi:

  • \(M^+\): la persona ha il cancro al seno;
  • \(M^-\): la persona non ha il cancro al seno.

L’evidenza è il risultato positivo del test, indicato con \(T^+\). Il nostro obiettivo è calcolare la probabilità che una persona abbia il cancro al seno, dato un risultato positivo al test, ovvero \(P(M^+ \mid T^+)\).

Definizione dei termini nella regola di Bayes.
Il teorema di Bayes afferma che:

\[ P(M^+ \mid T^+) = \frac{P(T^+ \mid M^+) P(M^+)}{P(T^+)} , \]

dove:

  • \(P(T^+ \mid M^+)\) è la sensibilità del test, cioè la probabilità che il test risulti positivo se la persona ha effettivamente il cancro. Nel nostro caso, \(P(T^+ \mid M^+) = 0.90\).
  • \(P(M^+)\) è la probabilità a priori di avere il cancro al seno, ovvero la prevalenza della malattia nella popolazione. Supponiamo che sia \(P(M^+) = 0.01\) (1%).
  • \(P(T^+ \mid M^-)\) è la probabilità di un falso positivo, cioè la probabilità che il test risulti positivo anche in assenza di malattia. Questa è complementare alla specificità del test:

\[ P(T^+ \mid M^-) = 1 - \text{Specificità} = 1 - 0.90 = 0.10. \]

  • \(P(M^-)\) è la probabilità a priori che una persona non abbia il cancro, ovvero:

\[ P(M^-) = 1 - P(M^+) = 1 - 0.01 = 0.99. \]

  • \(P(T^+)\) è la probabilità marginale che il test risulti positivo, calcolata considerando entrambe le possibilità (cioè che la persona abbia o non abbia il cancro):

\[ P(T^+) = P(T^+ \mid M^+) P(M^+) + P(T^+ \mid M^-) P(M^-). \]

Sostituendo i valori numerici:

\[ P(T^+) = (0.90 \cdot 0.01) + (0.10 \cdot 0.99) = 0.009 + 0.099 = 0.108. \]

Applicazione della Regola di Bayes.
Ora possiamo calcolare la probabilità a posteriori \(P(M^+ \mid T^+)\):

\[ P(M^+ \mid T^+) = \frac{0.90 \cdot 0.01}{0.108} = \frac{0.009}{0.108} = 0.0833. \]

Interpretazione del Risultato.
Questo risultato indica che, nonostante il test abbia una sensibilità e una specificità del 90%, la probabilità che una persona con un test positivo abbia effettivamente il cancro è solo dell’8.3%. Questo effetto è dovuto alla bassa prevalenza della malattia: anche se il test è relativamente accurato, il numero di falsi positivi è ancora alto rispetto ai veri positivi. Tale risultato conferma quanto precedentemente ottenuto nel Capitolo 29, attraverso un metodo di calcolo alternativo.

Questa formulazione mostra come la regola di Bayes permetta di aggiornare la probabilità di avere la malattia dopo aver osservato il risultato del test, combinando la sensibilità, la specificità e la prevalenza della malattia nella popolazione.

30.5.1 Affidabilità di un Test HIV e Aggiornamento Bayesiano

Vogliamo valutare l’affidabilità di un test per l’HIV e capire come la nostra stima di infezione cambia dopo due test consecutivi positivi. Utilizzeremo la regola di Bayes per aggiornare la probabilità di avere l’HIV man mano che otteniamo nuovi risultati.

Esempio 30.2 Immaginiamo che una persona esegua due volte un test per l’HIV.

Notazione e dati iniziali.

Indichiamo con:

  • \(M^+\): la persona ha l’HIV;
  • \(M^-\): la persona non ha l’HIV;
  • \(T^+\): il test è positivo;
  • \(T^-\): il test è negativo.

Abbiamo inoltre i seguenti dati:

  • Prevalenza (probabilità a priori di avere l’HIV):
    \[ P(M^+) = 0.003 \quad (0.3\%). \]

  • Sensibilità del test (probabilità che il test sia positivo se la persona è malata):
    \[ P(T^+ \mid M^+) = 0.95. \]

  • Specificità del test (probabilità che il test sia negativo se la persona è sana):
    \[ P(T^- \mid M^-) = 0.9928 \quad \Longrightarrow \quad P(T^+ \mid M^-) = 0.0072. \]

Passo 1: dopo il primo test positivo.

Usiamo la regola di Bayes per aggiornare la probabilità di essere malati, dopo un primo risultato positivo:

\[ P(M^+ \mid T^+) = \frac{P(T^+ \mid M^+)P(M^+)}{P(T^+)}. \]

Calcoliamo la probabilità marginale di un test positivo, considerando entrambe le ipotesi:

\[ P(T^+) = P(T^+ \mid M^+)P(M^+) + P(T^+ \mid M^-)P(M^-). \]

Sostituendo i valori noti, otteniamo:

\[ P(T^+) = (0.95 \times 0.003) + (0.0072 \times 0.997) = 0.00285 + 0.00718 = 0.01003. \]

La probabilità aggiornata (posterior) diventa quindi:

\[ P(M^+ \mid T^+) = \frac{0.00285}{0.01003} \approx 0.2844 \quad (28.44\%). \]

Dopo un primo test positivo, la probabilità che la persona sia effettivamente HIV-positiva sale da un valore iniziale molto basso (0.3%) a 28.44%, aumentando notevolmente ma senza ancora garantire la certezza.

Passo 2: aggiornamento dopo un secondo test positivo.

Adesso immaginiamo di ripetere il test e ottenere nuovamente un risultato positivo. La nuova probabilità si calcola applicando ancora la regola di Bayes, utilizzando come prior il risultato appena trovato:

\[ P(M^+ \mid T_1^+, T_2^+) = \frac{P(T_2^+ \mid M^+, T_1^+)P(M^+ \mid T_1^+)}{P(T_2^+ \mid T_1^+)}. \]

Assumendo che i risultati dei test siano indipendenti dato lo stato di malattia o meno, possiamo semplificare:

  • \(P(T_2^+ \mid M^+, T_1^+) = P(T^+ \mid M^+) = 0.95\)
  • \(P(T_2^+ \mid M^-, T_1^+) = P(T^+ \mid M^-) = 0.0072\)

La probabilità di ottenere un secondo test positivo diventa quindi:

\[ P(T_2^+ \mid T_1^+) = P(T^+ \mid M^+)P(M^+ \mid T_1^+) + P(T^+ \mid M^-)P(M^- \mid T_1^+). \]

Sostituendo i valori numerici calcolati in precedenza:

\[ P(T_2^+ \mid T_1^+) = (0.95 \times 0.2844) + (0.0072 \times 0.7156) = 0.2702 + 0.00515 = 0.27535. \]

Ora calcoliamo la nuova probabilità a posteriori dopo due test positivi:

\[ P(M^+ \mid T_1^+, T_2^+) = \frac{0.95 \times 0.2844}{0.27535} \approx 0.981 \quad (98.1\%). \]

Interpretazione finale.

  • Dopo il primo test positivo, la probabilità passa dallo 0.3% iniziale a circa il 28.44%, aumentando notevolmente ma restando incerta.
  • Dopo il secondo test positivo, la probabilità sale drasticamente al 98.1%, rendendo quasi certa la diagnosi.

Questo esempio dimostra chiaramente il valore dell’aggiornamento bayesiano: un singolo risultato positivo incrementa la probabilità, ma in presenza di una bassa prevalenza non basta per una diagnosi certa. Ripetere il test e ottenere conferme successive permette invece di raggiungere una certezza diagnostica molto elevata.

30.6 La Fallacia del Procuratore e il Teorema di Bayes

Il teorema di Bayes non trova applicazione solo in campo medico, ma è essenziale anche nei procedimenti giudiziari. Infatti, fraintendimenti nell’interpretazione di probabilità e statistiche possono portare a gravi errori di giudizio. Uno degli errori più comuni in questo contesto è la fallacia del procuratore.

30.6.1 Che cos’è la Fallacia del Procuratore?

La fallacia del procuratore consiste nel confondere la probabilità di osservare una certa evidenza se una persona è innocente, \(P(T^+ \mid I)\), con la probabilità che una persona sia innocente dopo aver osservato quella evidenza, \(P(I \mid T^+)\).

  • In termini giudiziari, questo equivale a dire: “Poiché è estremamente improbabile ottenere un certo riscontro (ad es. un test positivo) se la persona è innocente, allora è estremamente improbabile che la persona sia innocente se si è ottenuto un esito positivo”.
  • In realtà, per stabilire se la persona è innocente o colpevole dopo aver visto il risultato, occorre considerare sia la bassa frequenza delle persone effettivamente colpevoli nella popolazione (prevalenza) sia la possibilità di falsi positivi. Il teorema di Bayes fornisce lo strumento formale per integrare questi elementi.

30.6.2 Esempio di Test del DNA

Supponiamo di utilizzare un test del DNA per identificare un sospetto tra 65 milioni di persone. Il test ha:

  • Sensibilità (\(P(T^+ \mid C)\)) = 99%
    \(\rightarrow\) Se la persona è effettivamente colpevole, il test risulta positivo il 99% delle volte.
  • Specificità (\(P(T^- \mid I)\)) = 99.99997%
    \(\rightarrow\) Se la persona è innocente, il test risulta negativo il 99.99997% delle volte.
    Da cui segue che il tasso di falso positivo è \(1 - 0.9999997 = 0.0000003 = 0.00003\%\).
  • Prevalenza (\(P(C)\)) = \(1/65{,}000{,}000 \approx 1.54 \times 10^{-8}\)
    \(\rightarrow\) Un individuo scelto a caso ha una probabilità di circa \(1.54 \times 10^{-8}\) (cioè 1 su 65 milioni) di essere il vero colpevole.

Un campione di DNA coincide con quello di una persona trovata nel database e il test dà risultato positivo. Qual è la probabilità che costui sia davvero colpevole? Formalmente, vogliamo \(P(C \mid T^+)\).

Passo 1: Calcolare \(P(T^+)\), la probabilità di un test positivo.

La probabilità complessiva di un esito positivo deriva da due scenari alternativi:

  1. La persona è colpevole e il test è positivo:
    \(P(T^+ \mid C) \times P(C)\).
  2. La persona è innocente e il test è positivo per errore (falso positivo):
    \(P(T^+ \mid I) \times P(I)\).

Perciò, usando la regola della probabilità totale:

\[ P(T^+) = P(T^+ \mid C) \, P(C) \;+\; P(T^+ \mid I) \, P(I). \]

Assegniamo i valori numerici:

  • \(P(T^+ \mid C) = 0.99\) (sensibilità).
  • \(P(C) = 1.54 \times 10^{-8}\).
  • \(P(T^+ \mid I) = 1 - P(T^- \mid I) = 1 - 0.9999997 = 0.0000003\).
  • \(P(I) = 1 - P(C) \approx 0.99999998\).

Eseguiamo il calcolo:

\[ \begin{aligned} P(T^+) &= (0.99 \times 1.54 \times 10^{-8}) + (0.0000003 \times 0.99999998)\\ &= 1.5231 \times 10^{-8} + 2.9999994 \times 10^{-7}\\ &= 3.1523 \times 10^{-7}. \end{aligned} \]

Passo 2: Applicare la regola di Bayes per \(P(C \mid T^+)\).

Ora possiamo calcolare la probabilità di essere colpevoli dato che il test è positivo:

\[ P(C \mid T^+) = \frac{P(T^+ \mid C)\,P(C)}{P(T^+)}. \]

Inseriamo i valori:

\[ \begin{aligned} P(C \mid T^+) &= \frac{(0.99 \times 1.54 \times 10^{-8})}{3.1523 \times 10^{-7}}\\ &= \frac{1.5231 \times 10^{-8}}{3.1523 \times 10^{-7}}\\ &\approx 0.0483 \quad (\text{cioè } 4.83\%). \end{aligned} \]

Interpretazione: perché è “solo” il 4.83%?

Sebbene sensibilità e specificità del test siano entrambe molto alte, la prevalenza estremamente bassa del colpevole (1 su 65 milioni) riduce notevolmente la probabilità a posteriori \(P(C \mid T^+)\). In una popolazione di 65 milioni di individui, anche un esiguo tasso di falsi positivi (\(0.0000003\)) genera un numero assoluto di risultati positivi fra gli innocenti molto più grande del numero di colpevoli reali.

In pratica, pur avendo un test positivo, la probabilità che la persona sia davvero colpevole resta modesta (circa 4.83%), perché i “falsi allarmi” nella massa di individui innocenti superano di gran lunga i (pochi) veri positivi.

30.6.3 Evitare la Fallacia del Procuratore

La fallacia del procuratore consiste nel confondere:

  • \(P(T^+ \mid I)\): la probabilità che un innocente risulti positivo (falso positivo),
  • \(P(I \mid T^+)\): la probabilità di essere innocenti dopo un test positivo.

Questa confusione porta a sovrastimare la colpevolezza di un individuo basandosi su una singola evidenza statistica. Applicando il teorema di Bayes, invece, si comprende che un test positivo non implica automaticamente colpevolezza, soprattutto quando la malattia (o il reato, in questo caso) è molto raro. Nei processi giudiziari, ciò significa che un dato probabilistico deve sempre essere contestualizzato alla popolazione di riferimento: la corretta interpretazione delle prove è fondamentale per evitare errori giudiziari.

30.6.3.1 Conclusione Epistemologica

L’impiego di test probabilistici in ambito giudiziario richiede un’applicazione rigorosa del teorema di Bayes per evitare distorsioni interpretative. Solo un corretto aggiornamento delle credenze, integrando:

  • la probabilità pre-test (\(P(C)\), prevalenza del colpevole nella popolazione investigata),
  • la potenza diagnostica del test (sensibilità e specificità),
  • il tasso di errore strumentale (falsi positivi e falsi negativi),

consente di ridurre il rischio di errori giudiziari sistematici. In assenza di questa integrazione, anche test estremamente precisi possono condurre a ingiuste condanne, trasformando strumenti scientifici affidabili in fonti di distorsione probatoria.

30.7 Probabilità Inversa: Dal Problema Classico all’Inferenza Bayesiana

Gli esempi precedenti mostrano due tipi di domande probabilistiche fondamentali:

  1. Probabilità diretta
    • “Qual è la probabilità di osservare un certo risultato, supponendo che l’ipotesi sia vera?”
  2. Probabilità inversa
    • “Qual è la probabilità che un’ipotesi sia vera, dati i risultati osservati?”

Questa distinzione è cruciale per comprendere il teorema di Bayes e le differenze tra l’approccio frequentista e quello bayesiano alla probabilità.

30.7.1 Esempi di Probabilità Diretta e Inversa

Prendiamo come esempio il lancio di una moneta:

  • Probabilità diretta:
    Se riteniamo che la moneta sia equa (cioè \(P(\text{Testa}) = 0{.}5\)), qual è la probabilità di osservare zero teste in cinque lanci? In questo caso, stiamo calcolando \[ P(D \mid H) = (0.5)^5 = 0.03125, \] dove \(D\) rappresenta il dato (“zero teste in cinque lanci”) e \(H\) l’ipotesi (“la moneta è equa”).

  • Probabilità inversa:
    Ora poniamo la domanda opposta. Abbiamo lanciato una moneta cinque volte e osservato zero teste. Quanto è probabile che la moneta sia davvero equa?
    Qui vogliamo conoscere \(\displaystyle P(H \mid D)\) (l’ipotesi “la moneta è equa” dopo aver visto il risultato) anziché \(P(D \mid H)\). Per rispondere correttamente, ci occorre il teorema di Bayes, che combina la probabilità dei dati (\(P(D \mid H)\)) con una stima iniziale (il prior) su quanto riteniamo probabile l’ipotesi prima dell’osservazione.

30.7.2 Dalla Probabilità Diretta alla Probabilità Inversa: Il Contributo di Bayes

Per lungo tempo, la teoria della probabilità si è occupata quasi esclusivamente di probabilità diretta: “se l’ipotesi è vera, qual è la probabilità di osservare un certo esito?”.
Nel XVIII secolo, Thomas Bayes capovolse la prospettiva, concentrandosi su come determinare la probabilità dell’ipotesi a partire dalle evidenze disponibili, introdusse cioè l’idea di probabilità inversa. Questa svolta ha aperto la strada a ciò che oggi chiamiamo inferenza bayesiana, permettendo di aggiornare in modo sistematico e rigoroso la credibilità di un’ipotesi dopo aver osservato nuovi dati.

30.7.3 L’Impatto della Probabilità Inversa

La possibilità di stimare \(\displaystyle P(H \mid D)\), cioè la probabilità di un’ipotesi data l’evidenza osservata, si è rivelata fondamentale in molti ambiti:

  • Scienza e sperimentazione: quanto è probabile che un’ipotesi sia vera dopo aver raccolto i dati di un esperimento?
  • Medicina: quanto è probabile che un paziente abbia una certa malattia, se il test diagnostico è positivo?
  • Giustizia: quanto è probabile che una persona sia colpevole, se il DNA trovato sulla scena del crimine combacia col suo?

In tutti questi casi non basta calcolare la probabilità dei dati “dato un’ipotesi” \(\bigl(P(D \mid H)\bigr)\); occorre invece aggiornare la stima della probabilità dell’ipotesi alla luce dei dati \(\bigl(P(H \mid D)\bigr)\).

In sintesi, l’inferenza bayesiana risponde appunto a questa seconda domanda, passando dalla probabilità diretta alla probabilità inversa in modo rigoroso. Grazie al teorema di Bayes, possiamo combinare in modo coerente le nostre conoscenze pregresse (il cosiddetto prior) con le evidenze raccolte, ottenendo una probabilità a posteriori che rappresenta la nostra nuova convinzione. Senza questa prospettiva, gran parte dei problemi scientifici e delle decisioni pratiche resterebbe priva di un metodo per collegare razionalmente le evidenze empiriche alle ipotesi da verificare.

30.8 Riflessioni Conclusive

In questo capitolo abbiamo esplorato vari esempi, principalmente nel campo medico e forense, per illustrare come il teorema di Bayes permetta di combinare le informazioni derivate dalle osservazioni con le conoscenze precedenti (priori), aggiornando così il nostro grado di convinzione rispetto a un’ipotesi. Il teorema di Bayes fornisce un meccanismo razionale, noto come “aggiornamento bayesiano”, che ci consente di ricalibrare le nostre convinzioni iniziali alla luce di nuove evidenze.

Una lezione fondamentale che il teorema di Bayes ci insegna, sia nella ricerca scientifica che nella vita quotidiana, è che spesso non ci interessa tanto conoscere la probabilità che qualcosa accada assumendo vera un’ipotesi, quanto piuttosto la probabilità che un’ipotesi sia vera, dato che abbiamo osservato una certa evidenza. In altre parole, la forza del teorema di Bayes sta nella sua capacità di affrontare direttamente il problema inverso, cioè come dedurre la verità di un’ipotesi a partire dalle osservazioni.

Il framework bayesiano per l’inferenza probabilistica offre un approccio generale per comprendere come i problemi di induzione possano essere risolti in linea di principio e, forse, anche come possano essere affrontati dalla mente umana.

In questo capitolo ci siamo concentrati sull’applicazione del teorema di Bayes utilizzando probabilità puntuali. Tuttavia, il teorema esprime pienamente il suo potenziale quando sia l’evidenza che i gradi di certezza a priori delle ipotesi sono rappresentati attraverso distribuzioni di probabilità continue. Questo sarà l’argomento centrale nella prossima sezione della dispensa, dove approfondiremo il flusso di lavoro bayesiano e l’uso di distribuzioni continue nell’aggiornamento bayesiano.

30.9 Esercizi

È facile trovare online esercizi sull’applicazione del teorema di Bayes. Ad esempio, consiglio gli esercizi da 1 a 6 disponibili sulla seguente pagina web.

Informazioni sull’Ambiente di Sviluppo

sessionInfo()
#> R version 4.4.2 (2024-10-31)
#> Platform: aarch64-apple-darwin20
#> Running under: macOS Sequoia 15.3.2
#> 
#> Matrix products: default
#> BLAS:   /Library/Frameworks/R.framework/Versions/4.4-arm64/Resources/lib/libRblas.0.dylib 
#> LAPACK: /Library/Frameworks/R.framework/Versions/4.4-arm64/Resources/lib/libRlapack.dylib;  LAPACK version 3.12.0
#> 
#> locale:
#> [1] C/UTF-8/C/C/C/C
#> 
#> time zone: Europe/Rome
#> tzcode source: internal
#> 
#> attached base packages:
#> [1] stats     graphics  grDevices utils     datasets  methods   base     
#> 
#> other attached packages:
#>  [1] thematic_0.1.6   MetBrewer_0.2.0  ggokabeito_0.1.0 see_0.11.0      
#>  [5] gridExtra_2.3    patchwork_1.3.0  bayesplot_1.11.1 psych_2.5.3     
#>  [9] scales_1.3.0     markdown_2.0     knitr_1.50       lubridate_1.9.4 
#> [13] forcats_1.0.0    stringr_1.5.1    dplyr_1.1.4      purrr_1.0.4     
#> [17] readr_2.1.5      tidyr_1.3.1      tibble_3.2.1     ggplot2_3.5.1   
#> [21] tidyverse_2.0.0  rio_1.2.3        here_1.0.1      
#> 
#> loaded via a namespace (and not attached):
#>  [1] generics_0.1.3    stringi_1.8.4     lattice_0.22-6    hms_1.1.3        
#>  [5] digest_0.6.37     magrittr_2.0.3    evaluate_1.0.3    grid_4.4.2       
#>  [9] timechange_0.3.0  fastmap_1.2.0     rprojroot_2.0.4   jsonlite_1.9.1   
#> [13] mnormt_2.1.1      cli_3.6.4         rlang_1.1.5       munsell_0.5.1    
#> [17] withr_3.0.2       tools_4.4.2       parallel_4.4.2    tzdb_0.5.0       
#> [21] colorspace_2.1-1  pacman_0.5.1      vctrs_0.6.5       R6_2.6.1         
#> [25] lifecycle_1.0.4   htmlwidgets_1.6.4 pkgconfig_2.0.3   pillar_1.10.1    
#> [29] gtable_0.3.6      glue_1.8.0        xfun_0.51         tidyselect_1.2.1 
#> [33] rstudioapi_0.17.1 farver_2.1.2      htmltools_0.5.8.1 nlme_3.1-167     
#> [37] rmarkdown_2.29    compiler_4.4.2

Bibliografia

Baker, C., Saxe, R., & Tenenbaum, J. (2011). Bayesian theory of mind: Modeling joint belief-desire attribution. Proceedings of the annual meeting of the cognitive science society, 33.
Bellhouse, D. R. (2004). The Reverend Thomas Bayes, FRS: a biography to celebrate the tercentenary of his birth.
Caudek, C., & Bruno, N. (2024). Fenomeni stereocinetici, teorie della percezione e sociologia della scienza. Giornale italiano di psicologia, 51(3), 451–466.
Chivers, T. (2024). Everything is Predictable: How Bayesian Statistics Explain Our World. Simon; Schuster.
Domini, F., & Caudek, C. (2003). 3-D structure perceived from dynamic information: A new theory. Trends in Cognitive Sciences, 7(10), 444–449.
Griffiths, T. L., Chater, N., & Tenenbaum, J. B. (2024). Bayesian models of cognition: reverse engineering the mind. MIT Press.
Jesseph, D. M. (1993). Berkeley’s philosophy of mathematics. University of Chicago Press.
Ma, W. J., Kording, K. P., & Goldreich, D. (2023). Bayesian models of perception and action: An introduction. MIT press.
Schervish, M. J., & DeGroot, M. H. (2014). Probability and statistics (Vol. 563). Pearson Education London, UK:
Spiegelhalter, D. (2019). The art of statistics: Learning from data. Penguin UK.
Stigler, S. M. (1990). The history of statistics: The measurement of uncertainty before 1900. Harvard University Press.
Yuille, A., & Kersten, D. (2006). Vision as Bayesian inference: analysis by synthesis? Trends in cognitive sciences, 10(7), 301–308.