27 Probabilità condizionata
“Probability is always conditional.”
– Dennis V. Lindley, The Philosophy of Statistics (2000).
Introduzione
La probabilità condizionata esprime la probabilità di un evento tenendo conto del verificarsi di un altro evento. Questo concetto è fondamentale perché riflette il modo in cui aggiorniamo le nostre credenze alla luce di nuove informazioni. Ad esempio, la probabilità che piova domani può essere diversa a seconda delle condizioni atmosferiche di oggi: osservare un cielo nuvoloso modifica la nostra valutazione della probabilità di pioggia. In questo senso, ogni nuova informazione può confermare, rafforzare o mettere in discussione le credenze preesistenti.
La probabilità condizionata ha un ruolo centrale non solo nella teoria della probabilità, ma anche nelle applicazioni quotidiane e scientifiche. In molti contesti, le probabilità sono implicitamente condizionate da informazioni preesistenti, anche quando non lo esplicitiamo formalmente. Comprendere e quantificare questo processo di aggiornamento delle credenze ci consente di gestire in modo più efficace l’incertezza, rendendo la probabilità uno strumento dinamico per la decisione e l’inferenza.
Panoramica del capitolo
- Concetti di probabilità congiunta, marginale e condizionata.
- Applicazione dei principi di indipendenza e probabilità condizionata.
- Il paradosso di Simpson;
- Il teorema del prodotto e della probabilità totale.
27.1 Indipendenza stocastica
Un caso particolare di aggiornamento delle probabilità si verifica quando due eventi non si influenzano a vicenda. In tal caso, la probabilità congiunta di più eventi si calcola in modo molto più semplice, grazie alla proprietà di indipendenza.
27.1.1 Indipendenza di due eventi
Definizione 27.1 Due eventi \(A\) e \(B\) si dicono indipendenti se la probabilità che si verifichino entrambi è uguale al prodotto delle probabilità dei singoli eventi:
\[ P(A \cap B) \;=\; P(A)\, P(B). \tag{27.1}\]
In altre parole, sapere che \(A\) si è verificato non influisce sul valore di \(P(B)\), e viceversa. Quando questa condizione è soddisfatta, si scrive \(A \perp B\) per indicare l’indipendenza dei due eventi.
27.2 Indipendenza di un insieme di eventi
Il concetto di indipendenza non si limita a due soli eventi, ma può estendersi a un insieme arbitrario di eventi. In generale, diciamo che \(\{A_i : i \in I\}\) è un insieme di eventi indipendente se, per ogni sottoinsieme finito \(J \subseteq I\), la probabilità dell’intersezione degli eventi in \(J\) coincide con il prodotto delle probabilità di ciascun evento:
\[ P \Bigl(\bigcap_{i \in J} A_i\Bigr) \;=\; \prod_{i \in J} P(A_i). \tag{27.2}\]
Questa condizione richiede che ogni combinazione di eventi presenti la stessa proprietà di non influenzarsi a vicenda. L’indipendenza può essere:
- un’assunzione semplificante in molti modelli (ad esempio, ipotizzare che le variabili di un questionario misurino proprietà “indipendenti” dei partecipanti);
- una caratteristica empirica emersa dai dati, da verificare attraverso analisi apposite.
27.2.1 Quando gli eventi non sono indipendenti
Se per due eventi \(A\) e \(B\) si ha \(P(A \cap B) \neq P(A) P(B)\), essi non sono indipendenti. In tal caso, conoscere l’esito di uno fornisce informazioni sul probabile verificarsi dell’altro, e occorre tenere conto di questa dipendenza nei calcoli (ad esempio, usando la probabilità condizionata).
27.2.2 Differenza tra indipendenza ed eventi disgiunti
Un errore frequente è confondere “indipendenti” con “disgiunti (o mutuamente esclusivi)”. Due eventi sono disgiunti se non possono avvenire contemporaneamente, cioè
\[ P(A \cap B) \;=\; 0. \]
Se \(P(A)>0\) e \(P(B)>0\) e gli eventi sono disgiunti, non possono essere indipendenti. Infatti, l’indipendenza richiederebbe
\[ P(A \cap B) \;=\; P(A)\,P(B), \]
ma, poiché \(P(A \cap B)=0\) e \(P(A) P(B)\) sarebbe positivo, la relazione non può valere. Quindi, la disgiunzione implica l’esclusione reciproca, mentre l’indipendenza significa che la probabilità di uno non risente in alcun modo dell’altro.
In sintesi, gli eventi disgiunti non possono verificarsi insieme, mentre gli eventi indipendenti non influiscono uno sulla probabilità dell’altro. Entrambe le proprietà sono importanti ma rispondono a concetti nettamente diversi.
27.3 Probabilità condizionata
La probabilità condizionata esprime la probabilità di un evento \(A\) una volta che si sappia che un altro evento \(B\) è già avvenuto.
Definizione 27.2 Se \(P(B) > 0\), si definisce:
\[ P(A \mid B) \;=\; \frac{P(A \cap B)}{P(B)}. \tag{27.3}\]
Questa formula può essere letta come un “ricalcolo” della probabilità di \(A\) limitandosi al sottoinsieme di esiti in cui \(B\) è vero.
27.3.1 Interpretazione della probabilità condizionata
La probabilità condizionata funge da meccanismo di aggiornamento delle nostre conoscenze. Inizialmente, si dispone di una stima di \(P(A)\); dopo aver appreso che un evento correlato \(B\) si è verificato, si “restringe” il campo agli esiti compatibili con \(B\) e si riassegna la probabilità di \(A\) su questa base.
- Esempio intuitivo: Se si sa che una persona ha la febbre (\(B\)), la probabilità che abbia l’influenza (\(A\)) aumenta rispetto a quella calcolata sull’intera popolazione.
Questa capacità di “aggiornare le credenze” fa della probabilità condizionata uno strumento fondamentale in:
-
inferenze statistiche, per gestire informazioni parziali o acquisite progressivamente;
-
teoria dell’apprendimento, quando si valutano ipotesi o modelli a fronte di nuovi dati;
- modellizzazione delle dipendenze tra eventi, in cui la conoscenza di un evento influenza la probabilità di un altro.
27.4 Indipendenza e probabilità condizionata
L’indipendenza tra due eventi \(A\) e \(B\) può essere interpretata intuitivamente attraverso la probabilità condizionata. Due eventi sono indipendenti se il verificarsi di uno non influenza la probabilità di verificarsi dell’altro. In altre parole, conoscere che \(B\) è accaduto non modifica la probabilità di \(A\), e viceversa.
Questa relazione può essere formalizzata con le seguenti equazioni:
\[ P(A \mid B) = \frac{P(A \cap B)}{P(B)} = P(A), \]
\[ P(B \mid A) = \frac{P(A \cap B)}{P(A)} = P(B). \]
Pertanto, \(A\) e \(B\) sono indipendenti se e solo se:
\[ P(A \mid B) = P(A), \]
\[ P(B \mid A) = P(B). \]
Queste condizioni significano che la probabilità di \(A\) non cambia, indipendentemente dal fatto che \(B\) sia accaduto, e lo stesso vale per \(B\).
27.4.1 Indipendenza di tre eventi
La definizione di indipendenza si estende naturalmente a tre eventi \(A\), \(B\), e \(C\), ma con condizioni aggiuntive. Tre eventi sono indipendenti se:
-
Ogni coppia di eventi è indipendente:
\[ \begin{aligned} P(A \cap B) &= P(A) P(B), \\ P(A \cap C) &= P(A) P(C), \\ P(B \cap C) &= P(B) P(C). \end{aligned} \]
-
La probabilità congiunta di tutti e tre gli eventi è uguale al prodotto delle loro probabilità individuali:
\[ P(A \cap B \cap C) = P(A) P(B) P(C). \]
Le prime tre condizioni verificano l’indipendenza a coppie (indipendenza a due a due), mentre l’ultima condizione garantisce che i tre eventi siano completamente indipendenti. È importante notare che l’indipendenza a due a due non implica necessariamente l’indipendenza completa: per essere indipendenti nel senso completo, tutte e quattro le condizioni devono essere soddisfatte.
In sintesi, l’indipendenza tra eventi implica che il verificarsi di uno di essi non fornisce alcuna informazione sulla probabilità del verificarsi degli altri. Nel caso di due eventi, questa proprietà si traduce nell’invarianza della probabilità condizionata. Per tre o più eventi, l’indipendenza richiede sia l’indipendenza a coppie sia la condizione più forte sull’intersezione di tutti gli eventi.
Questi concetti sono fondamentali nella probabilità e nella statistica, poiché semplificano molti calcoli e forniscono una base per modelli più complessi.
27.5 Teorema del prodotto
A partire dalla definizione di probabilità condizionata, possiamo derivare quello che viene chiamato Teorema del Prodotto, noto anche come teorema della probabilità composta, regola moltiplicativa o regola della catena. Questo risultato permette di esprimere la probabilità congiunta di due o più eventi come il prodotto di probabilità condizionate.
27.5.1 Caso di due eventi
Per due eventi \(A\) e \(B\), il Teorema del Prodotto asserisce che:
\[ P(A \cap B) \;=\; P(B) \,\cdot\, P(A \mid B) \;=\; P(A) \,\cdot\, P(B \mid A). \tag{27.4}\]
In altre parole, la probabilità che \(A\) e \(B\) si verifichino contemporaneamente può essere calcolata in due modi equivalenti:
- primo modo: prendi la probabilità di \(B\), quindi moltiplicala per la probabilità di \(A\), sapendo già che \(B\) è accaduto;
- secondo modo: prendi la probabilità di \(A\), quindi moltiplicala per la probabilità di \(B\), sapendo già che \(A\) è accaduto.
L’ordine degli eventi in cui si applica la condizione è arbitrario, a patto di rispettare la formula e scegliere la condizione corrispondente.
27.5.2 Generalizzazione a \(n\) eventi
Il Teorema del Prodotto si estende naturalmente al caso di più di due eventi. Se consideriamo \(n\) eventi \(A_1, A_2, \dots, A_n\), e assumiamo che
\[ P(A_1 \cap A_2 \cap \cdots \cap A_{n-1}) \;>\; 0, \]
allora la probabilità che tutti questi eventi si verifichino è data da:
\[ \begin{aligned} P(A_1 \,\cap\, A_2 \,\cap\, \cdots \,\cap\, A_n) &= P(A_1) \;\times\; P(A_2 \mid A_1) \;\times\; P(A_3 \mid A_1 \cap A_2) \;\times\; \cdots \\ &\quad \cdots \times\; P(A_n \mid A_1 \cap A_2 \cap \cdots \cap A_{n-1}). \end{aligned} \tag{27.5}\]
In pratica, ciascun fattore si ottiene considerando la probabilità dell’evento successivo, condizionata sul verificarsi di tutti gli eventi precedenti. Questa formulazione è cruciale, ad esempio, nelle analisi di sequenze di eventi o in modelli statistici in cui le probabilità vengono “aggiornate” gradualmente mano a mano che si verificano nuove condizioni.
Il Teorema del Prodotto rappresenta uno dei fondamenti teorici più importanti della probabilità e trova applicazioni in numerosi contesti, quali:
- la modellazione di processi sequenziali o temporali;
- la scomposizione di problemi complessi in calcoli più semplici e gestibili;
- la teoria delle reti bayesiane e l’analisi della probabilità condizionata.
Grazie a questo teorema, è possibile affrontare problemi complessi suddividendoli in passaggi progressivi, in cui ogni probabilità condizionata contribuisce alla costruzione della soluzione complessiva in maniera sistematica.
27.5.2.1 Procedura di calcolo
Per applicare la regola:
-
parti dal primo evento: usa la probabilità incondizionata \(P(A_1)\);
- condiziona progressivamente: moltiplica per \(P(A_2 \mid A_1)\), poi per \(P(A_3 \mid A_1 \cap A_2)\), e così via;
- termina con l’ultimo evento: includi \(P(A_n \mid A_1 \cap \cdots \cap A_{n-1})\).
27.6 Teorema della probabilità totale
Il Teorema della Probabilità Totale — anche detto legge della probabilità totale — permette di calcolare la probabilità di un evento \(A\) scomponendola rispetto a una partizione di sottoinsiemi che coprono l’intero spazio campionario. È particolarmente utile quando si affrontano situazioni con più scenari, categorie o gruppi nei quali ripartire il calcolo di probabilità.
27.6.1 Enunciato generale
Definizione 27.3 Supponiamo che lo spazio campionario \(\Omega\) sia suddiviso in una partizione di eventi \(B_1, B_2, \dots, B_n\), ossia:
-
mutua esclusività: \(B_i \cap B_j = \varnothing\) per \(i \neq j\);
- copertura totale: \(\bigcup_{i=1}^n B_i = \Omega\).
Allora, per un qualsiasi evento \(A \subseteq \Omega\) vale:
\[ P(A) \;=\; \sum_{i=1}^n P(A \cap B_i) \;=\; \sum_{i=1}^n P(A \mid B_i)\, P(B_i). \tag{27.6}\]
In altre parole, \(P(A)\) può essere visto come una media pesata delle probabilità condizionate \(P(A \mid B_i)\), con pesi \(P(B_i)\).
27.6.2 Caso di due partizioni
Quando lo spazio campionario è ripartito in due soli eventi, \(B\) e il suo complementare \(B^c\), la formula si semplifica in:
\[ \begin{aligned} P(A) &= P(A \cap B) + P(A \cap B^c) \\ &= P(A \mid B)\,P(B) \;+\; P(A \mid B^c)\,P(B^c). \end{aligned} \tag{27.7}\]
27.6.3 Applicazioni principali
Analisi per Categorie
Quando la popolazione è divisa in gruppi \(B_1, \dots, B_n\) (ad esempio, fasce d’età o regioni), la probabilità di un evento \(A\) si ottiene sommando le probabilità di \(A\) condizionate a ciascun gruppo, moltiplicate per la frequenza di quel gruppo.Teorema di Bayes
Il denominatore della formula di Bayes è la somma \(\sum_{j=1}^n P(E \mid H_j)\,P(H_j)\), che è appunto un’applicazione della probabilità totale. Qui, \(H_1, \dots, H_n\) rappresentano ipotesi alternative (partizione) e \(E\) un dato osservato.
In breve, il teorema della probabilità totale “scompone” un problema globale in sotto-problemi più specifici, ciascuno condizionato su una porzione dello spazio campionario, permettendo di sommare i risultati finali per ottenere \(P(A)\).
Riflessioni conclusive
La probabilità condizionata è uno dei concetti più importanti in statistica, poiché fornisce il quadro teorico per:
- comprendere e formalizzare l’indipendenza tra eventi o variabili (assenza di ogni tipo di relazione);
- espandere e generalizzare il calcolo delle probabilità (ad esempio, la legge della probabilità totale, che scompone in modo sistematico eventi complessi);
- alimentare metodi inferenziali avanzati, come il Teorema di Bayes.
In particolare, il Teorema di Bayes rappresenta uno strumento cardine dell’inferenza statistica: grazie alla probabilità condizionata, è possibile “aggiornare” in modo continuo le credenze sulle ipotesi (o sui parametri di un modello) alla luce di nuove osservazioni. Tale caratteristica di “apprendimento” graduale rende l’inferenza bayesiana flessibile e potente, ideale per affrontare situazioni in cui vengono resi disponibili dati aggiuntivi o in cui le condizioni iniziali possono cambiare.
In definitiva, la probabilità condizionata non solo chiarisce la nozione di indipendenza e getta le fondamenta di metodi inferenziali evoluti, ma soprattutto rappresenta il “motore” di modelli che si adattano dinamicamente alle nuove informazioni. Questa prospettiva “attiva” nell’aggiornamento delle probabilità è ciò che rende l’analisi statistica uno strumento versatile per descrivere e interpretare il mondo reale.