4 Probabilità condizionata come aggiornamento

“Probability is always conditional.”

– Dennis V. Lindley, The Philosophy of Statistics (2000).

Introduzione

La probabilità condizionata è il meccanismo fondamentale attraverso cui le credenze si aggiornano alla luce di nuove informazioni. Quando apprendiamo che si è verificato un evento \(B\), la nostra credenza su un altro evento \(A\) deve cambiare in modo coerente: questo cambiamento è quantificato dalla probabilità condizionata \(P(A|B)\).

Da una prospettiva bayesiana, ogni probabilità è implicitamente condizionata allo stato di informazione corrente. Quando diciamo \(P(A)\), stiamo in realtà dicendo \(P(A \mid \mathcal{I})\), dove \(\mathcal{I}\) rappresenta tutto ciò che sappiamo. La probabilità condizionata formalizza il processo di riduzione dello spazio epistemico: apprendere l’evento \(B\) significa restringere le possibilità a quelle compatibili con esso e ricalibrare le credenze di conseguenza.

In questo capitolo esploreremo la probabilità condizionata non come un’operazione tecnica su insiemi, ma come una regola di coerenza per l’aggiornamento delle credenze. Vedremo come questo concetto sia fondamentale per comprendere l’indipendenza, il teorema del prodotto, la legge della probabilità totale e, nel prossimo capitolo, il teorema di Bayes.

Panoramica del capitolo

Probabilità condizionata come riduzione dello spazio epistemico.
Interpretazione epistemica dell’aggiornamento.
Indipendenza come assenza di informazione reciproca.
Teorema del prodotto e probabilità congiunta.
Legge della probabilità totale.
Paradosso di Simpson.
Applicazioni a diagnostica clinica e test psicologici.

Prerequisiti

Aver letto i capitoli precedenti (Capitolo 1, Capitolo 2, Capitolo 3).
Familiarità con tabelle congiunte.
Nozioni base di R per simulazioni.

Preparazione del Notebook

here::here("code", "_common.R") |> 
  source()

# Load packages
if (!requireNamespace("pacman")) install.packages("pacman")
pacman::p_load(ggplot2, dplyr, tidyr, patchwork, ggforce, DiagrammeR)

4.1 Definizione e interpretazione epistemica

Definizione 4.1 (Probabilità condizionata) Se \(P(B) > 0\), la probabilità condizionata di \(A\) dato \(B\) è definita come:

\[ P(A \mid B) = \frac{P(A \cap B)}{P(B)} \tag{4.1}\]

Interpretazione epistemica: \(P(A \mid B)\) quantifica il nostro grado di credenza in \(A\) dopo aver appreso che \(B\) è vero, tenendo conto del fatto che ora lo spazio delle possibilità si è ristretto a quelle compatibili con \(B\).

4.1.1 Perché questa formula?

La definizione di probabilità condizionata non è una convenzione arbitraria, ma emerge come conseguenza necessaria del principio di coerenza probabilistica. Consideriamo una distribuzione di probabilità congiunta rappresentata da una tabella 2 \(\times\) 2:

	\(B\)	\(B^c\)	Marginali
\(A\)	\(p_{11}\)	\(p_{12}\)	\(P(A)\)
\(A^c\)	\(p_{21}\)	\(p_{22}\)	\(P(A^c)\)
Marginali	\(P(B)\)	\(P(B^c)\)	\(1\)

Quando si acquisisce l’informazione che l’evento \(B\) si è verificato, lo spazio probabilistico si riduce alla sola colonna corrispondente a \(B\). Per preservare la coerenza interna del nostro sistema di credenze, dobbiamo implementare due operazioni fondamentali. In primo luogo, è necessario eliminare tutti gli esiti incompatibili con \(B\), ovvero quelli situati nella colonna \(B^c\). In secondo luogo, dobbiamo rinormalizzare le credenze residue, assicurando che la probabilità totale dello spazio ridotto sia pari a 1. Questa rinormalizzazione si ottiene dividendo ciascuna probabilità residua per \(P(B)\).

Il risultato di questo processo è la formula della probabilità condizionata: \[ P(A \mid B) = \frac{p_{11}}{p_{11} + p_{21}} = \frac{p_{11}}{P(B)} = \frac{P(A \cap B)}{P(B)}. \]

Principio epistemico fondamentale

Aggiornamento come riduzione e rinormalizzazione

L’acquisizione dell’informazione che l’evento \(B\) si è verificato innesca un processo di aggiornamento epistemico strutturato in tre fasi fondamentali. In primo luogo, si verifica una riduzione dello spazio epistemico dall’intero universo \(\Omega\) al sottoinsieme \(B\), eliminando così tutte le possibilità incompatibili con l’evidenza osservata. In secondo luogo, si procede a una rinormalizzazione delle credenze su questo sottospazio ridotto, garantendo che le probabilità assegnate agli eventi rimanenti sommino nuovamente a 1. In terzo luogo, si mantengono inalterate le proporzioni relative tra tutti gli eventi compatibili con \(B\), preservando così la struttura delle relazioni probabilistiche originarie.

Questo meccanismo garantisce la coerenza epistemica: se avessimo inizialmente considerato esclusivamente \(B\) come nostro spazio di possibilità, avremmo ottenuto esattamente le stesse credenze relative tra gli eventi ora risultanti dal processo di aggiornamento condizionale.

4.1.2 Visualizzazione geometrica

# Esempio con diagramma di Venn simulato
# Parametri
P_A <- 0.6
P_B <- 0.5
P_AB <- 0.35

# Creare dataframe per visualizzazione
df_venn <- data.frame(
  x = c(0.3, 0.7),
  y = c(0.5, 0.5),
  r = c(sqrt(P_A / pi), sqrt(P_B / pi)),
  label = c("A", "B")
)

# Calcolare condizionata
P_A_given_B <- P_AB / P_B

ggplot() +
  geom_circle(data = df_venn, aes(x0 = x, y0 = y, r = r, fill = label), 
              alpha = 0.3, size = 1, show.legend = FALSE) +
  annotate("text", x = 0.3, y = 0.85, label = "A", size = 8) +
  annotate("text", x = 0.7, y = 0.85, label = "B", size = 8) +
  annotate("text", x = 0.5, y = 0.5, label = "A ∩ B", size = 6) +
  annotate("text", x = 0.5, y = -0.1, 
           label = sprintf("P(A|B) = P(A∩B)/P(B) = %.2f/%.2f = %.2f", 
                          P_AB, P_B, P_A_given_B),
           size = 5) +
  coord_fixed() +
  theme_void() +
  labs(title = "Probabilità condizionata come riduzione dello spazio",
       subtitle = "Apprendere B significa focalizzarsi sulla regione B e rinormalizzare")

4.2 Proprietà della probabilità condizionata

Le probabilità condizionate mantengono le proprietà degli assiomi, trattando \(B\) come nuovo “universo”.

Teorema 4.1 (Proprietà della condizionata) Fissato un evento \(B\) con \(P(B) > 0\), la funzione \(P(\cdot \mid B)\) soddisfa tutti gli assiomi della probabilità.

Non-negatività: \(P(A \mid B) \geq 0\) per ogni evento \(A\).
Normalizzazione: \(P(B \mid B) = 1\) (certezza di \(B\) dato \(B\)).
Additività: se \(A_1, A_2\) sono eventi disgiunti, allora \[P(A_1 \cup A_2 \mid B) = P(A_1 \mid B) + P(A_2 \mid B).\]
Complemento: \(P(A^c \mid B) = 1 - P(A \mid B).\)
Regola della catena (o del prodotto): \[P(A \cap B \mid C) = P(A \mid B \cap C) \cdot P(B \mid C).\]

Dimostrazione della proprietà 3 (additività): \[ P(A_1 \cup A_2 \mid B) = \frac{P((A_1 \cup A_2) \cap B)}{P(B)} = \frac{P((A_1 \cap B) \cup (A_2 \cap B))}{P(B)} \]

Poiché \(A_1, A_2\) disgiunti, anche \(A_1 \cap B\) e \(A_2 \cap B\) lo sono: \[ = \frac{P(A_1 \cap B) + P(A_2 \cap B)}{P(B)} = \frac{P(A_1 \cap B)}{P(B)} + \frac{P(A_2 \cap B)}{P(B)} = P(A_1 \mid B) + P(A_2 \mid B). \]

Esempio clinico completo

Test di screening per il disturbo depressivo maggiore

Contesto clinico: uno psicologo utilizza un test di screening per il disturbo depressivo maggiore in un contesto di comunità, caratterizzato da una popolazione non selezionata.

Informazioni epidemiologiche disponibili:

prevalenza nella popolazione (distribuzione a priori): \(P(D) = 0.08\) (l’8% degli individui in contesto di comunità presenta il disturbo);
sensibilità del test: \(P(T^+ \mid D) = 0.85\) (l’85% dei soggetti depressi risulta positivo al test);
specificità del test: \(P(T^- \mid D^c) = 0.90\) (il 90% dei soggetti non depressi risulta negativo al test).

Costruzione della distribuzione di probabilità congiunta:

# Parametri epidemiologici
P_D <- 0.08
sens <- 0.85
spec <- 0.90

# Tassi di classificazione errata
fp_rate <- 1 - spec  # P(T+ | D^c) = 0.10

# Probabilità congiunte
P_D_and_Tpos <- sens * P_D
P_D_and_Tneg <- (1 - sens) * P_D
P_Dc_and_Tpos <- fp_rate * (1 - P_D)
P_Dc_and_Tneg <- spec * (1 - P_D)

# Rappresentazione tabellare
tab_diagnostic <- matrix(
  c(P_D_and_Tpos, P_D_and_Tneg,
    P_Dc_and_Tpos, P_Dc_and_Tneg),
  nrow = 2, byrow = TRUE,
  dimnames = list(
    Stato = c("D", "D^c"),
    Test = c("T+", "T-")
  )
)

cat("DISTRIBUZIONE DI PROBABILITÀ CONGIUNTA (Test × Stato):\n")
#> DISTRIBUZIONE DI PROBABILITÀ CONGIUNTA (Test × Stato):
print(round(tab_diagnostic, 4))
#>      Test
#> Stato    T+    T-
#>   D   0.068 0.012
#>   D^c 0.092 0.828

# Probabilità marginali
cat("\nPROBABILITÀ MARGINALI:\n")
#> 
#> PROBABILITÀ MARGINALI:
cat("P(D) =", round(rowSums(tab_diagnostic)[1], 4), "\n")
#> P(D) = 0.08
cat("P(T+) =", round(colSums(tab_diagnostic)[1], 4), "\n")
#> P(T+) = 0.16
cat("P(T-) =", round(colSums(tab_diagnostic)[2], 4), "\n")
#> P(T-) = 0.84

Questioni cliniche risolte mediante probabilità condizionate:

# 1. Valore predittivo positivo: P(D | T+)
P_Tpos <- colSums(tab_diagnostic)[1]
P_D_given_Tpos <- tab_diagnostic[1, 1] / P_Tpos

# 2. Valore predittivo negativo: P(D^c | T-)
P_Tneg <- colSums(tab_diagnostic)[2]
P_Dc_given_Tneg <- tab_diagnostic[2, 2] / P_Tneg

# 3. Probabilità residua di depressione dopo test negativo
P_D_given_Tneg <- tab_diagnostic[1, 2] / P_Tneg

#> ANALISI DELL'AGGIORNAMENTO DELLE CREDENZE
#> =========================================
#> STATO DELLE CREDENZE PRIMA DEL TEST (distribuzione a priori):
#>   P(D) = 0.08
#> STATO DELLE CREDENZE DOPO TEST POSITIVO:
#>   P(D | T+) = 0.425 (Valore Predittivo Positivo)
#>   Aggiornamento: la credenza aumenta da 0.08 a 0.425
#> STATO DELLE CREDENZE DOPO TEST NEGATIVO:
#>   P(D | T-) = 0.0143
#>   P(D^c | T-) = 0.986 (Valore Predittivo Negativo)
#>   Aggiornamento: la credenza diminuisce da 0.08 a 0.0143

Interpretazione epistemica del processo inferenziale.

La distribuzione a priori (prima della somministrazione del test) assegna una probabilità di \(P(D) = 0.08\) basandosi esclusivamente sui dati di prevalenza nella popolazione.

In seguito a un test positivo, l’informazione osservata determina un aggiornamento delle credenze portando a \(P(D \mid T^+) \approx 0.43\). È fondamentale notare che questo valore non corrisponde alla sensibilità del test (0.85), poiché la sensibilità quantifica \(P(T^+ \mid D)\) mentre il valore predittivo positivo rappresenta \(P(D \mid T^+)\). Il valore predittivo positivo dipende criticamente dal tasso base della condizione nella popolazione di riferimento.

In seguito a un test negativo, l’informazione osservata produce una drastica riduzione della credenza nella presenza del disturbo, portando a \(P(D \mid T^-) \approx 0.013\). L’elevata specificità del test rende un risultato negativo particolarmente informativo per escludere la condizione.

Visualizzazione dell’aggiornamento.

Verifica con simulazione Monte Carlo.

set.seed(123)
N <- 100000

# Simulare stato reale e risultato test
stato <- rbinom(N, 1, P_D)  # 1 = Depresso, 0 = Non depresso

test_result <- ifelse(stato == 1,
                      rbinom(N, 1, sens),      # Se depresso, test+ con prob sens
                      rbinom(N, 1, fp_rate))   # Se non depresso, test+ con prob fp_rate

# Calcolare condizionate empiriche
P_D_given_Tpos_sim <- mean(stato[test_result == 1] == 1)
P_D_given_Tneg_sim <- mean(stato[test_result == 0] == 1)

#> === VERIFICA CON SIMULAZIONE ===
#> Teorico vs Simulato (N = 100000 ):
#> P(D | T+):
#>   Teorico: 0.425
#>   Simulato: 0.418
#> P(D | T-):
#>   Teorico: 0.0143
#>   Simulato: 0.0139

4.3 Indipendenza stocastica

Il concetto di indipendenza rappresenta una proprietà fondamentale che caratterizza l’assenza di relazione informativa tra eventi nell’ambito del ragionamento probabilistico.

Definizione 4.2 (Indipendenza (definizione epistemica)) Due eventi \(A\) e \(B\) sono indipendenti (notazione: \(A \perp B\)) quando l’acquisizione di informazione riguardante uno dei due eventi non modifica le nostre credenze relative all’altro:

\[ P(A \mid B) = P(A) \quad \text{e equivalentemente} \quad P(B \mid A) = P(B). \tag{4.2}\]

Conseguenza matematica: Se \(A \perp B\), allora la loro probabilità congiunta ammette una fattorizzazione moltiplicativa: \[ P(A \cap B) = P(A) \cdot P(B) \tag{4.3}\]

Interpretazione epistemica: l’informazione che “\(B\) si è verificato” non modifica la nostra credenza riguardo al verificarsi di \(A\). Gli eventi sono epistemicamente disgiunti: la conoscenza di uno non fornisce alcuna informazione utile né per prevedere il verificarsi dell’altro né per determinarne la probabilità.

4.3.1 Test di indipendenza nella tabella congiunta

Data una distribuzione di probabilità congiunta rappresentata in forma tabellare, è possibile verificare l’eventuale indipendenza tra due eventi confrontando due quantità specifiche:

la probabilità congiunta osservata: \(P(A \cap B)\);
il prodotto delle probabilità marginali: \(P(A) \cdot P(B)\).

Se queste due quantità coincidono, a meno di trascurabili errori di approssimazione numerica, possiamo concludere che gli eventi \(A\) e \(B\) sono statisticamente indipendenti.

# Esempio: Test e Stato sono indipendenti?
P_A <- rowSums(tab_diagnostic)[1]  # P(D)
P_B <- colSums(tab_diagnostic)[1]  # P(T+)
P_AB_obs <- tab_diagnostic[1, 1]   # P(D ∩ T+)
P_AB_indep <- P_A * P_B            # Se fossero indipendenti

#> Test di indipendenza:
#> P(D ∩ T+) osservata = 0.068
#> P(D) × P(T+) = 0.0128
#> Differenza: 0.0552
#> → Eventi DIPENDENTI (correlati)
#>   Questo è atteso: il test è progettato per essere informativo sulla depressione!

Osservazione: se il test e lo stato fossero indipendenti, il test sarebbe inutile (non fornirebbe alcuna informazione). La dipendenza è auspicabile per un test diagnostico efficace!

4.3.2 Indipendenza vs disgiunzione

Errore concettuale comune

Indipendenza \(\neq\) Disgiunzione

Due eventi disgiunti (mutualmente esclusivi) non possono essere indipendenti, a meno che uno dei due non abbia probabilità zero.

Dimostrazione logica: se \(A \cap B = \varnothing\) e \(P(A), P(B) > 0\), allora:

\(P(A \cap B) = 0\) (per definizione di disgiunzione);
\(P(A) \cdot P(B) > 0\) (prodotto di quantità positive);
conseguentemente \(P(A \cap B) \neq P(A) \cdot P(B)\): gli eventi NON sono indipendenti.

Interpretazione epistemica: gli eventi disgiunti risultano massimamente dipendenti dal punto di vista informativo. L’informazione che uno si è verificato implica con certezza che l’altro non si è verificato! La relazione informativa è completa e deterministica.

Al contrario, l’indipendenza caratterizza una situazione di assenza completa di informazione reciproca tra gli eventi.

# Esempio numerico
# A = "Lancio dado, esce numero pari"
# B = "Lancio dado, esce numero dispari"
# Disgiunti ma NON indipendenti

P_pari <- 3/6
P_dispari <- 3/6
P_pari_e_dispari <- 0  # Disgiunti!

#> Eventi disgiunti (pari vs dispari):
#> P(Pari) = 0.5
#> P(Dispari) = 0.5
#> P(Pari ∩ Dispari) = 0
#> P(Pari) × P(Dispari) = 0.25
#> 
#> P(Pari | Dispari) = 0 (se dispari è vero, pari è impossibile)
#> → Informazione totale: MASSIMA dipendenza!

4.4 Teorema del prodotto (regola della catena)

Il teorema del prodotto fornisce un metodo alternativo, spesso più intuitivo, per esprimere le probabilità congiunte attraverso una scomposizione sequenziale.

Teorema 4.2 (Teorema del prodotto) Per due eventi \(A\) e \(B\) con \(P(B) > 0\) vale la relazione:

\[ P(A \cap B) = P(A \mid B) \cdot P(B) \tag{4.4}\]

Generalizzazione a \(n\) eventi: \[ P(A_1 \cap A_2 \cap \cdots \cap A_n) = P(A_1) \cdot P(A_2 \mid A_1) \cdot P(A_3 \mid A_1 \cap A_2) \cdots P(A_n \mid A_1 \cap \cdots \cap A_{n-1}). \]

Interpretazione epistemica: la costruzione della probabilità congiunta avviene attraverso un processo sequenziale di aggiornamento delle credenze. Si inizia con \(P(A_1)\) (credenza iniziale sul primo evento), poi si procede con l’aggiornamento sequenziale di ogni evento successivo alla luce degli eventi già condizionanti.

Dimostrazione

La relazione fondamentale discende immediatamente dalla definizione di probabilità condizionata. Partendo dall’equazione definitoria:

\[ P(A \mid B) = \frac{P(A \cap B)}{P(B)} \] e moltiplicando entrambi i membri per \(P(B)\) (che per ipotesi è positivo), si ottiene:

\[ P(A \mid B) \cdot P(B) = P(A \cap B) \] che corrisponde esattamente all’enunciato del teorema.

Estensione alla generalizzazione: la forma estesa per \(n\) eventi si dimostra per induzione. Per \(n=2\) abbiamo già dimostrato il caso base. Assumendo vera la formula per \(n-1\) eventi:

\[ P(A_1 \cap \cdots \cap A_{n-1}) = P(A_1) \cdot P(A_2 \mid A_1) \cdots P(A_{n-1} \mid A_1 \cap \cdots \cap A_{n-2}), \] applicando il caso base agli eventi \(A_1 \cap \cdots \cap A_{n-1}\) e \(A_n\) si ottiene:

\[ P(A_1 \cap \cdots \cap A_n) = P(A_n \mid A_1 \cap \cdots \cap A_{n-1}) \cdot P(A_1 \cap \cdots \cap A_{n-1}). \] Sostituendo l’ipotesi induttiva si completa la dimostrazione.

Esempio: Test diagnostici multipli

Un paziente con sospetto disturbo d’ansia si sottopone a due test diagnostici indipendenti: \(T_1\) (questionario autosomministrato) e \(T_2\) (colloquio clinico strutturato).

Informazioni cliniche disponibili:

prevalenza del disturbo: \(P(\text{Ansia}) = 0.20\);
sensibilità del questionario: \(P(T_1^+ \mid \text{Ansia}) = 0.80\);
falsi positivi del questionario: \(P(T_1^+ \mid \text{Ansia}^c) = 0.15\);
sensibilità del colloquio: \(P(T_2^+ \mid \text{Ansia}) = 0.85\);
falsi positivi del colloquio: \(P(T_2^+ \mid \text{Ansia}^c) = 0.10\).

I due test sono condizionatamente indipendenti dato lo stato del paziente: \[P(T_1^+ \cap T_2^+ \mid \text{Ansia}) = P(T_1^+ \mid \text{Ansia}) \cdot P(T_2^+ \mid \text{Ansia}).\]

Domanda clinica: Qual è la probabilità che il paziente sia ansioso e risulti positivo ad entrambi i test, \(P(\text{Ansia} \cap T_1^+ \cap T_2^+)\)?

Applicazione del teorema del prodotto:

\[ \begin{aligned} P(\text{Ansia} \cap T_1^+ \cap T_2^+) &= P(T_2^+ \mid \text{Ansia} \cap T_1^+) \cdot P(T_1^+ \mid \text{Ansia}) \cdot P(\text{Ansia}) \\ &= P(T_2^+ \mid \text{Ansia}) \cdot P(T_1^+ \mid \text{Ansia}) \cdot P(\text{Ansia}) \quad \text{(per indipendenza condizionale)} \\ &= 0.85 \times 0.80 \times 0.20 = 0.136. \end{aligned} \]

Interpretazione: la probabilità che un paziente sia effettivamente ansioso e risulti positivo ad entrambi i test è del 13.6%. Questo risultato combina la probabilità a priori del disturbo con le caratteristiche psicometriche dei due test, sfruttando la loro indipendenza condizionale.

4.5 Legge della probabilità totale

La legge della probabilità totale costituisce un’applicazione fondamentale del teorema del prodotto in contesti in cui lo spazio campionario risulta suddiviso in scenari mutualmente esclusivi.

Teorema 4.3 (Legge della probabilità totale) Sia \(\{B_1, B_2, \ldots, B_n\}\) una partizione di \(\Omega\)—ovvero una collezione di eventi mutualmente esclusivi ed esaustivi che ricoprono l’intero spazio campionario. Allora, per ogni evento \(A\):

\[ P(A) = \sum_{i=1}^{n} P(A \mid B_i) \cdot P(B_i). \tag{4.5}\]

Interpretazione epistemica: la credenza complessiva nell’evento \(A\) corrisponde a una media ponderata delle credenze condizionate a ciascuno scenario \(B_i\), dove i pesi sono rappresentati dalle nostre credenze iniziali nei diversi scenari.

Dimostrazione: \[ \begin{aligned} P(A) &= P(A \cap \Omega) \\ &= P\left(A \cap \bigcup_{i=1}^{n} B_i\right) \quad \text{(per esaustività della partizione)} \\ &= \sum_{i=1}^{n} P(A \cap B_i) \quad \text{(per additività sugli eventi disgiunti)} \\ &= \sum_{i=1}^{n} P(A \mid B_i) \cdot P(B_i) \quad \text{(per il teorema del prodotto)} \end{aligned} \]

4.5.1 Visualizzazione con albero probabilistico

# Esempio: Probabilità di test positivo considerando due popolazioni

# Scenario: Clinica vs Popolazione generale
P_clinica <- 0.30     # 30% pazienti da clinica specialistica
P_pop_gen <- 0.70     # 70% da popolazione generale

# Prevalenze diverse
P_D_given_clinica <- 0.40
P_D_given_popgen <- 0.05

# Caratteristiche del test
sens <- 0.85          # Sensibilità
spec <- 0.90          # Specificità
fp_rate <- 1 - spec   # Tasso falsi positivi = 0.10

# P(T+ | Clinica)
P_Tpos_given_clinica <- sens * P_D_given_clinica + fp_rate * (1 - P_D_given_clinica)

# P(T+ | Pop.Gen.)
P_Tpos_given_popgen <- sens * P_D_given_popgen + fp_rate * (1 - P_D_given_popgen)

# Probabilità totale di test positivo
P_Tpos_total <- P_Tpos_given_clinica * P_clinica + P_Tpos_given_popgen * P_pop_gen

#> === LEGGE DELLA PROBABILITÀ TOTALE ===
#> Partizione dello spazio:
#>   P(Clinica) = 0.3
#>   P(Pop.Gen.) = 0.7
#> Probabilità condizionate:
#>   P(T+ | Clinica) = 0.4
#>   P(T+ | Pop.Gen.) = 0.137
#> Probabilità totale:
#>   P(T+) = 0.216
#>        = 0.4 × 0.3 + 0.137 × 0.7

#> 
#> Struttura ad albero:
#>               [Popolazione Totale]
#>                     /        \
#>                    /          \
#>          Clinica (0.3)    Pop.Gen. (0.7)
#>             |                  |
#>          T+ (0.36)          T+ (0.13)
#>                                |
#>                     P(T+) totale = 0.36×0.3 + 0.13×0.7 = 0.20

4.6 Paradosso di Simpson

Il paradosso di Simpson mostra che una relazione osservata tra due variabili può invertire direzione quando si analizzano separatamente i sottogruppi della popolazione. Ciò avviene quando una variabile confondente (ad esempio la gravità del caso o il sesso dei partecipanti) influenza sia l’esposizione sia l’esito.

Esempio

Efficacia del trattamento per la depressione in due cliniche

Due cliniche (A e B) valutano un nuovo trattamento per la depressione. La clinica A tratta soprattutto casi lievi, la clinica B casi gravi.

Dati:

# Clinica A (casi lievi)
n_A_trattati <- 90
n_A_guariti_trattati <- 81   # 90% successo

n_A_controllo <- 10
n_A_guariti_controllo <- 9   # 90% successo

# Clinica B (casi gravi)
n_B_trattati <- 10
n_B_guariti_trattati <- 2    # 20% successo

n_B_controllo <- 90
n_B_guariti_controllo <- 27  # 30% successo

# Proporzioni per clinica
prop_A_trattati <- n_A_guariti_trattati / n_A_trattati
prop_A_controllo <- n_A_guariti_controllo / n_A_controllo
prop_B_trattati <- n_B_guariti_trattati / n_B_trattati
prop_B_controllo <- n_B_guariti_controllo / n_B_controllo

# Aggregato (senza distinguere clinica)
n_tot_trattati <- n_A_trattati + n_B_trattati
n_tot_guariti_trattati <- n_A_guariti_trattati + n_B_guariti_trattati
n_tot_controllo <- n_A_controllo + n_B_controllo
n_tot_guariti_controllo <- n_A_guariti_controllo + n_B_guariti_controllo

prop_tot_trattati <- n_tot_guariti_trattati / n_tot_trattati
prop_tot_controllo <- n_tot_guariti_controllo / n_tot_controllo

#> === PARADOSSO DI SIMPSON ===
#> Clinica A (casi lievi):
#>   Trattati: 0.9 → 81 / 90
#>   Controllo: 0.9 → 9 / 10
#>   → Efficacia uguale o leggermente migliore nel gruppo trattamento
#> Clinica B (casi gravi):
#>   Trattati: 0.2 → 2 / 10
#>   Controllo: 0.3 → 27 / 90
#>   → Trattamento migliore anche qui
#> AGGREGATO (A + B):
#>   Trattati: 0.83 → 83 / 100
#>   Controllo: 0.36 → 36 / 100
#>   → NELL'AGGREGATO: sembra che il trattamento funzioni PEGGIO!
#> Spiegazione: la clinica B (casi gravi) contribuisce molto al gruppo trattato,
#> mentre la clinica A (casi lievi) contribuisce molto al gruppo di controllo.
#> Il mix diseguale dei casi (variabile confondente) inverte la relazione osservata.

Visualizzazione

Interpretazione epistemica. Il paradosso di Simpson rivela che la probabilità condizionata corretta non è quella aggregata ma quella stratificata per clinica: \[ P(\text{guarigione} \mid \text{trattamento}, \text{clinica}) \] e non \[ P(\text{guarigione} \mid \text{trattamento}). \]

Quando la distribuzione dei casi (lievi/gravi) è squilibrata tra i gruppi, l’analisi aggregata può portare a una conclusione errata: pur essendo benefico in entrambi i sottogruppi, il trattamento appare inefficace nel complesso.

4.7 Applicazioni psicologiche

4.7.1 Comorbidità e aggiornamento delle credenze diagnostiche

# Esempio: Depressione e ansia in contesto clinico
P_D <- 0.40
P_A <- 0.35
P_A_given_D <- 0.60  # Alta comorbidità

# Costruire tabella congiunta
P_D_and_A <- P_A_given_D * P_D
P_D_and_notA <- P_D - P_D_and_A
P_notD_and_A <- P_A - P_D_and_A
P_notD_and_notA <- 1 - (P_D_and_A + P_D_and_notA + P_notD_and_A)

tab_comorbid <- matrix(
  c(P_D_and_A, P_D_and_notA, P_notD_and_A, P_notD_and_notA),
  nrow = 2, byrow = TRUE,
  dimnames = list(Depressione = c("D", "D^c"), Ansia = c("A", "A^c"))
)

# Probabilità condizionate
P_D_given_A <- P_D_and_A / P_A
P_D_given_notA <- P_D_and_notA / (1 - P_A)

#> ANALISI DELLA COMORBIDITÀ E AGGIORNAMENTO DIAGNOSTICO
#> =====================================================
#> DISTRIBUZIONE A PRIORI (basata su prevalenze):
#>   P(Depressione) = 0.4
#>   P(Ansia) = 0.35
#>   P(Ansia | Depressione) = 0.6 (comorbidità elevata)
#> AGGIORNAMENTO DOPO OSSERVAZIONE CLINICA:
#>   Dopo aver rilevato sintomi d'ansia:
#>     P(Depressione | Ansia) = 0.686
#>     → Aumento della credenza: da 0.4 a 0.686 (+ 29 %)
#>   Dopo aver escluso sintomi d'ansia:
#>     P(Depressione | Ansia^c) = 0.246
#>     → Diminuzione della credenza: da 0.4 a 0.246 (- 15 %)

Interpretazione clinica: l’alta comorbidità tra depressione e ansia implica che l’osservazione di sintomi ansiosi costituisce un’evidenza rilevante a favore della presenza di depressione, mentre l’assenza di ansia riduce considerevolmente la probabilità di depressione.

4.7.2 Valore diagnostico incrementale di test multipli

# Scenario: Due test per ADHD in valutazione psicodiagnostica
# T1: Questionario per genitori (Conners)
# T2: Osservazione strutturata in classe

P_ADHD <- 0.10
sens_T1 <- 0.80
spec_T1 <- 0.85
sens_T2 <- 0.75
spec_T2 <- 0.90

# Assumiamo indipendenza condizionale dato lo stato ADHD

# Calcolo probabilità dopo primo test
fp1 <- 1 - spec_T1
P_T1pos <- sens_T1 * P_ADHD + fp1 * (1 - P_ADHD)
P_ADHD_given_T1pos <- (sens_T1 * P_ADHD) / P_T1pos

# Calcolo probabilità dopo entrambi i test positivi
P_ADHD_and_T1pos_and_T2pos <- sens_T1 * sens_T2 * P_ADHD
fp2 <- 1 - spec_T2
P_T1pos_and_T2pos <- sens_T1 * sens_T2 * P_ADHD + fp1 * fp2 * (1 - P_ADHD)
P_ADHD_given_both <- P_ADHD_and_T1pos_and_T2pos / P_T1pos_and_T2pos

#> VALORE DIAGNOSTICO INCREMENTALE DI TEST MULTIPLI
#> ================================================
#> CONTESTO: Valutazione psicodiagnostica per ADHD
#>   Prevalenza stimata: P(ADHD) = 0.1
#> PROGRESSIONE DELL'AGGIORNAMENTO DIAGNOSTICO:
#>   Stato iniziale: P(ADHD) = 0.1
#>   Dopo questionario genitori positivo:
#>     P(ADHD | T1+) = 0.372
#>   Dopo anche osservazione in classe positiva:
#>     P(ADHD | T1+, T2+) = 0.816
#> ANALISI DELL'INCREMENTO INFORMATIVO:
#>   Incremento dopo primo test: + 27.2 %
#>   Incremento dopo secondo test: + 44.4 %
#>   Incremento totale: + 71.6 %
#> CONCLUSIONE CLINICA: L'integrazione sequenziale di test multipli con caratteristiche
#> psicometriche complementari produce un accumulo di evidenza diagnostica.

Implicazioni per la pratica clinica: l’approccio bayesiano sequenziale giustifica l’uso di batterie di test multiple, dimostrando come ogni strumento contribuisca in modo incrementale alla precisione diagnostica, aspetto particolarmente rilevante in condizioni complesse come, ad esempio, l’ADHD.

Riflessioni conclusive

La probabilità condizionata rappresenta il meccanismo fondamentale attraverso il quale le credenze bayesiane si aggiornano in modo coerente alla luce di nuove informazioni. In questo capitolo abbiamo esplorato le dimensioni essenziali di questo concetto.

La definizione epistemica di \(P(A \mid B)\) quantifica la nostra credenza in \(A\) dopo aver appreso l’informazione \(B\), realizzandosi attraverso un processo di riduzione e rinormalizzazione dello spazio epistemico. Il concetto di indipendenza caratterizza l’assenza di informazione reciproca tra eventi: quando due eventi sono indipendenti, la conoscenza di uno non modifica le nostre credenze riguardo all’altro.

Il teorema del prodotto fornisce il metodo naturale per costruire probabilità congiunte a partire da probabilità condizionate sequenziali, mentre la legge della probabilità totale costituisce uno strumento essenziale per calcolare le probabilità marginali mediante medie ponderate delle probabilità condizionate. Il paradosso di Simpson illustra drammaticamente l’importanza di condizionare sulle variabili appropriate, mostrando come l’aggregazione ingenua dei dati possa invertire artificialmente relazioni genuine.

Nelle applicazioni cliniche, che vanno dai test diagnostici all’analisi della comorbilità, dalla valutazione del valore incrementale di test multipli all’interpretazione dei pattern sintomatologici, il ragionamento condizionato si rivela indispensabile per una pratica evidence-based.

La probabilità condizionata non è solo una formula tecnica, ma rappresenta il nucleo concettuale del ragionamento bayesiano. Nel prossimo capitolo, il teorema di Bayes emergerà come un caso speciale della probabilità condizionata che formalizza l’inversione probabilistica, ovvero il passaggio da \(P(\text{Evidenza} \mid \text{Ipotesi})\) a \(P(\text{Ipotesi} \mid \text{Evidenza})\).

Ogni volta che utilizziamo espressioni come “dato che…”, “sapendo che…”, “alla luce di…”, stiamo implicitamente applicando il principio della probabilità condizionata per aggiornare le nostre credenze in modo logicamente coerente e matematicamente rigoroso.

Esercizi

Problemi

4.7.3 Esercizi concettuali

Spiega perché “ogni probabilità è condizionata” da una prospettiva bayesiana. Cosa significa \(P(A)\) implicitamente?
La formula \(P(A \mid B) = P(A \cap B) / P(B)\) può sembrare circolare. Spiega perché non lo è, e in quale ordine concettuale pensiamo queste quantità.
Quando due eventi sono disgiunti, possono essere indipendenti? Perché o perché no?
Il teorema del prodotto dice \(P(A \cap B) = P(A \mid B) P(B)\). Questo è simmetrico? Cioè, posso scrivere \(P(A \cap B) = P(B \mid A) P(A)\)? Cosa implica questa simmetria?
Il paradosso di Simpson dimostra che l’aggregazione è sempre sbagliata? Quando è legittimo aggregare dati?

4.7.4 Esercizi su probabilità condizionata

Data una tabella congiunta: | | \(B\) | \(B^c\) | |——-|——|——-| | \(A\) | 0.20 | 0.30 | | \(A^c\) | 0.15 | 0.35 |

Calcola:
1. \(P(A \mid B)\)
2. \(P(B \mid A)\)
3. \(P(A \mid B^c)\)
4. Gli eventi sono indipendenti?
\(P(A) = 0.6\), \(P(B) = 0.5\), \(P(A \mid B) = 0.7\). Calcola:
1. \(P(A \cap B)\)
2. \(P(B \mid A)\)
3. \(P(A \cup B)\)
Test diagnostico: \(P(M) = 0.01\), sens = 0.95, spec = 0.98.
1. Costruisci tabella congiunta
2. Calcola VPP e VPN
3. Quanto deve essere alta la sensibilità per avere VPP > 0.9?

4.7.5 Esercizi su indipendenza

Un dado viene lanciato. Siano:
- \(A\) = “Esce numero pari”
- \(B\) = “Esce numero ≤ 3”
1. \(A\) e \(B\) sono indipendenti?
2. Calcola \(P(A \mid B)\) e confronta con \(P(A)\)
Due monete equilibrate vengono lanciate. Siano:
- \(A\) = “Prima moneta è testa”
- \(B\) = “Almeno una testa”
1. Costruisci tabella congiunta
2. Calcola \(P(A \mid B)\)
3. \(A\) e \(B\) sono indipendenti?
In una popolazione, \(P(\text{Depressione}) = 0.15\) e \(P(\text{Insonnia}) = 0.25\). Se fossero indipendenti, quanto sarebbe \(P(\text{Depressione} \cap \text{Insonnia})\)? È plausibile l’indipendenza?

4.7.6 Esercizi su teorema del prodotto

\(P(A) = 0.5\), \(P(B \mid A) = 0.6\), \(P(C \mid A \cap B) = 0.7\). Calcola \(P(A \cap B \cap C)\).
Tre test sequenziali per ansia, ciascuno con sens = 0.80 (indipendenti dato stato). \(P(\text{Ansia}) = 0.20\). Calcola \(P(\text{Ansia} \cap T_1^+ \cap T_2^+ \cap T_3^+)\).
Usa la regola del prodotto per dimostrare che se \(A\) e \(B\) sono indipendenti, allora \(A\) e \(B^c\) sono indipendenti.

4.7.7 Esercizi su probabilità totale

Una clinica riceve pazienti da due fonti:
- 60% da medico di base (prevalenza depressione = 10%)
- 40% da pronto soccorso (prevalenza depressione = 30%)
Qual è la prevalenza complessiva nella clinica?
Un questionario ha due versioni (A e B), distribuite casualmente (50% ciascuna). La versione A è più facile:
- \(P(\text{punteggio} > 20 \mid \text{Versione A}) = 0.7\)
- \(P(\text{punteggio} > 20 \mid \text{Versione B}) = 0.4\)
Qual è \(P(\text{punteggio} > 20)\) complessivamente?
Dimostra che \(P(A) = P(A \mid B) P(B) + P(A \mid B^c) P(B^c)\) usando la legge della probabilità totale con partizione \(\{B, B^c\}\).

4.7.8 Esercizi su Paradosso di Simpson

Considera questi dati su un farmaco antidepressivo:

Pazienti giovani (N=200):
- Farmaco: 70/100 migliorati (70%)
- Placebo: 50/100 migliorati (50%)
Pazienti anziani (N=200):
- Farmaco: 60/100 migliorati (60%)
- Placebo: 40/100 migliorati (40%)
1. In ciascun gruppo, il farmaco è migliore?
2. Calcola le proporzioni aggregate (tutti i pazienti insieme)
3. Costruisci uno scenario dove l’aggregato inverte la tendenza
Spiega in termini epistemici perché il paradosso di Simpson non è veramente un “paradosso” ma un avvertimento sull’importanza di condizionare correttamente.

4.7.9 Esercizi applicati (psicologia)

Test per disturbo d’ansia sociale:
- Prevalenza in popolazione universitaria: 5%
- Sensibilità: 85%
- Specificità: 92%
1. Costruisci tabella congiunta completa
2. Uno studente risulta positivo. Qual è la probabilità che abbia davvero il disturbo?
3. Quale prevalenza minima serve per avere VPP > 0.5?
Comorbidità PTSD e Depressione:
- In un campione clinico: \(P(\text{PTSD}) = 0.30\), \(P(\text{Depressione}) = 0.45\)
- Osservi che \(P(\text{Depressione} \mid \text{PTSD}) = 0.70\)
1. Calcola \(P(\text{PTSD} \cap \text{Depressione})\)
2. Calcola \(P(\text{PTSD} \mid \text{Depressione})\)
3. Sono indipendenti? Commenta il risultato clinicamente
Due test per ADHD in un bambino:
- Prior: \(P(\text{ADHD}) = 0.08\) (popolazione generale)
- Test comportamentale: positivo (sens=0.80, spec=0.90)
- Test cognitivo: positivo (sens=0.75, spec=0.85)
- Assumendo indipendenza condizionale:
1. Calcola \(P(\text{ADHD} \mid T_1^+)\) dopo primo test
2. Calcola \(P(\text{ADHD} \mid T_1^+, T_2^+)\) dopo entrambi i test
3. Visualizza l’aggiornamento sequenziale delle credenze

4.7.10 Esercizi computazionali

Scrivi una funzione R che:
- Input: tabella congiunta 2×2
- Output: tutte le probabilità condizionate possibili e test di indipendenza
Simula il paradosso di Simpson:
- Genera dati per due gruppi con trend positivo in ciascuno
- Aggrega i dati mostrando inversione del trend
- Visualizza con ggplot
Crea una visualizzazione interattiva (o animazione) che mostra come \(P(A \mid B)\) varia al variare della “forza” dell’associazione tra \(A\) e \(B\) (da indipendenza a dipendenza totale).

Soluzioni selezionate

4.7.11 Soluzioni esercizi concettuali

Da prospettiva bayesiana, ogni probabilità riflette uno stato di informazione. Scrivere \(P(A)\) è abbreviazione per \(P(A \mid \mathcal{I})\) dove \(\mathcal{I}\) è “tutto ciò che sappiamo”. Non esistono probabilità “incondizionate”—solo probabilità condizionate allo sfondo informativo corrente.
Non è circolare perché concettualmente partiamo dalla tabella congiunta \(P(A \cap B)\) (rappresentazione completa del nostro stato di credenza), poi deriviamo le condizionate come rapporti. La formula ci dice come calcolare condizionate da congiunte, non come definire le congiunte.
No (a meno che uno abbia probabilità zero). Eventi disgiunti hanno informazione reciproca massima: sapere che uno è vero implica certezza che l’altro è falso. Indipendenza richiede assenza di informazione.
Sì, è simmetrico: \(P(A \cap B) = P(A \mid B) P(B) = P(B \mid A) P(A)\). Questa simmetria è il cuore del teorema di Bayes! Mostra che la congiunta può essere costruita in due modi equivalenti.
No, l’aggregazione è legittima quando non c’è confondente rilevante, o quando la confondente è distribuita uniformemente. Il paradosso avverte: esplicita le tue assunzioni di omogeneità prima di aggregare.

4.7.12 Soluzioni probabilità condizionata

1. \(P(A \mid B) = 0.20 / (0.20 + 0.15) = 0.571\)
2. \(P(B \mid A) = 0.20 / (0.20 + 0.30) = 0.400\)
3. \(P(A \mid B^c) = 0.30 / (0.30 + 0.35) = 0.462\)
4. Test: \(P(A) = 0.50\), \(P(B) = 0.35\), \(P(A) P(B) = 0.175 \neq P(A \cap B) = 0.20\). NON indipendenti.
1. \(P(A \cap B) = P(A \mid B) P(B) = 0.7 \times 0.5 = 0.35\)
2. \(P(B \mid A) = P(A \cap B) / P(A) = 0.35 / 0.6 \approx 0.583\)
3. \(P(A \cup B) = 0.6 + 0.5 - 0.35 = 0.75\)
1. Tabella: \(P(M \cap T^+) = 0.0095\), \(P(M \cap T^-) = 0.0005\), etc.
2. VPP = \(0.0095 / (0.0095 + 0.0198) \approx 0.324\); VPN \(\approx 0.9995\)
3. Per VPP > 0.9: serve sens \(\approx 0.998\) (quasi perfetta con prevalenza così bassa!)

4.7.13 Soluzioni indipendenza

1. \(P(A) = 1/2\), \(P(B) = 1/2\), \(P(A \cap B) = P(\{2\}) = 1/6\) \(P(A) P(B) = 1/4 \neq 1/6\). NON indipendenti.
2. \(P(A \mid B) = (1/6) / (1/2) = 1/3 \neq 1/2 = P(A)\)
Spazio: {TT, TC, CT, CC}, equiprobabili.
1. Tabella con \(A\) = {TT, TC}, \(B\) = {TT, TC, CT}
2. \(P(A \mid B) = P(\{TT, TC\}) / P(B) = (1/2) / (3/4) = 2/3\)
3. \(P(A) = 1/2 \neq 2/3 = P(A \mid B)\). NON indipendenti.
Se indipendenti: \(P(D \cap I) = 0.15 \times 0.25 = 0.0375\). Ma clinicamente sappiamo che depressione e insonnia sono altamente correlate, quindi l’indipendenza è implausibile.

4.7.14 Soluzioni teorema del prodotto

\(P(A \cap B \cap C) = P(C \mid A \cap B) \cdot P(B \mid A) \cdot P(A) = 0.7 \times 0.6 \times 0.5 = 0.21\)
\(P(\text{Ansia} \cap \text{tutti +}) = 0.80^3 \times 0.20 = 0.512 \times 0.20 = 0.1024\)
Dimostrazione: P(A ∩ B^c) = P(A) - P(A ∩ B) [additività] = P(A) - P(A)P(B) [indipendenza A,B] = P(A)(1 - P(B)) = P(A)P(B^c) [quindi A ⊥ B^c]

4.7.15 Soluzioni probabilità totale

\(P(D) = 0.10 \times 0.60 + 0.30 \times 0.40 = 0.06 + 0.12 = 0.18\) (18%)
\(P(>20) = 0.7 \times 0.5 + 0.4 \times 0.5 = 0.35 + 0.20 = 0.55\)
Partizione: \(B\) e \(B^c\) coprono \(\Omega\) e sono disgiunti. \(P(A) = P(A \cap \Omega) = P(A \cap (B \cup B^c)) = P((A \cap B) \cup (A \cap B^c))\) \(= P(A \cap B) + P(A \cap B^c)\) [disgiunzione] \(= P(A \mid B) P(B) + P(A \mid B^c) P(B^c)\) [def. condizionata]

4.7.16 Soluzioni applicazioni psicologiche

1. \(P(A \cap T^+) = 0.85 \times 0.05 = 0.0425\), etc.
2. VPP = \(0.0425 / (0.0425 + 0.076) = 0.359\) (solo 36%!)
3. Per VPP > 0.5, serve prev \(\geq 0.10\) (10%)
1. \(P(P \cap D) = P(D \mid P) \times P(P) = 0.70 \times 0.30 = 0.21\)
2. \(P(P \mid D) = 0.21 / 0.45 \approx 0.467\)
3. Se indipendenti: \(P(P) P(D) = 0.30 \times 0.45 = 0.135 \neq 0.21\). DIPENDENTI (comorbidità alta, clinicamente attesa)
Soluzione completa richiede costruzione sequenziale. Sketch:
- Dopo \(T_1^+\): \(P(\text{ADHD} \mid T_1^+) \approx 0.38\)
- Dopo \(T_1^+, T_2^+\): \(P(\text{ADHD} \mid \text{entrambi}) \approx 0.69\)
- Visualizzazione: barplot con credenze 0.08 → 0.38 → 0.69