29  Probabilità condizionata

In questo capitolo imparerai a:
  • comprendere e applicare i concetti di probabilità congiunta, marginale e condizionata;
  • approfondire la comprensione e l’applicazione dei principi di indipendenza e probabilità condizionata;
  • analizzare e interpretare il paradosso di Simpson;
  • applicare il teorema del prodotto e della probabilità totale.
Prerequisiti
Preparazione del Notebook
here::here("code", "_common.R") |> 
  source()

29.1 Introduzione

La probabilità condizionata esprime la probabilità di un evento tenendo conto del verificarsi di un altro evento. Questo concetto è fondamentale perché riflette il modo in cui aggiorniamo le nostre credenze alla luce di nuove informazioni. Ad esempio, la probabilità che piova domani può essere diversa a seconda delle condizioni atmosferiche di oggi: osservare un cielo nuvoloso modifica la nostra valutazione della probabilità di pioggia. In questo senso, ogni nuova informazione può confermare, rafforzare o mettere in discussione le credenze preesistenti.

La probabilità condizionata ha un ruolo centrale non solo nella teoria della probabilità, ma anche nelle applicazioni quotidiane e scientifiche. In molti contesti, le probabilità sono implicitamente condizionate da informazioni preesistenti, anche quando non lo esplicitiamo formalmente. Comprendere e quantificare questo processo di aggiornamento delle credenze ci consente di gestire in modo più efficace l’incertezza, rendendo la probabilità uno strumento dinamico per la decisione e l’inferenza.

29.2 Indipendenza Stocastica

Un caso particolare di aggiornamento delle probabilità si verifica quando due eventi sono indipendenti, ovvero quando il verificarsi di un evento non influisce sulla probabilità dell’altro. L’indipendenza semplifica notevolmente i calcoli relativi alla probabilità congiunta di più eventi.

29.2.1 Indipendenza di Due Eventi

Due eventi, \(A\) e \(B\), sono considerati indipendenti se la probabilità che entrambi si verifichino è uguale al prodotto delle loro probabilità individuali:

\[ P(A \cap B) = P(A) P(B). \tag{29.1}\]

Questa relazione implica che la conoscenza dell’occorrere di uno degli eventi non modifica la probabilità dell’altro. Quando questa condizione è soddisfatta, si scrive \(A \perp B\), indicando l’indipendenza tra i due eventi.

Esempio 29.1 Supponiamo di lanciare due monete distinte e di considerare i seguenti eventi:

  • \(A\) = “La prima moneta mostra Testa”
  • \(B\) = “La seconda moneta mostra Testa”

Poiché il risultato della prima moneta non influisce sul risultato della seconda, i due eventi sono indipendenti. La probabilità di ottenere Testa su una moneta è: \[ P(A) = P(B) = \frac{1}{2} \] La probabilità che entrambe le monete mostrino Testa (ossia che si verifichino entrambi gli eventi \(A\) e \(B\)) è: \[ P(A \cap B) = P(A) P(B) = \frac{1}{2} \times \frac{1}{2} = \frac{1}{4} \] Poiché questa relazione è verificata, possiamo concludere che gli eventi A e B sono indipendenti.

29.2.2 Indipendenza di un Insieme di Eventi

Il concetto di indipendenza può essere esteso a più eventi. Un insieme di eventi \(\{ A_i : i \in I \}\) è indipendente se per ogni sottoinsieme finito \(J \subseteq I\) la probabilità dell’intersezione di questi eventi è uguale al prodotto delle loro probabilità individuali:

\[ P \left( \bigcap_{i \in J} A_i \right) = \prod_{i \in J} P(A_i). \tag{29.2}\]

Ciò significa che ogni combinazione di eventi in \(J\) si comporta indipendentemente dalle altre. L’indipendenza può essere un’assunzione utile in alcuni modelli per semplificare i calcoli, oppure può emergere dai dati attraverso l’analisi empirica.

Esempio 29.2 Per chiarire il concetto di indipendenza di un insieme di eventi, consideriamo una sequenza di tre lanci di una moneta equilibrata e definiamo i seguenti eventi:

  • \(A_1\) = “Il primo lancio mostra Testa”
  • \(A_2\) = “Il secondo lancio mostra Testa”
  • \(A_3\) = “Il terzo lancio mostra Testa”

Poiché ogni lancio di moneta è indipendente dagli altri, la probabilità che un singolo lancio dia Testa è: \[ P(A_1) = P(A_2) = P(A_3) = \frac{1}{2} \]

L’indipendenza di questi eventi significa che la probabilità che si verifichino tutti insieme è data dal prodotto delle loro probabilità individuali: \[ P(A_1 \cap A_2 \cap A_3) = P(A_1) P(A_2) P(A_3) = \frac{1}{2} \times \frac{1}{2} \times \frac{1}{2} = \frac{1}{8} \]

In modo analogo, possiamo calcolare la probabilità che qualunque combinazione di Testa e Croce si verifichi in tre lanci. Ad esempio, la probabilità di ottenere Testa al primo e al terzo lancio, ma Croce al secondo, è: \[ P(A_1 \cap \neg A_2 \cap A_3) = P(A_1) P(\neg A_2) P(A_3) = \frac{1}{2} \times \frac{1}{2} \times \frac{1}{2} = \frac{1}{8} \]

Poiché questa regola vale per qualsiasi combinazione di eventi nei tre lanci, possiamo dire che l’insieme \(\{ A_1, A_2, A_3 \}\) è indipendente: la probabilità dell’intersezione di qualsiasi sottoinsieme di eventi è sempre uguale al prodotto delle probabilità individuali.

Questo esempio mostra come l’indipendenza in una sequenza di lanci di moneta implichi che il risultato di un lancio non fornisce alcuna informazione sui risultati degli altri lanci.

29.2.3 Differenza tra Indipendenza ed Eventi Disgiunti

Un errore comune è confondere l’indipendenza con la disgiunzione degli eventi. Due eventi sono disgiunti (o mutuamente esclusivi) se non possono verificarsi contemporaneamente, ovvero:

\[P(A \cap B) = 0.\]

Se due eventi disgiunti hanno probabilità positiva, allora non possono essere indipendenti. Infatti, se \(P(A) > 0\) e \(P(B) > 0\), la condizione di indipendenza richiederebbe che \(P(A \cap B) = P(A) P(B)\), ma poiché \(P(A \cap B) = 0\), ciò non può essere vero. Dunque, eventi mutuamente esclusivi e indipendenti rappresentano due concetti distinti: la disgiunzione implica che uno esclude l’altro, mentre l’indipendenza indica che il verificarsi di un evento non fornisce informazioni sull’altro.

Esempio 29.3 Consideriamo un semplice esempio basato sul lancio di un dado a sei facce.

Definiamo i seguenti eventi:

  • \(C\) = “Esce un numero pari” → \(\{2, 4, 6\}\)
  • \(D\) = “Esce un numero dispari” → \(\{1, 3, 5\}\)

Poiché un numero non può essere contemporaneamente pari e dispari, i due eventi non possono verificarsi insieme. Questo significa che la loro intersezione è vuota:
\[ P(C \cap D) = 0 \]
e, per definizione, \(C\) e \(D\) sono eventi disgiunti.

Tuttavia, gli eventi C e D non sono indipendenti, poiché l’indipendenza richiederebbe che:
\[ P(C \cap D) = P(C) P(D) \]
ma in questo caso abbiamo:
\[ 0 \neq \frac{1}{2} \times \frac{1}{2} \]
Dunque, la disgiunzione e l’indipendenza sono concetti distinti: eventi disgiunti non possono mai essere indipendenti se entrambi hanno probabilità positiva.

29.3 Probabilità Condizionata

La probabilità condizionata esprime la probabilità di un evento \(A\) assumendo che un altro evento \(B\) sia già avvenuto. Si definisce come:

\[ P(A \mid B) = \frac{P(A \cap B)}{P(B)}, \quad \text{con } P(B) > 0. \tag{29.3}\]

Questa formula si ottiene ricalibrando lo spazio delle possibilità: invece di considerare l’intero spazio campionario, ci si limita al sottoinsieme in cui \(B\) si è verificato.

29.3.1 Interpretazione della Probabilità Condizionata

La probabilità condizionata può essere vista come un meccanismo di aggiornamento delle credenze. Se inizialmente si conosce solo \(P(A)\), l’informazione aggiuntiva su \(B\) può modificare questa stima. Ad esempio, se si sa che una persona ha la febbre (\(B\)), la probabilità che abbia l’influenza (\(A\)) può aumentare rispetto alla probabilità iniziale \(P(A)\).

Questa proprietà rende la probabilità condizionata un concetto centrale nelle inferenze statistiche, nella teoria dell’apprendimento e nella modellizzazione delle dipendenze tra eventi.

Esempio 29.4 Lanciamo due dadi equilibrati consecutivamente.
Dato che la somma dei dadi è 10, qual è la probabilità che uno dei due dadi mostri un 6?

Definiamo:

  • B come l’evento che la somma sia 10:
    \[ B = \{(4, 6), (5, 5), (6, 4)\}. \]
  • A come l’evento che uno dei due dadi mostri un 6:
    \[ A = \{(1, 6), \dots, (5, 6), (6, 1), \dots, (6, 5)\}. \]

L’intersezione tra A e B è:
\[ A \cap B = \{(4, 6), (6, 4)\}. \]

Poiché in questo esperimento tutti gli eventi elementari sono equiprobabili, la probabilità condizionata \(P(A | B)\) è data da:
\[ P(A | B) = \frac{P(A \cap B)}{P(B)} = \frac{\frac{2}{36}}{\frac{3}{36}} = \frac{2}{3}. \]

Quindi, la probabilità che uno dei due dadi mostri un 6, sapendo che la somma è 10, è \(\frac{2}{3}\).

Esempio 29.5 Lanciamo due dadi equilibrati e vogliamo calcolare la probabilità che la somma dei punteggi ottenuti sia minore di 8.

Inizialmente, quando non abbiamo ulteriori informazioni, possiamo calcolare la probabilità in modo tradizionale. Ci sono 21 risultati possibili con somma minore di 8. Poiché ci sono 36 possibili combinazioni di lancio dei due dadi, la probabilità di ottenere una somma minore di 8 è 21/36, che equivale a circa 0.58.

Supponiamo ora di sapere che la somma del lancio di due dadi ha prodotto un risultato dispari. In questo caso, ci sono solo 18 possibili combinazioni di lancio dei due dadi (dato che abbiamo escluso i risultati pari). Tra essi, vi sono 12 risultati che soddisfano la condizione per cui la somma è minore di 8. Quindi, la probabilità di ottenere una somma minore di 8 cambia da circa 0.58 a 12/18, ovvero 0.67 quando consideriamo l’informazione aggiuntiva del risultato dispari.

Svolgiamo il problema in R:

r <- 1:6
sample <- expand.grid(i = r, j = r)
sample
#>    i j
#> 1  1 1
#> 2  2 1
#> 3  3 1
#> 4  4 1
#> 5  5 1
#> 6  6 1
#> 7  1 2
#> 8  2 2
#> 9  3 2
#> 10 4 2
#> 11 5 2
#> 12 6 2
#> 13 1 3
#> 14 2 3
#> 15 3 3
#> 16 4 3
#> 17 5 3
#> 18 6 3
#> 19 1 4
#> 20 2 4
#> 21 3 4
#> 22 4 4
#> 23 5 4
#> 24 6 4
#> 25 1 5
#> 26 2 5
#> 27 3 5
#> 28 4 5
#> 29 5 5
#> 30 6 5
#> 31 1 6
#> 32 2 6
#> 33 3 6
#> 34 4 6
#> 35 5 6
#> 36 6 6
event <- subset(sample, i + j < 8)
cat(nrow(event), "/", nrow(sample), "\n")
#> 21 / 36
sample_odd <- subset(sample, (i + j) %% 2 != 0)
sample_odd
#>    i j
#> 2  2 1
#> 4  4 1
#> 6  6 1
#> 7  1 2
#> 9  3 2
#> 11 5 2
#> 14 2 3
#> 16 4 3
#> 18 6 3
#> 19 1 4
#> 21 3 4
#> 23 5 4
#> 26 2 5
#> 28 4 5
#> 30 6 5
#> 31 1 6
#> 33 3 6
#> 35 5 6
event <- subset(sample_odd, i + j < 8)
cat(nrow(event), "/", nrow(sample_odd), "\n")
#> 12 / 18

Se applichiamo l’Equazione 29.3, abbiamo: \(P(A \cap B)\) = 12/36, \(P(B)\) = 18/36 e

\[ P(A \mid B) = \frac{12}{18}. \]

Questo esempio illustra come la probabilità di un evento possa variare in base alle informazioni aggiuntive di cui disponiamo. Nel secondo caso, avendo l’informazione che la somma è dispari, la probabilità di ottenere una somma minore di 8 aumenta notevolmente rispetto al caso iniziale in cui non avevamo questa informazione.

Consideriamo uno screening per la diagnosi precoce del tumore mammario utilizzando un test con determinate caratteristiche:

  • Sensibilità del test: 90%. Questo significa che il test classifica correttamente come positivo il 90% delle donne colpite dal cancro al seno.
  • Specificità del test: 90%. Ciò indica che il test classifica correttamente come negativo il 90% delle donne che non hanno il cancro al seno.
  • Prevalenza del cancro al seno nella popolazione sottoposta allo screening: 1% (0.01). Questo è il 1% delle donne che ha effettivamente il cancro al seno, mentre il restante 99% (0.99) non ne è affetto.

Ora cerchiamo di rispondere alle seguenti domande:

  • Qual è la probabilità che una donna scelta a caso ottenga una mammografia positiva? Poiché il 1% delle donne ha il cancro al seno, la probabilità di ottenere una mammografia positiva (test positivo) è pari alla sensibilità del test, ovvero 0.90 (cioè 90%).

  • Se la mammografia è positiva, qual è la probabilità che vi sia effettivamente un tumore al seno?

Per risolvere questo problema, consideriamo un campione di 1000 donne sottoposte al test di screening per il tumore al seno. Di queste 1000 donne:

  • 10 donne (1% del campione) hanno effettivamente il cancro al seno. Per queste 10 donne con il cancro, il test darà un risultato positivo (vera positività) in 9 casi (90%).
  • Per le restanti 990 donne (99% del campione) che non hanno il cancro al seno, il test darà un risultato positivo (falsa positività) in 99 casi (10%).

Questa situazione può essere rappresentata graficamente nel seguente modo:

Figura 29.1: Esiti della mammografia per 1000 donne.

Combinando i due risultati precedenti, vediamo che il test dà un risultato positivo per 9 donne che hanno effettivamente il cancro al seno e per 99 donne che non lo hanno, per un totale di 108 risultati positivi su 1000. Pertanto, la probabilità di ottenere un risultato positivo al test è \(\frac{108}{1000}\) = 0.108.

Tuttavia, tra le 108 donne che hanno ottenuto un risultato positivo al test, solo 9 hanno effettivamente il cancro al seno. Quindi, la probabilità di avere il cancro al seno, dato un risultato positivo al test, è pari a \(\frac{9}{108}\) = 0.083, corrispondente all’8.3%.

In questo esempio, la probabilità dell’evento “ottenere un risultato positivo al test” è una probabilità non condizionata, poiché calcoliamo semplicemente la proporzione di risultati positivi nel campione totale. D’altra parte, la probabilità dell’evento “avere il cancro al seno, dato che il test ha prodotto un risultato positivo” è una probabilità condizionata, poiché calcoliamo la proporzione delle donne con il cancro al seno tra quelle che hanno ottenuto un risultato positivo al test.

Questo esempio illustra come la conoscenza di ulteriori informazioni (il risultato positivo al test) può influenzare la probabilità di un evento (avere il cancro al seno), mostrando chiaramente la differenza tra probabilità condizionate e non condizionate.

Il problema di Monty Hall è un famoso quesito di teoria della probabilità che illustra in modo efficace il concetto di probabilità condizionata. Questo problema è diventato celebre grazie a una rubrica tenuta da Marilyn vos Savant nella rivista Parade, in cui rispose a una lettera pubblicata il 9 settembre 1990:

“Supponiamo di partecipare a un quiz televisivo e di dover scegliere tra tre porte. Dietro una di esse c’è un’auto, mentre dietro le altre due ci sono delle capre. Scegli una porta, ad esempio la numero 1, e il conduttore, che sa cosa c’è dietro ogni porta, ne apre un’altra, diciamo la numero 3, rivelando una capra. A questo punto, ti chiede se vuoi cambiare la tua scelta e passare alla porta numero 2. È vantaggioso cambiare porta?” Craig. F. Whitaker, Columbia, MD

La situazione descritta ricorda quella del popolare quiz televisivo degli anni ’70 Let’s Make a Deal, condotto da Monty Hall e Carol Merrill. Marilyn vos Savant rispose che il concorrente dovrebbe cambiare porta, poiché la probabilità di vincere l’auto raddoppia passando da 1/3 a 2/3. Tuttavia, la sua risposta suscitò un acceso dibattito, con molte persone, inclusi alcuni matematici, che sostenevano che cambiare porta non avrebbe offerto alcun vantaggio. Questo episodio ha reso il problema di Monty Hall uno dei più famosi esempi di come l’intuizione possa portare a conclusioni errate in ambito probabilistico.

Chiarire il Problema.

La lettera originale di Craig Whitaker è piuttosto vaga, quindi per analizzare il problema in modo rigoroso è necessario fare alcune ipotesi:

  1. Posizione dell’auto: L’auto è nascosta in modo casuale ed equiprobabile dietro una delle tre porte.
  2. Scelta iniziale del giocatore: Il giocatore sceglie una porta in modo casuale, indipendentemente dalla posizione dell’auto.
  3. Azione del conduttore: Dopo la scelta del giocatore, il conduttore apre una delle due porte rimanenti, rivelando una capra, e offre al giocatore la possibilità di cambiare porta.
  4. Scelta del conduttore: Se il conduttore ha la possibilità di scegliere tra due porte (entrambe con capre), ne apre una in modo casuale.

Con queste assunzioni, possiamo rispondere alla domanda: Qual è la probabilità che il giocatore vinca l’auto se decide di cambiare porta?

Di seguito, esploreremo tre metodi per risolvere il problema di Monty Hall: il diagramma ad albero, l’analisi delle probabilità e una simulazione.

Metodo 1: diagramma ad albero.

Il diagramma ad albero è uno strumento utile per visualizzare tutti i possibili esiti di un esperimento probabilistico. Nel caso del problema di Monty Hall, possiamo suddividere il processo in tre fasi:

  1. Posizione dell’auto: L’auto può trovarsi dietro una delle tre porte (A, B o C), ciascuna con probabilità 1/3.
  2. Scelta del giocatore: Il giocatore sceglie una porta in modo casuale, indipendentemente dalla posizione dell’auto.
  3. Azione del conduttore: Il conduttore apre una delle due porte rimanenti, rivelando una capra.

Il diagramma ad albero mostra tutte le possibili combinazioni di questi eventi. Ad esempio, se l’auto è dietro la porta A e il giocatore sceglie la porta B, il conduttore aprirà la porta C (l’unica porta rimanente con una capra).

Passo 1: Identificare lo spazio campionario
Lo spazio campionario è composto da 12 esiti possibili, rappresentati dalle combinazioni di:

  • Posizione dell’auto (A, B, C).
  • Scelta iniziale del giocatore (A, B, C).
  • Porta aperta dal conduttore (una delle due rimanenti con una capra).

Ecco un diagramma ad albero che rappresenta questa situazione:

Figura 29.2: Il diagramma ad albero per il Problema di Monty Hall mostra le probabilità associate a ogni possibile esito. I pesi sugli archi rappresentano la probabilità di seguire quel particolare percorso, dato che ci troviamo nel nodo padre. Ad esempio, se l’auto si trova dietro la porta A, la probabilità che il giocatore scelga inizialmente la porta B è pari a 1/3. La colonna più a destra del diagramma mostra la probabilità di ciascun esito finale. Ogni probabilità di esito è calcolata moltiplicando le probabilità lungo il percorso che parte dalla radice (auto dietro una certa porta) e termina alla foglia (esito finale) (Figura tratta da Lehman, Leighton e Meyer, 2018).

Passo 2: Definire l’evento di interesse
L’evento di interesse è “il giocatore vince cambiando porta”. Questo si verifica quando la porta inizialmente scelta dal giocatore non nasconde l’auto, e il giocatore decide di cambiare porta.

Gli esiti che soddisfano questa condizione sono:

  • (Auto A, Scelta B, Apertura C)
  • (Auto A, Scelta C, Apertura B)
  • (Auto B, Scelta A, Apertura C)
  • (Auto B, Scelta C, Apertura A)
  • (Auto C, Scelta A, Apertura B)
  • (Auto C, Scelta B, Apertura A)

Questi esiti sono in totale 6.

Passo 3: Calcolare le probabilità degli esiti
Ogni esito ha una probabilità specifica, calcolata moltiplicando le probabilità lungo il percorso nel diagramma ad albero.

Esempio di calcolo per l’esito (Auto A, Scelta B, Apertura C):

  • La probabilità che l’auto sia dietro la porta A è \(\frac{1}{3}\).
  • La probabilità che il giocatore scelga la porta B è \(\frac{1}{3}\).
  • La probabilità che il conduttore apra la porta C (che contiene una capra) è \(1\) (poiché il conduttore deve aprire una porta con una capra, e la porta C è l’unica possibile).

La probabilità totale per questo esito è:

\[ P(\text{Auto A, Scelta B, Apertura C}) = \frac{1}{3} \times \frac{1}{3} \times 1 = \frac{1}{9}. \]

Procedendo in modo simile per tutti gli altri esiti, otteniamo le probabilità per tutti i 12 esiti.

Passo 4: Calcolare la probabilità dell’evento
La probabilità di vincere cambiando porta è la somma delle probabilità degli esiti favorevoli.

\[ \begin{aligned} P&(\text{vincere cambiando porta}) = \notag \\ &\quad P(\text{Auto A, Scelta B, Apertura C}) + P(\text{Auto A, Scelta C, Apertura B}) + \notag\\ &\quad P(\text{Auto B, Scelta A, Apertura C}) + \dots \notag \end{aligned} \]

\[ = \frac{1}{9} + \frac{1}{9} + \frac{1}{9} + \frac{1}{9} + \frac{1}{9} + \frac{1}{9} = \frac{6}{9} = \frac{2}{3}. \]

La probabilità di vincere mantenendo la scelta originale è il complemento:

\[ P(\text{vincere mantenendo la scelta}) = 1 - P(\text{vincere cambiando porta}) = 1 - \frac{2}{3} = \frac{1}{3}. \]

La conclusione è che il giocatore ha una probabilità di vincere pari a \(\frac{2}{3}\) se cambia porta, contro una probabilità di \(\frac{1}{3}\) se mantiene la sua scelta iniziale. Cambiare porta è quindi la strategia vincente.

Metodo 2: analisi delle probabilità.

Il problema di Monty Hall può essere chiarito analizzando i tre scenari possibili, immaginando di essere osservatori esterni che sanno cosa si nasconde dietro ogni porta:

  1. Primo scenario:

    • Il giocatore sceglie inizialmente la porta con una capra (chiamiamola “capra 1”).
    • Il conduttore apre l’altra porta con la “capra 2”.
    • Se il giocatore cambia porta, vince l’automobile.
  2. Secondo scenario:

    • Il giocatore sceglie inizialmente la porta con l’altra capra (“capra 2”).
    • Il conduttore apre la porta con la “capra 1”.
    • Se il giocatore cambia porta, vince l’automobile.
  3. Terzo scenario:

    • Il giocatore sceglie inizialmente la porta con l’automobile.
    • Il conduttore apre una delle due porte con una capra (non importa quale).
    • Se il giocatore cambia porta, perde l’automobile.

All’inizio del gioco, il giocatore ha:

  • 1/3 di probabilità di scegliere l’automobile.
  • 2/3 di probabilità di scegliere una capra.

Dopo la scelta iniziale, il conduttore apre una porta con una capra, ma questa azione non altera le probabilità iniziali. Il giocatore si trova quindi con due porte chiuse: quella scelta inizialmente e una rimanente.

  • Se il giocatore ha scelto l’automobile inizialmente (1/3 di probabilità), cambiando porta perde.
  • Se il giocatore ha scelto una capra inizialmente (2/3 di probabilità), cambiando porta vince l’automobile.

In sintesi, cambiando porta, il giocatore ha 2/3 di probabilità di vincere l’automobile, mentre mantenendo la scelta iniziale ha solo 1/3 di probabilità. Pertanto, la strategia migliore è cambiare porta per massimizzare le possibilità di vittoria.

Metodo 3: simulazione.

Per confermare il risultato, possiamo eseguire una simulazione. Ripetendo il gioco migliaia di volte, possiamo confrontare la frequenza con cui il giocatore vince cambiando porta rispetto a quando mantiene la scelta iniziale.

Ecco un esempio di codice in R per la simulazione:

B <- 10000
monty_hall <- function(strategy){
  doors <- as.character(1:3)
  prize <- sample(c("car", "goat", "goat"))
  prize_door <- doors[prize == "car"]
  my_pick  <- sample(doors, 1)
  show <- sample(doors[!doors %in% c(my_pick, prize_door)],1)
  stick <- my_pick
  stick == prize_door
  switch <- doors[!doors %in% c(my_pick, show)]
  choice <- ifelse(strategy == "stick", stick, switch)
  choice == prize_door
}
stick <- replicate(B, monty_hall("stick"))
mean(stick)
#> [1] 0.3278
switch <- replicate(B, monty_hall("switch"))
mean(switch)
#> [1] 0.6678

Spiegazione del codice.

  1. Funzione monty_hall:

    • doors <- as.character(1:3): Definisce le tre porte.
    • prize <- sample(c("car", "goat", "goat")): Assegna casualmente l’auto e le capre alle porte.
    • prize_door <- doors[prize == "car"]: Identifica la porta con l’auto.
    • my_pick <- sample(doors, 1): Il giocatore sceglie una porta a caso.
    • show <- sample(doors[!doors %in% c(my_pick, prize_door)],1): Il conduttore apre una porta con una capra.
    • stick <- my_pick: Mantiene la scelta iniziale.
    • switch <- doors[!doors %in% c(my_pick, show)]: Cambia porta.
    • choice <- ifelse(strategy == "stick", stick, switch): Decide se mantenere o cambiare porta in base alla strategia.
    • choice == prize_door: Verifica se la scelta finale è la porta con l’auto.
  2. Simulazione per Mantenere la Scelta Iniziale:

    • stick <- replicate(B, monty_hall("stick")): Ripete il gioco 10.000 volte mantenendo la scelta iniziale.
    • mean(stick): Calcola la frequenza di vittoria.
  3. Simulazione per Cambiare Porta:

    • switch <- replicate(B, monty_hall("switch")): Ripete il gioco 10.000 volte cambiando porta.
    • mean(switch): Calcola la frequenza di vittoria.

Risultati attesi:

  • Mantenere la Scelta Iniziale: La frequenza di vittoria dovrebbe essere circa 1/3 (33.3%).
  • Cambiare Porta: La frequenza di vittoria dovrebbe essere circa 2/3 (66.6%).

La simulazione conferma che cambiare porta aumenta la probabilità di vincere da 1/3 a 2/3, dimostrando che la strategia ottimale nel problema di Monty Hall è quella di cambiare porta dopo che il conduttore ha rivelato una capra.

In sintesi, il problema di Monty Hall mette in luce come l’intuizione possa trarci in inganno quando ci confrontiamo con scenari probabilistici. Attraverso l’uso del diagramma ad albero, un’analisi delle probabilità e l’esecuzione di simulazioni, abbiamo dimostrato che cambiare porta raddoppia le possibilità di vincita, facendole passare da 1/3 a 2/3. Questo risultato, in apparente contrasto con ciò che potrebbe sembrare intuitivo, costituisce un esempio emblematico dell’importanza di adottare un approccio formale nella valutazione delle probabilità, anziché affidarsi esclusivamente a impressioni iniziali che spesso si rivelano fuorvianti.

Nel contesto della probabilità condizionata, un fenomeno particolarmente interessante e, al tempo stesso, controintuitivo è il paradosso di Simpson. Questo paradosso si verifica quando una tendenza osservata in diversi gruppi di dati separati scompare o addirittura si inverte una volta che i gruppi vengono combinati.

Il paradosso di Simpson evidenzia l’importanza di considerare le variabili confondenti e di analizzare i dati con grande attenzione per evitare di trarre conclusioni errate o fuorvianti. È un esempio emblematico di come l’interpretazione dei dati statistici richieda non solo strumenti matematici, ma anche una profonda comprensione del contesto e delle relazioni tra le variabili coinvolte.

Un caso storico di paradosso di Simpson riguarda l’applicazione della pena di morte negli Stati Uniti (Radelet & Pierce, 1991). Questo studio analizza 674 processi per omicidio in Florida tra il 1976 e il 1987, esaminando l’influenza della razza dell’imputato e della vittima sulla probabilità di ricevere la pena di morte. I dati riportano il numero di condannati alla pena di morte in base alla razza dell’imputato e della vittima:

Razza dell’imputato Razza della vittima Pena di morte No pena di morte Tasso di condanna
Bianco Bianco 19 132 19 / 151 ≈ 12.6%
Bianco Nero 11 52 11 / 63 ≈ 17.5%
Nero Bianco 6 37 6 / 43 ≈ 14.0%
Nero Nero 1 9 1 / 10 = 10.0%

Se analizziamo i dati separatamente per la razza della vittima, emerge che la probabilità di ricevere la pena di morte è più alta per gli imputati bianchi rispetto agli imputati neri, sia nei casi in cui la vittima era bianca (12.6% vs 14.0%) sia nei casi in cui la vittima era nera (17.5% vs 10.0%).

Tuttavia, quando i dati vengono aggregati senza tenere conto della razza della vittima, si osserva una tendenza opposta:

Razza dell’imputato Pena di morte No pena di morte Tasso di condanna
Bianco 30 184 30 / 214 ≈ 14.0%
Nero 7 46 7 / 53 ≈ 13.2%

Aggregando i dati, sembra che gli imputati neri abbiano meno probabilità di ricevere la pena di morte rispetto agli imputati bianchi (13.2% vs 14.0%).

Questa apparente contraddizione è il risultato del paradosso di Simpson. La variabile confondente in questo caso è la razza della vittima: gli omicidi con vittime bianche avevano una probabilità molto più alta di portare alla pena di morte rispetto agli omicidi con vittime nere. Poiché gli imputati bianchi erano più spesso accusati di aver ucciso vittime bianche (per cui la probabilità di pena di morte era maggiore), il loro tasso di condanna complessivo risultava più alto. Viceversa, gli imputati neri erano più spesso accusati di aver ucciso vittime nere (per cui la probabilità di pena di morte era inferiore), abbassando il loro tasso di condanna complessivo.

Questo caso dimostra come l’aggregazione dei dati senza considerare una variabile confondente (in questo caso, la razza della vittima) possa portare a una conclusione errata e fuorviante. È essenziale analizzare i dati in modo stratificato per evitare interpretazioni distorte e per comprendere i reali meccanismi sottostanti un fenomeno.

29.4 Indipendenza e Probabilità Condizionata

L’indipendenza tra due eventi \(A\) e \(B\) può essere interpretata intuitivamente attraverso la probabilità condizionata. Due eventi sono indipendenti se il verificarsi di uno non influenza la probabilità di verificarsi dell’altro. In altre parole, conoscere che \(B\) è accaduto non modifica la probabilità di \(A\), e viceversa.

Questa relazione può essere formalizzata con le seguenti equazioni:

\[ P(A \mid B) = \frac{P(A \cap B)}{P(B)} = P(A), \]

\[ P(B \mid A) = \frac{P(A \cap B)}{P(A)} = P(B). \]

Pertanto, \(A\) e \(B\) sono indipendenti se e solo se:

\[ P(A \mid B) = P(A), \]

\[ P(B \mid A) = P(B). \]

Queste condizioni significano che la probabilità di \(A\) non cambia, indipendentemente dal fatto che \(B\) sia accaduto, e lo stesso vale per \(B\).

29.4.1 Indipendenza di Tre Eventi

La definizione di indipendenza si estende naturalmente a tre eventi \(A\), \(B\), e \(C\), ma con condizioni aggiuntive. Tre eventi sono indipendenti se:

  1. Ogni coppia di eventi è indipendente:

    \[ \begin{align} P(A \cap B) &= P(A) P(B), \\ P(A \cap C) &= P(A) P(C), \\ P(B \cap C) &= P(B) P(C). \end{align} \]

  2. La probabilità congiunta di tutti e tre gli eventi è uguale al prodotto delle loro probabilità individuali:

    \[ P(A \cap B \cap C) = P(A) P(B) P(C). \]

Le prime tre condizioni verificano l’indipendenza a coppie (indipendenza a due a due), mentre l’ultima condizione garantisce che i tre eventi siano completamente indipendenti. È importante notare che l’indipendenza a due a due non implica necessariamente l’indipendenza completa: per essere indipendenti nel senso completo, tutte e quattro le condizioni devono essere soddisfatte.

In sintesi, l’indipendenza tra eventi implica che il verificarsi di uno di essi non fornisce alcuna informazione sulla probabilità del verificarsi degli altri. Nel caso di due eventi, questa proprietà si traduce nell’invarianza della probabilità condizionata. Per tre o più eventi, l’indipendenza richiede sia l’indipendenza a coppie sia la condizione più forte sull’intersezione di tutti gli eventi.

Questi concetti sono fondamentali nella probabilità e nella statistica, poiché semplificano molti calcoli e forniscono una base per modelli più complessi.

Esempio 29.6 Consideriamo un esempio utilizzando un mazzo di 52 carte. Ogni seme contiene 13 carte e ci sono 4 regine in totale. Definiamo i seguenti eventi:

  • Evento A: pescare una carta di picche,
  • Evento B: pescare una regina.

Probabilità con un mazzo completo

In un mazzo completo, la probabilità di pescare una carta di picche (\(P(A)\)) è \(\frac{13}{52} = \frac{1}{4}\), poiché ci sono 13 picche su 52 carte totali. La probabilità di pescare una regina (\(P(B)\)) è \(\frac{4}{52} = \frac{1}{13}\), poiché ci sono 4 regine su 52 carte.

Ora consideriamo la probabilità congiunta di pescare la regina di picche (\(P(AB)\)). Poiché esiste solo una regina di picche nel mazzo, la probabilità di pescare questa specifica carta è \(\frac{1}{52}\).

Secondo la definizione di indipendenza, se gli eventi \(A\) e \(B\) sono indipendenti, allora:

\[ P(AB) = P(A)P(B) \]

Calcoliamo \(P(A)P(B)\):

\[ P(A)P(B) = \left( \frac{1}{4} \right) \left( \frac{1}{13} \right) = \frac{1}{52} \]

Poiché \(P(AB) = \frac{1}{52}\) è uguale a \(P(A)P(B)\), possiamo affermare che gli eventi \(A\) e \(B\) sono indipendenti con un mazzo completo di 52 carte.

Probabilità dopo la rimozione di una carta

Consideriamo ora un mazzo con una carta in meno, ad esempio il due di quadri, riducendo il numero totale di carte a 51. Ricalcoliamo le probabilità con questo mazzo ridotto:

La probabilità di pescare la regina di picche (\(P(AB)\)) è ora \(\frac{1}{51}\), poiché ci sono 51 carte nel mazzo.

Ricalcoliamo anche \(P(A)\) e \(P(B)\):

  • \(P(A)\) diventa \(\frac{13}{51}\), poiché ci sono ancora 13 picche, ma su 51 carte.
  • \(P(B)\) diventa \(\frac{4}{51}\), poiché ci sono ancora 4 regine, ma su 51 carte.

Ora calcoliamo il prodotto \(P(A)P(B)\) con queste nuove probabilità:

\[ P(A)P(B) = \left( \frac{13}{51} \right) \left( \frac{4}{51} \right) = \frac{52}{2601} \]

Confrontiamo \(P(AB)\) e \(P(A)P(B)\):

\[ \frac{1}{51} \neq \frac{52}{2601} \]

Poiché \(\frac{1}{51} \neq \frac{52}{2601}\), gli eventi \(A\) e \(B\) non sono più indipendenti dopo la rimozione del due di quadri.

Questo esempio mostra come l’indipendenza tra due eventi dipenda dal contesto. Con un mazzo completo, i due eventi sono indipendenti. Tuttavia, rimuovendo una carta dal mazzo, le probabilità cambiano e gli eventi non sono più indipendenti. Questo evidenzia l’importanza di considerare la composizione e le condizioni iniziali quando si analizzano probabilità e indipendenza. Modifiche nella composizione del mazzo possono alterare le probabilità, influenzando le relazioni di indipendenza tra eventi specifici.

29.5 Teorema del Prodotto

Dalla definizione di probabilità condizionata, deriva il Teorema del Prodotto (o teorema della probabilità composta, regola moltiplicativa, regola della catena). Questo teorema permette di calcolare la probabilità congiunta di due o più eventi come prodotto di probabilità condizionate.

29.5.1 Caso di due eventi

Per due eventi \(A\) e \(B\), il teorema si esprime come:

\[ P(A \cap B) = P(B) \cdot P(A \mid B) = P(A) \cdot P(B \mid A). \tag{29.4}\]

La formula indica che la probabilità che entrambi gli eventi si verifichino è pari:

  • Alla probabilità di \(B\) moltiplicata per la probabilità di \(A\) dato \(B\);
  • Oppure alla probabilità di \(A\) moltiplicata per la probabilità di \(B\) dato \(A\).

L’ordine degli eventi può essere scelto in base alla comodità di calcolo, purché si rispetti la condizionalità.

29.5.2 Generalizzazione a \(n\) eventi

Per \(n\) eventi \(A_1, A_2, \dots, A_n\), con \(P(A_1 \cap A_2 \cap \cdots \cap A_{n-1}) > 0\), la probabilità congiunta è:

\[ \begin{split} P(A_1 \cap A_2 \cap \cdots \cap A_n) &= P(A_1) \cdot P(A_2 \mid A_1) \cdot P(A_3 \mid A_1 \cap A_2) \cdots \\ &\quad \cdots \cdot P(A_n \mid A_1 \cap A_2 \cap \cdots \cap A_{n-1}). \end{split} \tag{29.5}\]

29.5.2.1 Procedura di calcolo

Per applicare la regola:

  1. Parti dal primo evento: usa la probabilità incondizionata \(P(A_1)\).
  2. Condiziona progressivamente: moltiplica per \(P(A_2 \mid A_1)\), poi per \(P(A_3 \mid A_1 \cap A_2)\), e così via.
  3. Termina con l’ultimo evento: includi \(P(A_n \mid A_1 \cap \cdots \cap A_{n-1})\).

29.5.3 Osservazioni

  • Ordine degli eventi: La regola può essere applicata in qualsiasi ordine, adattando le condizionate (es.: \(P(B) \cdot P(A \mid B) \cdot P(C \mid A \cap B)\)).
  • Applicazioni: Fondamentale in catene di Markov, reti Bayesiane e processi stocastici, dove le dipendenze tra eventi sono sequenziali.
  • Importanza della condizione: Le probabilità condizionate richiedono \(P(\text{eventi precedenti}) > 0\).

In sintesi, il teorema trasforma una probabilità congiunta complessa in un prodotto di termini più semplici, sfruttando le relazioni condizionali tra gli eventi.

Esempio 29.7 Esempio.
Consideriamo quattro eventi \(A_1, A_2, A_3, A_4\). La probabilità congiunta si esprime come:

\[ P(A_1 \cap A_2 \cap A_3 \cap A_4) = P(A_1) \cdot P(A_2 \mid A_1) \cdot P(A_3 \mid A_1 \cap A_2) \cdot P(A_4 \mid A_1 \cap A_2 \cap A_3). \]

In questa espressione:

  • \(P(A_1)\) rappresenta la probabilità incondizionata del primo evento.
  • \(P(A_2 \mid A_1)\) è la probabilità del secondo evento dato il verificarsi del primo.
  • \(P(A_3 \mid A_1 \cap A_2)\) è la probabilità del terzo evento, condizionata al verificarsi sia del primo che del secondo.
  • \(P(A_4 \mid A_1 \cap A_2 \cap A_3)\) è la probabilità del quarto evento, condizionata al verificarsi dei tre eventi precedenti.

Il Teorema del Prodotto rappresenta uno dei fondamenti teorici più importanti della probabilità e trova applicazioni in numerosi contesti, quali:

  • La modellazione di processi sequenziali o temporali.
  • La scomposizione di problemi complessi in calcoli più semplici e gestibili.
  • La teoria delle reti bayesiane e l’analisi della probabilità condizionata.

Grazie a questo teorema, è possibile affrontare problemi complessi suddividendoli in passaggi progressivi, in cui ogni probabilità condizionata contribuisce alla costruzione della soluzione complessiva in maniera sistematica.

Esempio 29.8 Da un’urna contenente 6 palline bianche e 4 nere si estrae una pallina per volta, senza reintrodurla nell’urna. Indichiamo con \(B_i\) l’evento: “esce una pallina bianca alla \(i\)-esima estrazione” e con \(N_i\) l’estrazione di una pallina nera. L’evento: “escono due palline bianche nelle prime due estrazioni” è rappresentato dalla intersezione \(\{B_1 \cap B_2\}\) e, per l’Equazione 29.4, la sua probabilità vale

\[ P(B_1 \cap B_2) = P(B_1)P(B_2 \mid B_1). \]

\(P(B_1)\) vale 6/10, perché nella prima estrazione \(\Omega\) è costituito da 10 elementi: 6 palline bianche e 4 nere. La probabilità condizionata \(P(B_2 \mid B_1)\) vale 5/9, perché nella seconda estrazione, se è verificato l’evento \(B_1\), lo spazio campionario consiste di 5 palline bianche e 4 nere. Si ricava pertanto:

\[ P(B_1 \cap B_2) = \frac{6}{10} \cdot \frac{5}{9} = \frac{1}{3}. \]

In modo analogo si ha che

\[ P(N_1 \cap N_2) = P(N_1)P(N_2 \mid N_1) = \frac{4}{10} \cdot \frac{3}{9} = \frac{4}{30}. \]

Se l’esperimento consiste nell’estrazione successiva di 3 palline, la probabilità che queste siano tutte bianche, per l’Equazione 29.5, vale

\[ \begin{aligned} P(B_1 \cap B_2 \cap B_3) &=P(B_1)P(B_2 \mid B_1)P(B_3 \mid B_1 \cap B_2) \notag\\ &=\frac{6}{10}\cdot\frac{5}{9} \cdot\frac{4}{8} \notag\\ &= \frac{1}{6}. \end{aligned} \]

La probabilità dell’estrazione di tre palline nere è invece:

\[ \begin{aligned} P(N_1 \cap N_2 \cap N_3) &= P(N_1)P(N_2 \mid N_1)P(N_3 \mid N_1 \cap N_2)\notag\\ &= \frac{4}{10} \cdot \frac{3}{9} \cdot \frac{2}{8} \notag\\ &= \frac{1}{30}.\notag \end{aligned} \]

29.6 Teorema della Probabilità Totale

Il teorema della probabilità totale (o legge della probabilità totale) consente di calcolare la probabilità di un evento \(A\) scomponendolo rispetto a una partizione dello spazio campionario. Questo strumento è essenziale per semplificare problemi complessi in contesti con più scenari o categorie.

29.6.1 Enunciato Generale

Sia \(\Omega\) uno spazio campionario suddiviso in una partizione di eventi \(B_1, B_2, \dots, B_n\), ovvero:

  • Mutua esclusività: \(B_i \cap B_j = \varnothing\) per \(i \neq j\).
  • Copertura totale: \(\bigcup_{i=1}^n B_i = \Omega\).

Allora, la probabilità di un evento \(A \subseteq \Omega\) è data da:
\[ P(A) = \sum_{i=1}^n P(A \cap B_i) = \sum_{i=1}^n P(A \mid B_i) \cdot P(B_i). \tag{29.6}\]

In pratica, \(P(A)\) è una media pesata delle probabilità condizionate \(P(A \mid B_i)\), con pesi \(P(B_i)\).

29.6.2 Caso di Due Partizioni

Se lo spazio è diviso in due soli eventi \(B\) e \(B^c\), il teorema assume la forma:
\[ \begin{align} P(A) &= P(A \cap B) + P(A \cap B^c) \notag\\ & = P(A \mid B) \cdot P(B) + P(A \mid B^c) \cdot P(B^c). \end{align} \tag{29.7}\]

Esempio 29.9  

  • \(B\): “Una persona è malata”.
  • \(B^c\): “Una persona è sana”.
  • \(A\): “Test medico positivo”.

La probabilità di un test positivo è:
\[ P(A) = P(\text{Positivo} \mid \text{Malato}) \cdot P(\text{Malato}) + P(\text{Positivo} \mid \text{Sano}) \cdot P(\text{Sano}). \]

29.6.3 Applicazioni

  1. Analisi per Categorie
    Suddividendo una popolazione in gruppi \(B_1, \dots, B_n\) (es.: fasce d’età, regioni), \(P(A)\) si calcola come:
    \[ P(A) = \sum_{i=1}^n P(A \mid B_i) \cdot P(B_i). \]

Esempio 29.10 In un test psicologico somministrato a tre gruppi di studenti con differenti livelli di ansia (basso, medio, alto), la distribuzione degli studenti è del 50%, 30% e 20%, rispettivamente. La probabilità che uno studente risponda impulsivamente a una domanda è data da:
\[ P(\text{Impulsiva}) = \sum_{i=1}^3 P(\text{Impulsiva} \mid \text{Ansia livello } i) \cdot P(\text{Ansia livello } i). \]

  1. Teorema di Bayes
    La probabilità totale compare al denominatore della formula di Bayes per calcolare \(P(E)\), la probabilità dei dati osservati:
    \[ P(H_i \mid E) = \frac{P(E \mid H_i) \cdot P(H_i)}{\sum_{j=1}^n P(E \mid H_j) \cdot P(H_j)}. \]
    Qui, \(H_1, \dots, H_n\) formano una partizione di ipotesi.

In sintesi, il teorema della probabilità totale trasforma un problema globale in una somma di problemi locali, condizionati a scenari specifici.

Esempio 29.11 Un team di psicologi desidera stimare la probabilità complessiva di soffrire di depressione nella popolazione generale, distinguendo tre fasce d’età: giovani (18–30 anni), adulti (31–50 anni) e anziani (51+ anni).

I dati raccolti mostrano che:

  • Il 30% della popolazione è giovane, il 40% è adulta e il 30% è anziana.

  • Le probabilità condizionate di soffrire di depressione nelle tre fasce sono:

    \[ P(D \mid G) = 0.10, \quad P(D \mid A) = 0.20, \quad P(D \mid Z) = 0.35. \]

Per ottenere la probabilità totale di soffrire di depressione (\(P(D)\)) nella popolazione, si applica la legge della probabilità totale:

\[ P(D) = P(D \mid G)\,P(G) + P(D \mid A)\,P(A) + P(D \mid Z)\,P(Z). \]

Di seguito il codice R per effettuare il calcolo:

# Probabilità di ciascuna fascia d'età
P_G <- 0.30
P_A <- 0.40
P_Z <- 0.30

# Probabilità condizionate di depressione
P_D_given_G <- 0.10
P_D_given_A <- 0.20
P_D_given_Z <- 0.35

# Calcolo della probabilità totale
P_D <- (P_D_given_G * P_G) + (P_D_given_A * P_A) + (P_D_given_Z * P_Z)

cat("La probabilità totale di soffrire di depressione è:", P_D, "\n")
#> La probabilità totale di soffrire di depressione è: 0.215

Interpretazione
Dal risultato, circa il 21.5% della popolazione soffre di depressione. Questo calcolo è particolarmente utile quando i dati derivano da sottopopolazioni distinte, in quanto fornisce una stima complessiva combinando i contributi di ciascun gruppo.

Esempio 29.12 Abbiamo tre urne, ciascuna delle quali contiene 100 palline:

  • Urna 1: 75 palline rosse e 25 palline blu,
  • Urna 2: 60 palline rosse e 40 palline blu,
  • Urna 3: 45 palline rosse e 55 palline blu.

Una pallina viene estratta a caso da un’urna anch’essa scelta a caso. Qual è la probabilità che la pallina estratta sia di colore rosso?

Sia \(R\) l’evento “la pallina estratta è rossa” e sia \(U_i\) l’evento che corrisponde alla scelta dell’\(i\)-esima urna. Sappiamo che

\[ P(R \mid U_1) = 0.75, \quad P(R \mid U_2) = 0.60, \quad P(R \mid U_3) = 0.45. \]

Gli eventi \(U_1\), \(U_2\) e \(U_3\) costituiscono una partizione dello spazio campione in quanto \(U_1\), \(U_2\) e \(U_3\) sono eventi mutualmente esclusivi ed esaustivi, ovvero \(P(U_1 \cup U_2 \cup U_3) = 1.0\). In base al teorema della probabilità totale, la probabilità di estrarre una pallina rossa è dunque

\[ \begin{split} P(R) &= P(R \mid U_1)P(U_1) + P(R \mid U_2)P(U_2) + P(R \mid U_3)P(U_3) \\ &= 0.75 \cdot \frac{1}{3}+0.60 \cdot \frac{1}{3}+0.45 \cdot \frac{1}{3} \\ &=0.60. \end{split} \]

29.7 Riflessioni Conclusive

La probabilità condizionata è uno dei concetti fondamentali della statistica, poiché fornisce il quadro teorico necessario per comprendere l’indipendenza statistica e molte altre relazioni tra eventi e variabili.

Un punto chiave è che l’indipendenza implica l’assenza di una associazione tra due variabili. Nei capitoli successivi esploreremo strumenti per misurare la correlazione correlazione, ovvero la presenza e l’intensità di una relazione lineare tra di esse.

La probabilità condizionata ha inoltre permesso di riformulare la legge della probabilità totale, che consente di scomporre probabilità complesse utilizzando partizioni dello spazio campionario. Questa legge si rivela cruciale per il teorema di Bayes, uno degli strumenti cardine dell’inferenza statistica.

In particolare, nel contesto dell’inferenza bayesiana, il condizionamento assume un ruolo fondamentale. Grazie a questo principio, è possibile aggiornare continuamente le credenze o le incertezze riguardo a ipotesi, integrando nuove informazioni man mano che diventano disponibili. Questa capacità di adattamento rende l’inferenza bayesiana uno strumento estremamente flessibile e potente, capace di modellare situazioni complesse e dinamiche.

In sintesi, la probabilità condizionata non solo è essenziale per comprendere l’indipendenza statistica, ma costituisce anche la base di metodi inferenziali avanzati, come l’inferenza bayesiana. Attraverso di essa, possiamo costruire modelli che evolvono e migliorano con l’aggiunta di nuove informazioni, rendendo l’analisi statistica uno strumento dinamico e versatile per interpretare il mondo reale.

29.8 Esercizi

Esercizio 1: Soddisfazione con la Vita e Stress Accademico

Un gruppo di studenti ha compilato la Satisfaction with Life Scale (SWLS) e un questionario sullo stress accademico. Dai dati raccolti emerge che:

  • Il 40% degli studenti ha riportato un alto livello di stress accademico.
  • Il 60% degli studenti ha riportato un basso livello di stress accademico.
  • Tra gli studenti con alto stress, il 30% ha riportato una soddisfazione con la vita elevata.
  • Tra gli studenti con basso stress, il 70% ha riportato una soddisfazione con la vita elevata.

Calcola la probabilità che uno studente scelto a caso abbia:

  1. Un alto livello di stress e una soddisfazione elevata.
  2. Una soddisfazione elevata.
  3. Un alto livello di stress, dato che ha una soddisfazione elevata.

Esercizio 2: Studio del Paradosso di Simpson

Un’università vuole valutare la relazione tra la frequenza di partecipazione alle lezioni e il successo negli esami finali. I dati raccolti mostrano che:

Gruppo Studenti con alta frequenza Superano l’esame Non superano l’esame
A 40 30 10
B 60 20 40
  1. Calcola la probabilità di superare l’esame per ciascun gruppo separatamente.
  2. Calcola la probabilità totale di superare l’esame.
  3. Spiega se il Paradosso di Simpson si manifesta in questi dati.

Esercizio 3: Il Problema di Monty Hall

In un quiz televisivo, un concorrente deve scegliere tra tre porte: dietro una c’è un’auto e dietro le altre due ci sono capre. Dopo la scelta iniziale, il conduttore, che sa cosa c’è dietro ogni porta, apre una delle due porte rimanenti rivelando una capra. Il concorrente ha ora la possibilità di cambiare la sua scelta.

  1. Qual è la probabilità di vincere l’auto se il concorrente non cambia la sua scelta?
  2. Qual è la probabilità di vincere l’auto se il concorrente cambia la sua scelta?
  3. Spiega perché cambiare porta è la strategia migliore.

Esercizio 4: Teorema della Probabilità Totale

Un’università ha tre dipartimenti: Psicologia, Economia e Ingegneria. Le proporzioni di studenti iscritti sono:

  • Psicologia: 40%
  • Economia: 35%
  • Ingegneria: 25%

La probabilità di laurearsi in tempo varia per ogni dipartimento:

  • Psicologia: 70%
  • Economia: 60%
  • Ingegneria: 80%

Calcola la probabilità che uno studente scelto a caso si laurei in tempo.

Esercizio 5: Urne e Palline

Un’urna contiene 5 palline rosse e 7 blu. Si estrae una pallina, si osserva il colore e poi la pallina viene rimessa nell’urna. Quindi si estrae una seconda pallina.

  1. Qual è la probabilità di estrarre due palline rosse?
  2. Qual è la probabilità di estrarre almeno una pallina blu?
  3. Qual è la probabilità di estrarre una pallina rossa alla seconda estrazione, dato che la prima estratta era blu?

Esercizio 1: Soddisfazione con la Vita e Stress Accademico

  1. La probabilità che uno studente abbia alto stress e soddisfazione elevata si calcola moltiplicando la probabilità condizionata di avere soddisfazione elevata dato l’alto stress per la probabilità di avere alto stress:

    \[ P(S \cap V) = P(V | S) P(S) = 0.30 \times 0.40 = 0.12. \]

  2. La probabilità che uno studente abbia una soddisfazione elevata, indipendentemente dal livello di stress, si ottiene applicando la legge della probabilità totale:

    \[ P(V) = P(V | S) P(S) + P(V | \neg S) P(\neg S) \]

    \[ = (0.30 \times 0.40) + (0.70 \times 0.60) = 0.12 + 0.42 = 0.54. \]

  3. La probabilità che uno studente abbia alto stress sapendo che ha una soddisfazione elevata si calcola utilizzando la formula della probabilità condizionata:

    \[ P(S | V) = \frac{P(S \cap V)}{P(V)} = \frac{0.12}{0.54} \approx 0.22. \]

Esercizio 2: Studio del Paradosso di Simpson

  1. \(P(E | A) = \frac{30}{40} = 0.75\), \(P(E | B) = \frac{20}{60} = 0.33\)
  2. \(P(E) = P(E | A) P(A) + P(E | B) P(B) = (0.75 \times 0.40) + (0.33 \times 0.60) = 0.30 + 0.198 = 0.498\)
  3. Se i tassi di successo aggregati mostrano una relazione invertita, il Paradosso di Simpson si manifesta.

Esercizio 3: Il Problema di Monty Hall

  1. \(P(V | S) = \frac{1}{3}\)
  2. \(P(V | C) = \frac{2}{3}\)
  3. Cambiare porta aumenta le probabilità di vincita da \(1/3\) a \(2/3\), quindi conviene sempre cambiare.

Esercizio 4: Teorema della Probabilità Totale

\(P(L) = (0.70 \times 0.40) + (0.60 \times 0.35) + (0.80 \times 0.25) = 0.28 + 0.21 + 0.20 = 0.69\)

Esercizio 5: Urne e Palline

  1. \(P(R_1 \cap R_2) = (5/12) \times (5/12) = 25/144\)
  2. \(1 - P(R_1 \cap R_2) = 1 - 25/144 = 119/144\)
  3. \(P(R_2 | B_1) = 5/12\)

Informazioni sull’Ambiente di Sviluppo

sessionInfo()
#> R version 4.4.2 (2024-10-31)
#> Platform: aarch64-apple-darwin20
#> Running under: macOS Sequoia 15.3.1
#> 
#> Matrix products: default
#> BLAS:   /Library/Frameworks/R.framework/Versions/4.4-arm64/Resources/lib/libRblas.0.dylib 
#> LAPACK: /Library/Frameworks/R.framework/Versions/4.4-arm64/Resources/lib/libRlapack.dylib;  LAPACK version 3.12.0
#> 
#> locale:
#> [1] C/UTF-8/C/C/C/C
#> 
#> time zone: Europe/Rome
#> tzcode source: internal
#> 
#> attached base packages:
#> [1] stats     graphics  grDevices utils     datasets  methods   base     
#> 
#> other attached packages:
#>  [1] thematic_0.1.6   MetBrewer_0.2.0  ggokabeito_0.1.0 see_0.10.0      
#>  [5] gridExtra_2.3    patchwork_1.3.0  bayesplot_1.11.1 psych_2.4.12    
#>  [9] scales_1.3.0     markdown_1.13    knitr_1.49       lubridate_1.9.4 
#> [13] forcats_1.0.0    stringr_1.5.1    dplyr_1.1.4      purrr_1.0.4     
#> [17] readr_2.1.5      tidyr_1.3.1      tibble_3.2.1     ggplot2_3.5.1   
#> [21] tidyverse_2.0.0  rio_1.2.3        here_1.0.1      
#> 
#> loaded via a namespace (and not attached):
#>  [1] generics_0.1.3    stringi_1.8.4     lattice_0.22-6    hms_1.1.3        
#>  [5] digest_0.6.37     magrittr_2.0.3    evaluate_1.0.3    grid_4.4.2       
#>  [9] timechange_0.3.0  fastmap_1.2.0     rprojroot_2.0.4   jsonlite_1.9.1   
#> [13] mnormt_2.1.1      cli_3.6.4         rlang_1.1.5       munsell_0.5.1    
#> [17] withr_3.0.2       tools_4.4.2       parallel_4.4.2    tzdb_0.4.0       
#> [21] colorspace_2.1-1  pacman_0.5.1      vctrs_0.6.5       R6_2.6.1         
#> [25] lifecycle_1.0.4   htmlwidgets_1.6.4 pkgconfig_2.0.3   pillar_1.10.1    
#> [29] gtable_0.3.6      glue_1.8.0        xfun_0.51         tidyselect_1.2.1 
#> [33] rstudioapi_0.17.1 farver_2.1.2      htmltools_0.5.8.1 nlme_3.1-167     
#> [37] rmarkdown_2.29    compiler_4.4.2

Bibliografia

Blitzstein, J. K., & Hwang, J. (2019). Introduction to probability. CRC Press.
Radelet, M. L., & Pierce, G. L. (1991). Choosing Those Who Will Die: Race and the Death Penalty in Florida. Florida Law Review, 43(1), 1–34.
Schervish, M. J., & DeGroot, M. H. (2014). Probability and statistics (Vol. 563). Pearson Education London, UK: