32 Distribuzioni di massa e di densità
- Distinguere la variabilità di variabili discrete e continue, comprendendone le implicazioni.
- Differenziare tra massa di probabilità (distribuzioni discrete) e densità di probabilità (distribuzioni continue).
- Comprendere perché, per una variabile continua, la probabilità di osservare un valore esatto è pari a zero.
- Passare dall’uso degli istogrammi alle funzioni di densità di probabilità come rappresentazioni delle distribuzioni continue.
- Utilizzare la funzione di ripartizione per calcolare le probabilità cumulative.
- Leggere il capitolo Random variables and their distributions del testo di Blitzstein & Hwang (2019).
32.1 Introduzione
Nel Capitolo 31 abbiamo introdotto il concetto di variabile casuale, distinguendo tra variabili casuali discrete e continue. Per le prime, abbiamo descritto formalmente come assegnare una distribuzione di massa di probabilità, mentre per le seconde abbiamo introdotto la nozione di funzione di densità di probabilità. Fino a questo punto, i concetti di distribuzione di massa e densità sono stati trattati in termini prevalentemente formali e matematici.
Lo scopo di questo capitolo è quello di approfondire queste idee, fornendo un’interpretazione più intuitiva e concreta di tali concetti. Attraverso esempi ed analisi pratiche, cercheremo di chiarire il significato sottostante alle distribuzioni di probabilità, rendendo più accessibili queste fondamentali strutture della teoria delle probabilità.
32.2 Variabili Casuali Discrete e Continue
Un elemento fondamentale nella comprensione delle distribuzioni di probabilità è la distinzione tra variabili casuali discrete e continue, poiché le distribuzioni di probabilità associate differiscono in modo sostanziale.
- Variabili Casuali Discrete: assumono un numero finito o numerabile di valori. Ad esempio, il numero di successi in una serie di esperimenti o il risultato del lancio di un dado.
- Variabili Casuali Continue: possono assumere un numero infinito di valori all’interno di un intervallo. Esempi includono il tempo di attesa per un evento o il quoziente intellettivo (QI) di una persona.
32.3 Distribuzioni di Probabilità Discrete
Le distribuzioni di probabilità discrete descrivono fenomeni aleatori con un numero finito o numerabile di esiti possibili. Queste distribuzioni sono rappresentate da una funzione di massa di probabilità (PMF), che assegna una probabilità a ciascun valore della variabile casuale.
Esempio 32.1 Consideriamo un dado sbilanciato con la seguente distribuzione di probabilità:
Valore di \(X\) | Probabilità \(p(x)\) |
---|---|
1 | 0.10 |
2 | 0.15 |
3 | 0.20 |
4 | 0.25 |
5 | 0.20 |
6 | 0.10 |
Per visualizzare questa distribuzione, possiamo simulare 1000 lanci del dado e creare un diagramma a barre che rappresenta le frequenze relative osservate. In R:
# Dati
set.seed(123)
prob <- c(0.10, 0.15, 0.20, 0.25, 0.20, 0.10)
lanci <- sample(1:6, size = 1000, replace = TRUE, prob = prob)
# Creazione di un data frame
df <- data.frame(Valore = factor(lanci))
# Creazione del diagramma a barre
ggplot(df, aes(x = Valore)) +
geom_bar(aes(y = after_stat(count) / sum(after_stat(count))), fill = "lightblue", color="black") +
labs(
title = "Distribuzione empirica dei lanci",
x = "Valore",
y = "Frequenza relativa"
)
Con un numero sufficientemente grande di osservazioni, la distribuzione empirica si avvicina alla distribuzione teorica.
32.4 Distribuzioni di Probabilità Continue
Le distribuzioni di probabilità continue descrivono variabili casuali che possono assumere un numero infinito di valori in un intervallo. In questo caso, la probabilità è rappresentata da una funzione di densità di probabilità (PDF), che descrive la probabilità che la variabile assuma valori in un dato intervallo.
32.4.1 Probabilità come Area Sotto la Curva
Per una variabile casuale continua \(X\), la probabilità che \(X\) assuma un valore compreso tra \(a\) e \(b\) è data dall’area sotto la curva della PDF tra \(a\) e \(b\):
\[ P(a \leq X \leq b) = \int_a^b f(x) \, dx. \]
Esempio 32.2 Il quoziente intellettivo (QI) è spesso modellato come una variabile casuale continua con distribuzione normale, con media \(\mu = 100\) e deviazione standard \(\sigma = 15\). Possiamo simulare questa distribuzione e confrontare l’istogramma dei dati con la PDF teorica.
Simulazione con 50 osservazioni.
# Parametri della distribuzione normale
mu <- 100
sigma <- 15
size <- 50
# Generare i dati
set.seed(123)
x <- rnorm(size, mean = mu, sd = sigma)
# Istogramma e densità
data_frame <- data.frame(X = x)
xmin <- min(x)
xmax <- max(x)
density_data <- data.frame(
X = seq(xmin, xmax, length.out = 100),
Density = dnorm(seq(xmin, xmax, length.out = 100), mean = mu, sd = sigma)
)
ggplot(data_frame, aes(x = X)) +
geom_histogram(
aes(y = after_stat(density)),
bins = 25,
fill = "lightblue", color = "black"
) +
geom_line(
data = density_data,
aes(x = X, y = Density),
color = "black",
size = 1
) +
labs(
title = "Distribuzione del QI (50 osservazioni)",
x = "Valori del QI",
y = "Densità"
)
Con un campione piccolo, l’istogramma non corrisponde perfettamente alla PDF teorica. Tuttavia, aumentando il numero di osservazioni, l’approssimazione migliora.
Simulazione con 20000 osservazioni.
# Generare un campione più grande
size <- 20000
set.seed(123)
x <- rnorm(size, mean = mu, sd = sigma)
# Aggiornare media e deviazione standard
mu <- mean(x)
sigma <- sd(x)
# Creare il grafico
data_frame <- data.frame(X = x)
xmin <- min(x)
xmax <- max(x)
density_data <- data.frame(
X = seq(xmin, xmax, length.out = 100),
Density = dnorm(seq(xmin, xmax, length.out = 100), mean = mu, sd = sigma)
)
ggplot(data_frame, aes(x = X)) +
geom_histogram(
aes(y = after_stat(density)),
bins = 25,
fill = "lightblue",
color = "black"
) +
geom_line(
data = density_data,
aes(x = X, y = Density),
color = "black",
size = 1
) +
labs(
title = sprintf("Distribuzione del QI (%d osservazioni)", size),
x = "Valori del QI",
y = "Densità"
)
Con un campione di grandi dimensioni, l’istogramma riflette molto meglio la PDF teorica.
32.5 Interpretazione della Funzione di Densità
La funzione di densità di probabilità (PDF) rappresenta un’astrazione continua dell’istogramma. Quando il numero di osservazioni tende a infinito e la larghezza degli intervalli tende a zero, il profilo dell’istogramma si avvicina alla PDF.
32.5.1 Proprietà della PDF
- Area Totale: L’area totale sotto la curva della PDF è uguale a 1, poiché rappresenta la probabilità totale.
- Probabilità per Intervalli: La probabilità che la variabile assuma un valore in un intervallo \([a, b]\) è data dall’area sotto la curva tra \(a\) e \(b\).
- Probabilità per Singoli Valori: Per una variabile continua, la probabilità di un singolo valore è sempre zero, poiché corrisponde all’area sotto la curva in un punto.
32.6 Parametri delle Distribuzioni di Probabilità
Le distribuzioni di probabilità, sia discrete che continue, sono definite da parametri che ne determinano le proprietà fondamentali. Questi parametri consentono di adattare il modello probabilistico ai dati osservati.
32.6.1 Proprietà Influenzate dai Parametri
- Posizione (Tendenza Centrale): Indica il valore attorno al quale si concentra la distribuzione. Ad esempio, nella distribuzione normale, la media (\(\mu\)) rappresenta il centro della distribuzione.
- Dispersione: Misura quanto i valori della distribuzione si allontanano dalla posizione centrale. Nella distribuzione normale, la deviazione standard (\(\sigma\)) controlla la larghezza della curva.
- Forma: Determina l’asimmetria o la curtosi della distribuzione. Alcune distribuzioni, come quella gamma o beta, hanno parametri specifici per regolare la forma.
32.7 Il Paradosso delle Variabili Casuali Continue
Un aspetto, inizialmente controintuitivo, delle variabili casuali continue è che la probabilità di osservare esattamente un determinato valore è sempre pari a zero. Per esempio, se consideriamo una variabile continua che rappresenta il QI, la probabilità che il QI sia esattamente 100 è espressa da
\[ P(X = 100) = 0. \]
Questo risultato, che può sembrare paradossale, non indica che l’evento “QI uguale a 100” sia impossibile. In realtà, il significato di probabilità in un contesto continuo è diverso da quello nel caso discreto, e va interpretato correttamente.
32.7.1 Probabilità e Intervalli nelle Variabili Continue
Per le variabili casuali continue, il concetto di probabilità si applica agli intervalli di valori piuttosto che ai singoli punti. Infatti, se volessimo attribuire una probabilità positiva a ogni singolo valore, sommando infinite quantità positive (anche se infinitesimali) otterremmo un totale che supererebbe 1, violando i principi fondamentali della teoria della probabilità.
Per chiarire questo concetto, consideriamo l’intervallo attorno al valore 100. Ad esempio, la probabilità che il QI sia compreso tra 95 e 105 è data dall’area sotto la funzione di densità di probabilità (PDF) \(f(x)\) nell’intervallo \([95, 105]\):
\[ P(95 \leq X \leq 105) = \int_{95}^{105} f(x) \, dx. \]
Qui, l’integrale calcola l’area sotto la curva della PDF nell’intervallo specificato. Anche se la probabilità assegnata a un singolo punto, come \(x = 100\), è zero (perché l’area di un “punto” è zero), l’area totale su un intervallo non trascurabile risulta invece in una probabilità finita e significativa.
32.7.2 Conseguenze Fondamentali
Questo modo di definire la probabilità nelle variabili continue comporta due implicazioni chiave:
Calcolo della probabilità su intervalli:
Le probabilità vengono definite e calcolate per intervalli di valori, non per singoli punti. Ciò significa che, in pratica, ci si interessa alla probabilità che la variabile assuma valori all’interno di un certo range.Eventi con probabilità zero:
Il fatto che un evento (ad esempio, \(X = 100\)) abbia probabilità zero non implica che l’evento sia impossibile. In altre parole, eventi con probabilità zero possono, in effetti, verificarsi; la probabilità zero in un contesto continuo indica semplicemente che, nel “tessuto” continuo della distribuzione, un singolo punto ha contributo infinitesimale rispetto all’intera area sotto la curva.
32.7.3 Il Paradosso della Probabilità Zero
Questo ragionamento porta a un apparente paradosso: se la probabilità che il QI sia esattamente 100 è zero, come possiamo mai osservare un valore specifico, come 100, nella realtà? Da qui sorgono due domande fondamentali:
Confronto tra eventi di probabilità zero:
È possibile comparare “le possibilità” di eventi che, per definizione, hanno tutti probabilità zero? La risposta sta nel riconoscere che, in un contesto continuo, la probabilità è solo un modo per misurare l’area (cioè la “massa” della densità) su un intervallo, non il valore in un punto specifico.Unione di infiniti eventi a probabilità zero:
Come si fa in modo che l’unione di infiniti eventi, ciascuno con probabilità zero, possa dare luogo a un evento complessivo con probabilità positiva (ad esempio, “il QI assume un valore compreso in un intervallo”)?
La chiave per risolvere questi quesiti risiede nell’uso dell’integrazione. Anche se ogni singolo valore contribuisce con una probabilità “infinitesimale” (in termini di area, zero), la somma di tutti questi contributi lungo un intervallo (che è il risultato dell’integrazione) dà luogo a un’area finita, corrispondente a una probabilità positiva.
32.7.4 Un’Analogia: Il Paradosso di Zenone
Una metafora utile per comprendere questo fenomeno è data dal celebre paradosso di Zenone della freccia. Nel paradosso, si sostiene che, in ogni istante, la freccia sia immobile, e dunque non si dovrebbe mai muovere. Analogamente, anche se in ogni punto specifico la probabilità è zero, la “somma” degli infiniti contributi infinitesimali lungo un intervallo determina un risultato complessivo positivo.
Questa analogia evidenzia come la somma di una quantità infinita di “nulla” (ossia contributi infinitesimali) possa, in realtà, costituire un qualcosa di concreto e significativo (l’area sotto la curva).
32.7.5 La Prospettiva degli Infinitesimi
Negli anni ’60, il matematico Abraham Robinson sviluppò una teoria rigorosa degli infinitesimi, ovvero numeri infinitamente piccoli ma non esattamente nulli. Applicando questa idea alle variabili casuali continue, possiamo reinterpretare il concetto di probabilità zero nel modo seguente:
Probabilità infinitesimale per un singolo valore:
In questa prospettiva, la probabilità associata a un singolo valore non è propriamente zero, ma è un numero infinitamente piccolo (un infinitesimo). Anche se, nell’analisi classica, tale valore viene trattato come zero, la teoria degli infinitesimi offre un modo per concettualizzare queste quantità.Somma di infinitesimi:
L’unione (o, più formalmente, l’integrazione) di infiniti eventi, ciascuno con probabilità infinitesimale, porta alla formazione di una probabilità finita e positiva per l’intero intervallo. Questo spiega come un insieme infinito di “punti” ciascuno di probabilità infinitesimale possa dare origine a un evento con probabilità significativa.
In conclusione, il cosiddetto “paradosso della probabilità zero” non rappresenta un vero paradosso, ma evidenzia piuttosto i limiti delle nostre intuizioni quando affrontiamo concetti inerenti variabili continue. La chiave per la comprensione risiede nella distinzione tra il contributo di un singolo punto (infinitesimale o zero, nell’analisi classica) e l’area complessiva calcolata mediante l’integrazione.
Grazie agli strumenti forniti dall’analisi matematica e, in alcuni contesti, dalla teoria degli infinitesimi, riusciamo a interpretare correttamente questi fenomeni: la probabilità non è concentrata in punti isolati, ma distribuita in modo continuo lungo un intervallo. Questa visione ci permette di superare la difficoltà concettuale di assegnare probabilità a eventi infinitamente piccoli, mantenendo la coerenza con i principi fondamentali della teoria della probabilità.
32.8 La Funzione di Ripartizione per una Variabile Casuale Continua
La funzione di ripartizione, nota anche come distribuzione cumulativa, è uno strumento fondamentale per descrivere il comportamento di una variabile casuale, sia essa discreta o continua. Per una variabile casuale continua \(\Theta\), la funzione di ripartizione \(F_{\Theta}(\theta)\) è definita come:
\[ F_{\Theta}(\theta) = P(\Theta \leq \theta). \]
In altre parole, \(F_{\Theta}(\theta)\) rappresenta la probabilità che la variabile \(\Theta\) assuma un valore minore o uguale a \(\theta\). Questa definizione è identica a quella utilizzata per le variabili casuali discrete, ma nel caso continuo assume un significato particolare a causa della natura continua della variabile.
32.8.1 Proprietà della Funzione di Ripartizione
La funzione di ripartizione per una variabile casuale continua gode di alcune proprietà importanti:
- Monotonicità Crescente: \(F_{\Theta}(\theta)\) è una funzione non decrescente. Ciò significa che, all’aumentare di \(\theta\), la probabilità \(P(\Theta \leq \theta)\) non diminuisce.
-
Limiti agli Estremi:
- Quando \(\theta \to -\infty\), \(F_{\Theta}(\theta) \to 0\).
- Quando \(\theta \to +\infty\), \(F_{\Theta}(\theta) \to 1\).
- Continuità: Per una variabile casuale continua, \(F_{\Theta}(\theta)\) è una funzione continua. Questo differisce dal caso discreto, dove la funzione di ripartizione è a gradini.
32.8.2 Calcolo delle Probabilità per Intervalli
Una delle applicazioni più utili della funzione di ripartizione è il calcolo della probabilità che la variabile casuale \(\Theta\) assuma valori all’interno di un intervallo specifico. Dati due valori \(\theta_1\) e \(\theta_2\) (con \(\theta_1 < \theta_2\)), la probabilità che \(\Theta\) sia compreso tra \(\theta_1\) e \(\theta_2\) è data da:
\[ P(\theta_1 < \Theta \leq \theta_2) = F_{\Theta}(\theta_2) - F_{\Theta}(\theta_1). \]
Questa formula è particolarmente utile perché, nel caso delle variabili continue, la probabilità di un singolo punto è sempre zero. Pertanto, per calcolare probabilità significative, è necessario considerare intervalli di valori.
32.8.3 Relazione con la Funzione di Densità di Probabilità (PDF)
La funzione di ripartizione è strettamente legata alla funzione di densità di probabilità (PDF), \(f(\theta)\). Mentre la PDF descrive la densità di probabilità in ogni punto, la funzione di ripartizione rappresenta l’area sotto la curva della PDF fino a un certo valore \(\theta\). Formalmente, la funzione di ripartizione si ottiene integrando la PDF:
\[ F_{\Theta}(\theta) = \int_{-\infty}^{\theta} f(t) \, dt. \]
Questa relazione evidenzia come la funzione di ripartizione sia una rappresentazione cumulativa della probabilità, ottenuta sommando (o integrando) i contributi della densità di probabilità fino al valore \(\theta\).
Esempio 32.3 Consideriamo una variabile casuale \(\Theta\) con distribuzione normale standard (media \(\mu = 0\) e deviazione standard \(\sigma = 1\)). La PDF è data da:
\[ f(\theta) = \frac{1}{\sqrt{2\pi}} e^{-\theta^2 / 2}. \]
La funzione di ripartizione \(F_{\Theta}(\theta)\) è l’integrale di questa funzione da \(-\infty\) a \(\theta\):
\[ F_{\Theta}(\theta) = \int_{-\infty}^{\theta} \frac{1}{\sqrt{2\pi}} e^{-t^2 / 2} \, dt. \]
Questa funzione non ha una forma chiusa semplice, ma può essere calcolata numericamente o consultata in tabelle statistiche. Ad esempio, per \(\theta = 1\), \(F_{\Theta}(1) \approx 0.8413\), il che significa che la probabilità che \(\Theta\) sia minore o uguale a 1 è circa l’84.13%.
32.8.4 Interpretazione Grafica
Graficamente, la funzione di ripartizione rappresenta l’area sotto la curva della PDF a sinistra del valore \(\theta\). Ad esempio, se consideriamo la distribuzione normale standard:
- Per \(\theta = 0\), \(F_{\Theta}(0) = 0.5\), poiché la media della distribuzione è 0 e la curva è simmetrica.
- Per \(\theta = 1\), \(F_{\Theta}(1) \approx 0.8413\), come visto sopra.
- Per \(\theta = -1\), \(F_{\Theta}(-1) \approx 0.1587\), poiché la coda sinistra della distribuzione contiene il 15.87% della probabilità.
# Definisci i parametri della distribuzione normale standard
mu <- 0
sigma <- 1
# Definisci i valori di theta
theta_values <- c(-1, 0, 1)
# Crea un data frame per la PDF e la CDF
x <- seq(-4, 4, length.out = 1000) # Valori sull'asse x
pdf_values <- dnorm(x, mean = mu, sd = sigma) # Valori della PDF
cdf_values <- pnorm(x, mean = mu, sd = sigma) # Valori della CDF
data <- data.frame(x = x, PDF = pdf_values, CDF = cdf_values)
# Crea il grafico
ggplot(data, aes(x = x)) +
# Plot della PDF
geom_line(aes(y = PDF), color = "blue", linewidth = 1) +
# Aggiungi aree sotto la PDF per i valori di theta
geom_area(data = subset(data, x <= theta_values[1]), aes(y = PDF), fill = "red", alpha = 0.5) +
geom_area(data = subset(data, x <= theta_values[2]), aes(y = PDF), fill = "green", alpha = 0.5) +
geom_area(data = subset(data, x <= theta_values[3]), aes(y = PDF), fill = "purple", alpha = 0.5) +
# Plot della CDF
geom_line(aes(y = CDF), color = "black", linewidth = 1, linetype = "dashed") +
# Aggiungi linee verticali per i valori di theta
geom_vline(xintercept = theta_values, color = "gray", linetype = "dotted") +
# Aggiungi annotazioni per i valori di theta
annotate("text", x = theta_values[1], y = 0, label = paste("θ =", theta_values[1]), vjust = 2, hjust = 1.2, color = "red") +
annotate("text", x = theta_values[2], y = 0, label = paste("θ =", theta_values[2]), vjust = 2, hjust = 1.2, color = "green") +
annotate("text", x = theta_values[3], y = 0, label = paste("θ =", theta_values[3]), vjust = 2, hjust = -0.2, color = "purple") +
# Aggiungi titoli e etichette
labs(
title = "Funzione di Densità di Probabilità (PDF) e\nFunzione di Ripartizione (CDF)",
subtitle = "Distribuzione Normale Standard",
x = "Valori di θ",
y = "Densità / Probabilità Cumulativa"
)
In conclusione, la funzione di ripartizione è uno strumento essenziale per comprendere e lavorare con variabili casuali continue. Essa non solo fornisce una rappresentazione cumulativa della probabilità, ma permette anche di calcolare probabilità per intervalli e di collegare la PDF alla distribuzione complessiva della variabile. Attraverso la sua relazione con la PDF, la funzione di ripartizione offre un ponte tra la descrizione locale (densità) e quella globale (probabilità cumulativa) di una variabile casuale continua.
32.9 Interpretazioni Bayesiana e Frequentista della PDF
In questo capitolo, abbiamo introdotto la funzione di densità di probabilità come limite del profilo di un istogramma, una descrizione intuitiva e utile per comprendere il concetto di densità. Questa interpretazione corrisponde, tuttavia, alla visione frequentista della densità di probabilità. Nella statistica Bayesiana, l’interpretazione è diversa e merita una spiegazione separata.
32.9.1 Interpretazione Frequentista
Concetto di ripetizione degli esperimenti:
Idea di frequenza relativa:
Nel paradigma frequentista la probabilità è intesa come il limite della frequenza relativa di un evento ottenuto al ripetere un esperimento un numero molto elevato di volte. Immaginiamo di eseguire un esperimento molte volte, ad ogni ripetizione si ottiene un valore di \(x\). Se costruiamo un istogramma di questi valori, questo istogramma diventa sempre più “liscio” man mano che il numero delle ripetizioni aumenta, fino a convergere alla PDF \(p(x)\).PDF come istogramma limite:
La PDF rappresenta la distribuzione dei valori osservati in una serie di ripetizioni dell’esperimento. In altre parole, essa descrive quanto frequentemente, in una ipotetica serie infinita di esperimenti, il valore \(x\) assume un determinato intervallo.Esempio intuitivo:
Se misuriamo l’altezza degli individui in una popolazione, nel contesto frequentista, la PDF ci dice quale frazione di individui cade in un certo intervallo di altezza se potessimo misurare ogni possibile individuo (o eseguire ripetutamente misurazioni indipendenti in una popolazione “ideale”).
32.9.2 Interpretazione Bayesiana
Concetto di incertezza e credenza:
-
Parametro come variabile casuale:
In statistica bayesiana, i parametri non sono visti come quantità fisse, ma come incerti. Si assume che ogni parametro (o dato osservato) abbia una propria distribuzione che riflette la nostra incertezza su di esso.- Ad esempio, se stiamo stimando un parametro \(\theta\) (ad esempio la media di una distribuzione), in un approccio bayesiano attribuiamo a \(\theta\) una distribuzione di probabilità che esprime quanto sia plausibile ciascun valore di \(\theta\), dati i dati osservati e le nostre conoscenze pregresse.
-
PDF come distribuzione di credenze:
La PDF, in questo contesto, non descrive una frequenza relativa osservabile sperimentalmente (perché l’esperimento non viene ripetuto infinite volte, o perché \(x\) è un valore fisso ma incerto), ma esprime il grado di fiducia o la plausibilità che il valore “vero” di \(x\) (o di un parametro) si trovi in un certo intervallo.- È come “spalmare” la nostra incertezza su tutti i valori possibili: la sfumatura lungo l’asse \(x\) rappresenta la distribuzione delle nostre credenze.
Analogia con la densità di materia:
Un’utile analogia è quella della densità di materia \(\rho(x)\) in meccanica classica: la densità non descrive la posizione precisa di ogni atomo, ma come la materia (o, in questo caso, la probabilità) è distribuita lungo l’asse \(x\). Allo stesso modo, in una PDF bayesiana, non sono i “valori di \(x\)” ad essere distribuiti (in termini di frequenza osservabile), ma è la nostra “incertezza” a essere distribuita sui possibili valori.Esempio intuitivo:
Immagina di dover stimare la probabilità che una certa ipotesi sia vera, ad esempio la media dell’altezza in una popolazione. Invece di pensare a misurazioni ripetute, consideri il valore medio come fisso ma incerto. La PDF bayesiana esprime il grado di credenza per ciascun possibile valore della media, in base ai dati raccolti e alle informazioni a priori.
32.9.3 Confronto
-
Frequentista:
- Focus: Distribuzione dei dati.
- Interpretazione: La PDF descrive come i valori di \(x\) sarebbero distribuiti se ripetessimo l’esperimento infinite volte.
- Esempio: L’istogramma dei dati osservati in una lunga serie di esperimenti.
-
Bayesiano:
- Focus: Distribuzione della nostra incertezza o credenza.
- Interpretazione: La PDF riflette quanto sia plausibile ciascun valore di \(x\) (o di un parametro) dato l’informazione disponibile, senza necessità di ripetere l’esperimento.
- Esempio: La distribuzione a posteriori di un parametro dopo aver combinato dati osservati e informazioni a priori.

In sintesi, questa distinzione tra interpretazioni non è solo una questione di semantica, ma ha implicazioni pratiche nella formulazione di modelli statistici e nell’interpretazione dei risultati. Mentre l’approccio frequentista è spesso utilizzato quando si può concettualmente pensare a ripetizioni infinite dell’esperimento, l’approccio bayesiano è particolarmente utile quando si vuole esprimere e aggiornare la propria incertezza su una quantità basandosi sia su dati che su conoscenze pregresse.
32.10 Riflessioni Conclusive
La funzione di densità di probabilità (PDF) costituisce il fondamento per la descrizione delle variabili casuali continue, consentendo di associare le probabilità ad intervalli, tramite il calcolo dell’area sottesa alla curva. In questo contesto, la probabilità di osservare un valore esatto risulta zero, non per impossibilità dell’evento, ma perché in un insieme continuo ogni singolo punto contribuisce con un’area infinitesimale.
Il paradosso apparente, secondo cui la somma di infiniti contributi nulli porta a una probabilità totale positiva, si risolve grazie alla teoria dell’integrazione. Integrando i contributi infinitesimali lungo un intervallo, si ottiene una quantità finita che rappresenta la probabilità complessiva dell’evento. Un’interpretazione alternativa, fornita dalla teoria degli infinitesimi di Abraham Robinson, consente di attribuire a tali eventi probabilità infinitesimali, distinguendo tra diverse “grandezze” e chiarendo ulteriormente il processo di aggregazione verso un valore unitario.
Nel campo della data science, le distribuzioni di probabilità—formalmente rappresentate da \(p(x)\)—sono strumenti indispensabili per modellare la variabilità osservabile in una popolazione. Queste distribuzioni non mirano a riprodurre in maniera dettagliata ogni aspetto della realtà, ma offrono un modello semplificato che consente di generalizzare i dati osservati e di formulare previsioni rigorose sui fenomeni futuri. In altre parole, \(p(x)\) non rappresenta la popolazione nel suo complesso, bensì un’astrazione matematica che cattura l’incertezza e la variabilità del fenomeno studiato.
Infine, la PDF si pone come un ponte concettuale tra il discreto e il continuo, collegando la dimensione finita degli esperimenti alla struttura infinita degli spazi di probabilità. Comprendere questa struttura non solo risolve problemi tecnici, ma arricchisce anche l’intuizione sui meccanismi sottostanti alla teoria della probabilità e alla matematica continua.
32.11 Esercizi
Esercizio 1: Variabili Casuali Discrete e Continue
Utilizzando i dati raccolti sulla Satisfaction with Life Scale (SWLS) e sulla Scala della Rete Sociale di Lubben a 6 item (LSNS-6), classifica le seguenti variabili come discrete o continue:
- Il punteggio totale della SWLS.
- Il numero di amici con cui uno studente si sente a proprio agio nel parlare di questioni personali.
- Il tempo (in minuti) che uno studente trascorre con amici durante una settimana.
- Il numero di volte che uno studente ha contattato un parente nell’ultimo mese.
- Il livello di soddisfazione della vita misurato su una scala da 1 a 7.
Spiega il motivo della tua classificazione per ciascuna variabile.
Esercizio 2: Distribuzioni di Probabilità Discrete
Consideriamo la distribuzione del numero di amici con cui uno studente si sente a proprio agio nel parlare di questioni personali, misurata attraverso la LSNS-6. Supponiamo che la distribuzione sia la seguente (ma nell’esercizio usa le frequenze relative trovate nel campione di dati raccolto):
Numero di amici | Probabilità |
---|---|
0 | 0.05 |
1 | 0.15 |
2 | 0.25 |
3 | 0.30 |
4 | 0.15 |
5 | 0.10 |
- Verifica che questa sia una distribuzione di probabilità valida.
- Qual è la probabilità che uno studente abbia almeno 3 amici con cui si sente a proprio agio nel parlare di questioni personali?
- Qual è la probabilità che abbia meno di 2 amici?
- Calcola il valore atteso (media) e la varianza di questa distribuzione.
Esercizio 3: Distribuzioni di Probabilità Continue
Il punteggio totale della SWLS può essere approssimato da una distribuzione normale con media 20 e deviazione standard 5.
- Qual è la probabilità che un individuo scelto a caso abbia un punteggio superiore a 25?
- Qual è la probabilità che un individuo abbia un punteggio compreso tra 15 e 25?
- Qual è il valore del punteggio che delimita il 10% superiore della distribuzione?
(Suggerimento: utilizza la funzione di ripartizione della distribuzione normale standard per calcolare queste probabilità.)
Esercizio 4: Legge della Probabilità Totale
Si sa che il 60% degli studenti proviene da un ambiente con un forte supporto sociale, mentre il 40% ha un supporto sociale limitato. Inoltre, si sa che: - La probabilità che uno studente con forte supporto sociale abbia un punteggio SWLS superiore a 20 è 0.75. - La probabilità che uno studente con supporto sociale limitato abbia un punteggio SWLS superiore a 20 è 0.50.
Qual è la probabilità che uno studente scelto a caso abbia un punteggio SWLS superiore a 20?
Esercizio 5: Teorema di Bayes e Supporto Sociale
Riprendendo l’esercizio precedente, calcola la probabilità che uno studente provenga da un ambiente con forte supporto sociale dato che il suo punteggio SWLS è superiore a 20.
Esercizio 1: Variabili Casuali Discrete e Continue
Utilizzando i dati raccolti sulla Satisfaction with Life Scale (SWLS) e sulla Scala della Rete Sociale di Lubben a 6 item (LSNS-6), classifica le seguenti variabili come discrete o continue:
- Il punteggio totale della SWLS. (Continuo)
- Il numero di amici con cui uno studente si sente a proprio agio nel parlare di questioni personali. (Discreto)
- Il tempo (in minuti) che uno studente trascorre con amici durante una settimana. (Continuo)
- Il numero di volte che uno studente ha contattato un parente nell’ultimo mese. (Discreto)
- Il livello di soddisfazione della vita misurato su una scala da 1 a 7. (Discreto)
Esercizio 2: Distribuzioni di Probabilità Discrete
Consideriamo la distribuzione del numero di amici con cui uno studente si sente a proprio agio nel parlare di questioni personali, misurata attraverso la LSNS-6. Supponiamo che la distribuzione sia la seguente:
Numero di amici | Probabilità |
---|---|
0 | 0.05 |
1 | 0.15 |
2 | 0.25 |
3 | 0.30 |
4 | 0.15 |
5 | 0.10 |
-
Verifica della distribuzione: La somma delle probabilità deve essere 1:
\[ 0.05 + 0.15 + 0.25 + 0.30 + 0.15 + 0.10 = 1.00 \]
Poiché la somma è 1, la distribuzione è valida.
-
Probabilità di almeno 3 amici:
\[ P(X \geq 3) = P(3) + P(4) + P(5) = 0.30 + 0.15 + 0.10 = 0.55 \]
-
Probabilità di meno di 2 amici:
\[ P(X < 2) = P(0) + P(1) = 0.05 + 0.15 = 0.20 \]
-
Valore atteso e varianza:
\[ E(X) = \sum x P(x) = (0 \times 0.05) + (1 \times 0.15) + (2 \times 0.25) + (3 \times 0.30) + (4 \times 0.15) + (5 \times 0.10) = 2.65 \]
\[ Var(X) = E(X^2) - (E(X))^2 \]
\[ E(X^2) = (0^2 \times 0.05) + (1^2 \times 0.15) + (2^2 \times 0.25) + (3^2 \times 0.30) + (4^2 \times 0.15) + (5^2 \times 0.10) = 8.05 \]
\[ Var(X) = 8.05 - (2.65)^2 = 1.06 \]
Esercizio 3: Distribuzioni di Probabilità Continue
Il punteggio totale della SWLS può essere approssimato da una distribuzione normale con media 20 e deviazione standard 5.
-
Probabilità che il punteggio sia superiore a 25:
\[ P(X > 25) = 1 - P(X \leq 25) \]
Standardizziamo:
\[ Z = \frac{25 - 20}{5} = 1 \]
Usando le tabelle della distribuzione normale:
\[ P(Z \leq 1) = 0.8413 \Rightarrow P(X > 25) = 1 - 0.8413 = 0.1587 \]
-
Probabilità che il punteggio sia tra 15 e 25:
\[ P(15 \leq X \leq 25) = P(Z \leq 1) - P(Z \leq -1) \]
\[ = 0.8413 - 0.1587 = 0.6826 \]
-
Percentile 90 della distribuzione:
Il valore di Z per il 90% è 1.28.
\[ X = 20 + (1.28 \times 5) = 26.4 \]
Esercizio 4: Legge della Probabilità Totale
\[ P(SWLS > 20) = P(SWLS > 20 | S) P(S) + P(SWLS > 20 | \neg S) P(\neg S) \]
\[ = (0.75 \times 0.60) + (0.50 \times 0.40) \]
\[ = 0.45 + 0.20 = 0.65 \]
Esercizio 5: Teorema di Bayes e Supporto Sociale
\[ P(S | SWLS > 20) = \frac{P(SWLS > 20 | S) P(S)}{P(SWLS > 20)} \]
\[ = \frac{(0.75 \times 0.60)}{0.65} \]
\[ = \frac{0.45}{0.65} = 0.6923 \]
Quindi, la probabilità che uno studente provenga da un ambiente con forte supporto sociale dato che il suo punteggio SWLS è superiore a 20 è circa 69.2%.
Informazioni sull’Ambiente di Sviluppo
sessionInfo()
#> R version 4.4.2 (2024-10-31)
#> Platform: aarch64-apple-darwin20
#> Running under: macOS Sequoia 15.3.1
#>
#> Matrix products: default
#> BLAS: /Library/Frameworks/R.framework/Versions/4.4-arm64/Resources/lib/libRblas.0.dylib
#> LAPACK: /Library/Frameworks/R.framework/Versions/4.4-arm64/Resources/lib/libRlapack.dylib; LAPACK version 3.12.0
#>
#> locale:
#> [1] C/UTF-8/C/C/C/C
#>
#> time zone: Europe/Rome
#> tzcode source: internal
#>
#> attached base packages:
#> [1] stats graphics grDevices utils datasets methods base
#>
#> other attached packages:
#> [1] thematic_0.1.6 MetBrewer_0.2.0 ggokabeito_0.1.0 see_0.10.0
#> [5] gridExtra_2.3 patchwork_1.3.0 bayesplot_1.11.1 psych_2.4.12
#> [9] scales_1.3.0 markdown_1.13 knitr_1.49 lubridate_1.9.4
#> [13] forcats_1.0.0 stringr_1.5.1 dplyr_1.1.4 purrr_1.0.4
#> [17] readr_2.1.5 tidyr_1.3.1 tibble_3.2.1 ggplot2_3.5.1
#> [21] tidyverse_2.0.0 rio_1.2.3 here_1.0.1
#>
#> loaded via a namespace (and not attached):
#> [1] generics_0.1.3 stringi_1.8.4 lattice_0.22-6 hms_1.1.3
#> [5] digest_0.6.37 magrittr_2.0.3 evaluate_1.0.3 grid_4.4.2
#> [9] timechange_0.3.0 fastmap_1.2.0 rprojroot_2.0.4 jsonlite_1.9.1
#> [13] mnormt_2.1.1 cli_3.6.4 rlang_1.1.5 munsell_0.5.1
#> [17] withr_3.0.2 yaml_2.3.10 tools_4.4.2 parallel_4.4.2
#> [21] tzdb_0.4.0 colorspace_2.1-1 pacman_0.5.1 vctrs_0.6.5
#> [25] R6_2.6.1 lifecycle_1.0.4 htmlwidgets_1.6.4 pkgconfig_2.0.3
#> [29] pillar_1.10.1 gtable_0.3.6 glue_1.8.0 xfun_0.51
#> [33] tidyselect_1.2.1 rstudioapi_0.17.1 farver_2.1.2 htmltools_0.5.8.1
#> [37] nlme_3.1-167 labeling_0.4.3 rmarkdown_2.29 compiler_4.4.2