32 Distribuzioni di massa e di densità

In questo capitolo imparerai a

Distinguere la variabilità di variabili discrete e continue, comprendendone le implicazioni.
Differenziare tra massa di probabilità (distribuzioni discrete) e densità di probabilità (distribuzioni continue).
Comprendere perché, per una variabile continua, la probabilità di osservare un valore esatto è pari a zero.
Passare dall’uso degli istogrammi alle funzioni di densità di probabilità come rappresentazioni delle distribuzioni continue.
Utilizzare la funzione di ripartizione per calcolare le probabilità cumulative.

Prerequisiti

Leggere il capitolo Random variables and their distributions del testo di Blitzstein & Hwang (2019).

Preparazione del Notebook

here::here("code", "_common.R") |> 
  source()

32.1 Introduzione

Nel Capitolo 31 abbiamo introdotto il concetto di variabile casuale, distinguendo tra variabili casuali discrete e continue. Per le prime, abbiamo descritto formalmente come assegnare una distribuzione di massa di probabilità, mentre per le seconde abbiamo introdotto la nozione di funzione di densità di probabilità. Fino a questo punto, i concetti di distribuzione di massa e densità sono stati trattati in termini prevalentemente formali e matematici.

Lo scopo di questo capitolo è quello di approfondire queste idee, fornendo un’interpretazione più intuitiva e concreta di tali concetti. Attraverso esempi ed analisi pratiche, cercheremo di chiarire il significato sottostante alle distribuzioni di probabilità, rendendo più accessibili queste fondamentali strutture della teoria delle probabilità.

32.2 Variabili Casuali Discrete e Continue

Un elemento fondamentale nella comprensione delle distribuzioni di probabilità è la distinzione tra variabili casuali discrete e continue, poiché le distribuzioni di probabilità associate differiscono in modo sostanziale.

Variabili Casuali Discrete: assumono un numero finito o numerabile di valori. Ad esempio, il numero di successi in una serie di esperimenti o il risultato del lancio di un dado.
Variabili Casuali Continue: possono assumere un numero infinito di valori all’interno di un intervallo. Esempi includono il tempo di attesa per un evento o il quoziente intellettivo (QI) di una persona.

Questa distinzione è fondamentale perché le relative distribuzioni probabilistiche si comportano in modi diversi.

32.3 Distribuzioni di Probabilità Discrete

Le distribuzioni di probabilità discrete descrivono fenomeni aleatori con un numero finito o numerabile di esiti possibili. Queste distribuzioni sono rappresentate da una funzione di massa di probabilità (PMF), che assegna una probabilità a ciascun valore della variabile casuale.

Esempio 32.1 Consideriamo un dado sbilanciato con la seguente distribuzione di probabilità:

Valore di \(X\)	Probabilità \(p(x)\)
1	0.10
2	0.15
3	0.20
4	0.25
5	0.20
6	0.10

Questa tabella rappresenta la funzione di massa di probabilità (PMF).

Per visualizzare questa distribuzione, possiamo simulare 1000 lanci del dado e creare un diagramma a barre che rappresenta le frequenze relative osservate. In R:

# Dati
set.seed(123)
prob <- c(0.10, 0.15, 0.20, 0.25, 0.20, 0.10)
lanci <- sample(1:6, size = 1000, replace = TRUE, prob = prob)

# Creazione di un data frame
df <- data.frame(Valore = factor(lanci))

# Creazione del diagramma a barre
ggplot(df, aes(x = Valore)) +
  geom_bar(aes(y = after_stat(count) / sum(after_stat(count))), fill = "lightblue", color="black") +
  labs(
    title = "Distribuzione empirica dei lanci",
    x = "Valore",
    y = "Frequenza relativa"
  )

Quando il numero di lanci aumenta, le frequenze relative si avvicinano sempre più alle probabilità teoriche.

32.4 Distribuzioni di Probabilità Continue

Le distribuzioni di probabilità continue descrivono variabili casuali che possono assumere un numero infinito di valori in un intervallo. In questo caso, la probabilità è rappresentata da una funzione di densità di probabilità (PDF), che descrive la probabilità che la variabile assuma valori in un dato intervallo.

32.4.1 Probabilità come Area Sotto la Curva

Le distribuzioni continue sono descritte dalla funzione di densità di probabilità (PDF). Per una variabile casuale continua \(X\), la probabilità che \(X\) assuma un valore compreso tra \(a\) e \(b\) è data dall’area sotto la curva della PDF tra \(a\) e \(b\):

\[ P(a \leq X \leq b) = \int_a^b f(x) \, dx. \]

Esempio 32.2 Il quoziente intellettivo (QI) è spesso modellato come una variabile casuale continua con distribuzione normale, con media \(\mu = 100\) e deviazione standard \(\sigma = 15\). Possiamo simulare questa distribuzione e confrontare l’istogramma dei dati con la PDF teorica.

Simulazione con 50 osservazioni.

# Parametri della distribuzione normale
mu <- 100
sigma <- 15
size <- 50

# Generare i dati
set.seed(123)
x <- rnorm(size, mean = mu, sd = sigma)

# Istogramma e densità
data_frame <- data.frame(X = x)
xmin <- min(x)
xmax <- max(x)
density_data <- data.frame(
  X = seq(xmin, xmax, length.out = 100),
  Density = dnorm(seq(xmin, xmax, length.out = 100), mean = mu, sd = sigma)
)

ggplot(data_frame, aes(x = X)) +
  geom_histogram(
    aes(y = after_stat(density)),
    bins = 25,
    fill = "lightblue", color = "black"
  ) +
  geom_line(
    data = density_data,
    aes(x = X, y = Density),
    color = "black",
    size = 1
  ) +
  labs(
    title = "Distribuzione del QI (50 osservazioni)",
    x = "Valori del QI",
    y = "Densità"
  )

Con un campione piccolo, l’istogramma non corrisponde perfettamente alla PDF teorica. Tuttavia, aumentando il numero di osservazioni, l’approssimazione migliora.

Simulazione con 20000 osservazioni.

# Generare un campione più grande
size <- 20000
set.seed(123)
x <- rnorm(size, mean = mu, sd = sigma)

# Aggiornare media e deviazione standard
mu <- mean(x)
sigma <- sd(x)

# Creare il grafico
data_frame <- data.frame(X = x)
xmin <- min(x)
xmax <- max(x)
density_data <- data.frame(
  X = seq(xmin, xmax, length.out = 100),
  Density = dnorm(seq(xmin, xmax, length.out = 100), mean = mu, sd = sigma)
)

ggplot(data_frame, aes(x = X)) +
  geom_histogram(
    aes(y = after_stat(density)),
    bins = 25,
    fill = "lightblue",
    color = "black"
  ) +
  geom_line(
    data = density_data,
    aes(x = X, y = Density),
    color = "black",
    size = 1
  ) +
  labs(
    title = sprintf("Distribuzione del QI (%d osservazioni)", size),
    x = "Valori del QI",
    y = "Densità"
  )

Con un campione di grandi dimensioni, l’istogramma riflette molto meglio la PDF teorica.

32.5 Interpretazione della Funzione di Densità

La funzione di densità di probabilità (PDF) rappresenta un’astrazione continua dell’istogramma. Quando il numero di osservazioni tende a infinito e la larghezza degli intervalli tende a zero, il profilo dell’istogramma si avvicina alla PDF.

32.5.1 Proprietà della PDF

Area Totale: L’area totale sotto la curva della PDF è uguale a 1, poiché rappresenta la probabilità totale.
Probabilità per Intervalli: La probabilità che la variabile assuma un valore in un intervallo \([a, b]\) è data dall’area sotto la curva tra \(a\) e \(b\).
Probabilità per Singoli Valori: Per una variabile continua, la probabilità di un singolo valore è sempre zero, poiché corrisponde all’area sotto la curva in un punto.

32.6 Parametri delle Distribuzioni di Probabilità

Le distribuzioni di probabilità, sia discrete che continue, sono definite da parametri che ne determinano le proprietà fondamentali. Questi parametri consentono di adattare il modello probabilistico ai dati osservati.

32.6.1 Proprietà Influenzate dai Parametri

Posizione (Tendenza Centrale): Indica il valore attorno al quale si concentra la distribuzione. Ad esempio, nella distribuzione normale, la media (\(\mu\)) rappresenta il centro della distribuzione.
Dispersione: Misura quanto i valori della distribuzione si allontanano dalla posizione centrale. Nella distribuzione normale, la deviazione standard (\(\sigma\)) controlla la larghezza della curva.
Forma: Determina l’asimmetria o la curtosi della distribuzione. Alcune distribuzioni, come quella gamma o beta, hanno parametri specifici per regolare la forma.

32.7 Il Paradosso delle Variabili Casuali Continue

Un aspetto controintuitivo delle variabili casuali continue è che la probabilità di osservare esattamente un determinato valore è sempre pari a zero. Per esempio, se consideriamo una variabile continua che rappresenta l’altezza di una persona, la probabilità che l’altezza sia esattamente 170 cm è espressa da

\[ P(X = 170) = 0. \]

Perché accade questo? La risposta sta nel concetto di “esattezza”. Se riscriviamo 170 cm come 170.00000000000000000000000000000000000 cm (con infiniti decimali), diventa chiaro che stiamo cercando un singolo punto in un continuum infinito.

Questo non significa che l’evento sia impossibile, ma che nelle variabili continue la probabilità ha senso solo se riferita a intervalli di valori. Infatti, se sommiamo infinite probabilità diverse da zero, supereremmo 1, cosa impossibile.

32.7.1 Due Implicazioni Importanti

Questo modo di definire la probabilità nelle variabili continue comporta due implicazioni chiave:

Calcolo della probabilità su intervalli:
Nelle variabili continue, le probabilità si calcolano solo su intervalli (es.: tra 169.5 cm e 170.5 cm). Questo perché, se ogni singolo valore avesse probabilità > 0, la somma di infiniti valori supererebbe 1 (il che è impossibile).
Eventi con probabilità zero:
Il fatto che un evento (ad esempio, \(X = 170\)) abbia probabilità zero non implica che l’evento sia impossibile. È come cercare un granello di sabbia specifico su una spiaggia infinita: tecnicamente possibile, ma praticamente improbabile.

32.7.2 Il Paradosso della Probabilità Zero

Questo ragionamento porta a un apparente paradosso: se la probabilità che l’altezza di una persona sia esattamente 170 è zero, come possiamo mai osservare un valore specifico, come 170 (o un qualsiasi altro valore), nella realtà?

Una metafora utile per comprendere questo fenomeno è data dal celebre paradosso di Zenone della freccia. Nel paradosso, si sostiene che, in ogni istante, la freccia sia immobile, e dunque non si dovrebbe mai muovere. Analogamente, ogni singolo valore (es.: 170 cm) ha probabilità zero, ma l’insieme di infiniti valori in un intervallo crea un’area sotto la curva (probabilità) misurabile.

32.7.3 La Prospettiva degli Infinitesimi

Negli anni ’60, il matematico Abraham Robinson sviluppò una teoria matematica rigorosa degli infinitesimi, ovvero numeri infinitamente piccoli, diversi da zero. In questo quadro, possiamo reinterpretare la probabilità dei singoli punti nel seguente modo:

Probabilità infinitesimale:
Un singolo valore puntuale non ha probabilità strettamente zero, bensì infinitamente piccola (un infinitesimo). Pur essendo praticamente indistinguibile da zero nella teoria classica, l’aggregazione (tramite integrazione) di infiniti eventi con probabilità infinitesimali può produrre un valore di probabilità finito e positivo per un intervallo. In altre parole, infiniti punti infinitamente piccoli sommati insieme generano un intervallo di probabilità misurabile e significativa.

In conclusione, il cosiddetto “paradosso della probabilità zero” non rappresenta un vero paradosso, ma evidenzia piuttosto i limiti delle nostre intuizioni quando affrontiamo concetti inerenti variabili continue. La chiave per la comprensione risiede nella distinzione tra il contributo di un singolo punto (infinitesimale o zero, nell’analisi classica) e l’area complessiva calcolata mediante l’integrazione.

32.8 La Funzione di Ripartizione per una Variabile Casuale Continua

La funzione di ripartizione, nota anche come distribuzione cumulativa, è uno strumento fondamentale per descrivere il comportamento di una variabile casuale, sia essa discreta o continua. Per una variabile casuale continua \(\Theta\), la funzione di ripartizione \(F_{\Theta}(\theta)\) è definita come:

\[ F_{\Theta}(\theta) = P(\Theta \leq \theta). \]

In altre parole, \(F_{\Theta}(\theta)\) rappresenta la probabilità che la variabile \(\Theta\) assuma un valore minore o uguale a \(\theta\). Questa definizione è identica a quella utilizzata per le variabili casuali discrete, ma nel caso continuo assume un significato particolare a causa della natura continua della variabile.

32.8.1 Proprietà della Funzione di Ripartizione

La funzione di ripartizione per una variabile casuale continua gode di alcune proprietà importanti:

Monotonicità Crescente: \(F_{\Theta}(\theta)\) è una funzione non decrescente. Ciò significa che, all’aumentare di \(\theta\), la probabilità \(P(\Theta \leq \theta)\) non diminuisce.
Limiti agli Estremi:
- Quando \(\theta \to -\infty\), \(F_{\Theta}(\theta) \to 0\).
- Quando \(\theta \to +\infty\), \(F_{\Theta}(\theta) \to 1\).
Continuità: Per una variabile casuale continua, \(F_{\Theta}(\theta)\) è una funzione continua. Questo differisce dal caso discreto, dove la funzione di ripartizione è a gradini.

32.8.2 Calcolo delle Probabilità per Intervalli

Una delle applicazioni più utili della funzione di ripartizione è il calcolo della probabilità che la variabile casuale \(\Theta\) assuma valori all’interno di un intervallo specifico. Dati due valori \(\theta_1\) e \(\theta_2\) (con \(\theta_1 < \theta_2\)), la probabilità che \(\Theta\) sia compreso tra \(\theta_1\) e \(\theta_2\) è data da:

\[ P(\theta_1 < \Theta \leq \theta_2) = F_{\Theta}(\theta_2) - F_{\Theta}(\theta_1). \]

Questa formula è particolarmente utile perché, nel caso delle variabili continue, la probabilità di un singolo punto è sempre zero. Pertanto, per calcolare probabilità significative, è necessario considerare intervalli di valori.

32.8.3 Relazione con la Funzione di Densità di Probabilità (PDF)

La funzione di ripartizione è strettamente legata alla funzione di densità di probabilità (PDF), \(f(\theta)\). Mentre la PDF descrive la densità di probabilità in ogni punto, la funzione di ripartizione rappresenta l’area sotto la curva della PDF fino a un certo valore \(\theta\). Formalmente, la funzione di ripartizione si ottiene integrando la PDF:

\[ F_{\Theta}(\theta) = \int_{-\infty}^{\theta} f(t) \, dt. \]

Questa relazione evidenzia come la funzione di ripartizione sia una rappresentazione cumulativa della probabilità, ottenuta sommando (o integrando) i contributi della densità di probabilità fino al valore \(\theta\).

Esempio 32.3 Consideriamo una variabile casuale \(\Theta\) con distribuzione normale standard (media \(\mu = 0\) e deviazione standard \(\sigma = 1\)). La PDF è data da:

\[ f(\theta) = \frac{1}{\sqrt{2\pi}} e^{-\theta^2 / 2}. \]

La funzione di ripartizione \(F_{\Theta}(\theta)\) è l’integrale di questa funzione da \(-\infty\) a \(\theta\):

\[ F_{\Theta}(\theta) = \int_{-\infty}^{\theta} \frac{1}{\sqrt{2\pi}} e^{-t^2 / 2} \, dt. \]

Questa funzione non ha una forma chiusa semplice, ma può essere calcolata numericamente o consultata in tabelle statistiche. Ad esempio, per \(\theta = 1\), \(F_{\Theta}(1) \approx 0.8413\), il che significa che la probabilità che \(\Theta\) sia minore o uguale a 1 è circa l’84.13%.

32.8.4 Interpretazione Grafica

Graficamente, la funzione di ripartizione rappresenta l’area sotto la curva della PDF a sinistra del valore \(\theta\). Ad esempio, se consideriamo la distribuzione normale standard:

Per \(\theta = 0\), \(F_{\Theta}(0) = 0.5\), poiché la media della distribuzione è 0 e la curva è simmetrica.
Per \(\theta = 1\), \(F_{\Theta}(1) \approx 0.8413\), come visto sopra.
Per \(\theta = -1\), \(F_{\Theta}(-1) \approx 0.1587\), poiché la coda sinistra della distribuzione contiene il 15.87% della probabilità.

# Definisci i parametri della distribuzione normale standard
mu <- 0
sigma <- 1

# Definisci i valori di theta
theta_values <- c(-1, 0, 1)

# Crea un data frame per la PDF e la CDF
x <- seq(-4, 4, length.out = 1000)  # Valori sull'asse x
pdf_values <- dnorm(x, mean = mu, sd = sigma)  # Valori della PDF
cdf_values <- pnorm(x, mean = mu, sd = sigma)  # Valori della CDF

data <- data.frame(x = x, PDF = pdf_values, CDF = cdf_values)

# Crea il grafico
ggplot(data, aes(x = x)) +
  # Plot della PDF
  geom_line(aes(y = PDF), color = "blue", linewidth = 1) +
  # Aggiungi aree sotto la PDF per i valori di theta
  geom_area(data = subset(data, x <= theta_values[1]), aes(y = PDF), fill = "red", alpha = 0.5) +
  geom_area(data = subset(data, x <= theta_values[2]), aes(y = PDF), fill = "green", alpha = 0.5) +
  geom_area(data = subset(data, x <= theta_values[3]), aes(y = PDF), fill = "purple", alpha = 0.5) +
  # Plot della CDF
  geom_line(aes(y = CDF), color = "black", linewidth = 1, linetype = "dashed") +
  # Aggiungi linee verticali per i valori di theta
  geom_vline(xintercept = theta_values, color = "gray", linetype = "dotted") +
  # Aggiungi annotazioni per i valori di theta
  annotate("text", x = theta_values[1], y = 0, label = paste("θ =", theta_values[1]), vjust = 2, hjust = 1.2, color = "red") +
  annotate("text", x = theta_values[2], y = 0, label = paste("θ =", theta_values[2]), vjust = 2, hjust = 1.2, color = "green") +
  annotate("text", x = theta_values[3], y = 0, label = paste("θ =", theta_values[3]), vjust = 2, hjust = -0.2, color = "purple") +
  # Aggiungi titoli e etichette
  labs(
    title = "Funzione di Densità di Probabilità (PDF) e\nFunzione di Ripartizione (CDF)",
    subtitle = "Distribuzione Normale Standard",
    x = "Valori di θ",
    y = "Densità / Probabilità Cumulativa"
  )

In conclusione, la funzione di ripartizione è uno strumento essenziale per comprendere e lavorare con variabili casuali continue. Essa non solo fornisce una rappresentazione cumulativa della probabilità, ma permette anche di calcolare probabilità per intervalli e di collegare la PDF alla distribuzione complessiva della variabile. Attraverso la sua relazione con la PDF, la funzione di ripartizione offre un ponte tra la descrizione locale (densità) e quella globale (probabilità cumulativa) di una variabile casuale continua.

32.9 Interpretazioni Bayesiana e Frequentista della PDF

In questo capitolo, abbiamo introdotto la funzione di densità di probabilità come limite del profilo di un istogramma, una descrizione intuitiva e utile per comprendere il concetto di densità. Questa interpretazione corrisponde, tuttavia, alla visione frequentista della densità di probabilità. Nella statistica Bayesiana, l’interpretazione è diversa e merita una spiegazione separata.

32.9.1 Interpretazione Frequentista

Concetto di ripetizione degli esperimenti:

Idea di frequenza relativa:
Nel paradigma frequentista la probabilità è intesa come il limite della frequenza relativa di un evento ottenuto al ripetere un esperimento un numero molto elevato di volte. Immaginiamo di eseguire un esperimento molte volte, ad ogni ripetizione si ottiene un valore di \(x\). Se costruiamo un istogramma di questi valori, questo istogramma diventa sempre più “liscio” man mano che il numero delle ripetizioni aumenta, fino a convergere alla PDF \(p(x)\).
PDF come istogramma limite:
La PDF rappresenta la distribuzione dei valori osservati in una serie di ripetizioni dell’esperimento. In altre parole, essa descrive quanto frequentemente, in una ipotetica serie infinita di esperimenti, il valore \(x\) assume un determinato intervallo.
Esempio intuitivo:
Se misuriamo l’altezza degli individui in una popolazione, nel contesto frequentista, la PDF ci dice quale frazione di individui cade in un certo intervallo di altezza se potessimo misurare ogni possibile individuo (o eseguire ripetutamente misurazioni indipendenti in una popolazione “ideale”).

32.9.2 Interpretazione Bayesiana

Concetto di incertezza e credenza:

Parametro come variabile casuale:
In statistica bayesiana, i parametri non sono visti come quantità fisse, ma come incerti. Si assume che ogni parametro (o dato osservato) abbia una propria distribuzione che riflette la nostra incertezza su di esso.
- Ad esempio, se stiamo stimando un parametro \(\theta\) (ad esempio la media di una distribuzione), in un approccio bayesiano attribuiamo a \(\theta\) una distribuzione di probabilità che esprime quanto sia plausibile ciascun valore di \(\theta\), dati i dati osservati e le nostre conoscenze pregresse.
PDF come distribuzione di credenze:
La PDF, in questo contesto, non descrive una frequenza relativa osservabile sperimentalmente (perché l’esperimento non viene ripetuto infinite volte, o perché \(x\) è un valore fisso ma incerto), ma esprime il grado di fiducia o la plausibilità che il valore “vero” di \(x\) (o di un parametro) si trovi in un certo intervallo.
- È come “spalmare” la nostra incertezza su tutti i valori possibili: la sfumatura lungo l’asse \(x\) rappresenta la distribuzione delle nostre credenze.
Analogia con la densità di materia:
Un’utile analogia è quella della densità di materia \(\rho(x)\) in meccanica classica: la densità non descrive la posizione precisa di ogni atomo, ma come la materia (o, in questo caso, la probabilità) è distribuita lungo l’asse \(x\). Allo stesso modo, in una PDF bayesiana, non sono i “valori di \(x\)” ad essere distribuiti (in termini di frequenza osservabile), ma è la nostra “incertezza” a essere distribuita sui possibili valori.
Esempio intuitivo:
Immagina di dover stimare la probabilità che una certa ipotesi sia vera, ad esempio la media dell’altezza in una popolazione. Invece di pensare a misurazioni ripetute, consideri il valore medio come fisso ma incerto. La PDF bayesiana esprime il grado di credenza per ciascun possibile valore della media, in base ai dati raccolti e alle informazioni a priori.

32.9.3 Confronto

Frequentista:
- Focus: Distribuzione dei dati.
- Interpretazione: La PDF descrive come i valori di \(x\) sarebbero distribuiti se ripetessimo l’esperimento infinite volte.
- Esempio: L’istogramma dei dati osservati in una lunga serie di esperimenti.
Bayesiano:
- Focus: Distribuzione della nostra incertezza o credenza.
- Interpretazione: La PDF riflette quanto sia plausibile ciascun valore di \(x\) (o di un parametro) dato l’informazione disponibile, senza necessità di ripetere l’esperimento.
- Esempio: La distribuzione a posteriori di un parametro dopo aver combinato dati osservati e informazioni a priori.

Figura 32.1: Interpretazioni frequentista e bayesiana di una PDF (curva blu) per una quantità reale \(x\). A sinistra: interpretazione frequentista come istogramma limite dei valori di \(x\) nelle ripetizioni; i valori di \(x\) sono distribuiti secondo la PDF. A destra: interpretazione bayesiana, con \(x\) che assume un valore fisso ma incerto per il caso specifico (rappresentato dal punto sull’asse \(x\)), con la probabilità distribuita sui valori possibili (raffigurata con una sfumatura lungo l’asse \(x\)). (Figura tratta da Loredo & Wolpert, 2024)

In sintesi, questa distinzione tra interpretazioni non è solo una questione di semantica, ma ha implicazioni pratiche nella formulazione di modelli statistici e nell’interpretazione dei risultati. Mentre l’approccio frequentista è spesso utilizzato quando si può concettualmente pensare a ripetizioni infinite dell’esperimento, l’approccio bayesiano è particolarmente utile quando si vuole esprimere e aggiornare la propria incertezza su una quantità basandosi sia su dati che su conoscenze pregresse.

32.10 Riflessioni Conclusive

La funzione di densità di probabilità (PDF) costituisce il fondamento per la descrizione delle variabili casuali continue, consentendo di associare le probabilità ad intervalli, tramite il calcolo dell’area sottesa alla curva. In questo contesto, la probabilità di osservare un valore esatto risulta zero, non per impossibilità dell’evento, ma perché in un insieme continuo ogni singolo punto contribuisce con un’area infinitesimale.

Il paradosso apparente, secondo cui la somma di infiniti contributi nulli porta a una probabilità totale positiva, si risolve grazie alla teoria dell’integrazione. Integrando i contributi infinitesimali lungo un intervallo, si ottiene una quantità finita che rappresenta la probabilità complessiva dell’evento. Un’interpretazione alternativa, fornita dalla teoria degli infinitesimi di Abraham Robinson, consente di attribuire a tali eventi probabilità infinitesimali, distinguendo tra diverse “grandezze” e chiarendo ulteriormente il processo di aggregazione verso un valore unitario.

Nel campo della data science, le distribuzioni di probabilità—formalmente rappresentate da \(p(x)\)—sono strumenti indispensabili per modellare la variabilità osservabile in una popolazione. Queste distribuzioni non mirano a riprodurre in maniera dettagliata ogni aspetto della realtà, ma offrono un modello semplificato che consente di generalizzare i dati osservati e di formulare previsioni rigorose sui fenomeni futuri. In altre parole, \(p(x)\) non rappresenta la popolazione nel suo complesso, bensì un’astrazione matematica che cattura l’incertezza e la variabilità del fenomeno studiato.

32.11 Esercizi

Esercizio

Esercizio 1: Variabili Casuali Discrete e Continue

Utilizzando i dati raccolti sulla Satisfaction with Life Scale (SWLS) e sulla Scala della Rete Sociale di Lubben a 6 item (LSNS-6), classifica le seguenti variabili come discrete o continue:

Il punteggio totale della SWLS.
Il numero di amici con cui uno studente si sente a proprio agio nel parlare di questioni personali.
Il tempo (in minuti) che uno studente trascorre con amici durante una settimana.
Il numero di volte che uno studente ha contattato un parente nell’ultimo mese.
Il livello di soddisfazione della vita misurato su una scala da 1 a 7.

Spiega il motivo della tua classificazione per ciascuna variabile.

Esercizio 2: Distribuzioni di Probabilità Discrete

Consideriamo la distribuzione del numero di amici con cui uno studente si sente a proprio agio nel parlare di questioni personali, misurata attraverso la LSNS-6. Supponiamo che la distribuzione sia la seguente (ma nell’esercizio usa le frequenze relative trovate nel campione di dati raccolto):

Numero di amici	Probabilità
0	0.05
1	0.15
2	0.25
3	0.30
4	0.15
5	0.10

Verifica che questa sia una distribuzione di probabilità valida.
Qual è la probabilità che uno studente abbia almeno 3 amici con cui si sente a proprio agio nel parlare di questioni personali?
Qual è la probabilità che abbia meno di 2 amici?
Calcola il valore atteso (media) e la varianza di questa distribuzione.

Esercizio 3: Distribuzioni di Probabilità Continue

Il punteggio totale della SWLS può essere approssimato da una distribuzione normale con media 20 e deviazione standard 5.

Qual è la probabilità che un individuo scelto a caso abbia un punteggio superiore a 25?
Qual è la probabilità che un individuo abbia un punteggio compreso tra 15 e 25?
Qual è il valore del punteggio che delimita il 10% superiore della distribuzione?

(Suggerimento: utilizza la funzione di ripartizione della distribuzione normale standard per calcolare queste probabilità.)

Esercizio 4: Legge della Probabilità Totale

Si sa che il 60% degli studenti proviene da un ambiente con un forte supporto sociale, mentre il 40% ha un supporto sociale limitato. Inoltre, si sa che: - La probabilità che uno studente con forte supporto sociale abbia un punteggio SWLS superiore a 20 è 0.75. - La probabilità che uno studente con supporto sociale limitato abbia un punteggio SWLS superiore a 20 è 0.50.

Qual è la probabilità che uno studente scelto a caso abbia un punteggio SWLS superiore a 20?

Esercizio 5: Teorema di Bayes e Supporto Sociale

Riprendendo l’esercizio precedente, calcola la probabilità che uno studente provenga da un ambiente con forte supporto sociale dato che il suo punteggio SWLS è superiore a 20.

Soluzioni

Esercizio 1: Variabili Casuali Discrete e Continue

Il punteggio totale della SWLS. (Continuo)
Il numero di amici con cui uno studente si sente a proprio agio nel parlare di questioni personali. (Discreto)
Il tempo (in minuti) che uno studente trascorre con amici durante una settimana. (Continuo)
Il numero di volte che uno studente ha contattato un parente nell’ultimo mese. (Discreto)
Il livello di soddisfazione della vita misurato su una scala da 1 a 7. (Discreto)

Esercizio 2: Distribuzioni di Probabilità Discrete

Numero di amici	Probabilità
0	0.05
1	0.15
2	0.25
3	0.30
4	0.15
5	0.10

Verifica della distribuzione: La somma delle probabilità deve essere 1:

\[ 0.05 + 0.15 + 0.25 + 0.30 + 0.15 + 0.10 = 1.00 \]

Poiché la somma è 1, la distribuzione è valida.
Probabilità di almeno 3 amici:

\[ P(X \geq 3) = P(3) + P(4) + P(5) = 0.30 + 0.15 + 0.10 = 0.55 \]
Probabilità di meno di 2 amici:

\[ P(X < 2) = P(0) + P(1) = 0.05 + 0.15 = 0.20 \]
Valore atteso e varianza:

\[ E(X) = \sum x P(x) = (0 \times 0.05) + (1 \times 0.15) + (2 \times 0.25) + (3 \times 0.30) + (4 \times 0.15) + (5 \times 0.10) = 2.65 \]

\[ Var(X) = E(X^2) - (E(X))^2 \]

\[ E(X^2) = (0^2 \times 0.05) + (1^2 \times 0.15) + (2^2 \times 0.25) + (3^2 \times 0.30) + (4^2 \times 0.15) + (5^2 \times 0.10) = 8.05 \]

\[ Var(X) = 8.05 - (2.65)^2 = 1.06 \]

Esercizio 3: Distribuzioni di Probabilità Continue

Il punteggio totale della SWLS può essere approssimato da una distribuzione normale con media 20 e deviazione standard 5.

Probabilità che il punteggio sia superiore a 25:

\[ P(X > 25) = 1 - P(X \leq 25) \]

Standardizziamo:

\[ Z = \frac{25 - 20}{5} = 1 \]

Usando le tabelle della distribuzione normale:

\[ P(Z \leq 1) = 0.8413 \Rightarrow P(X > 25) = 1 - 0.8413 = 0.1587 \]
Probabilità che il punteggio sia tra 15 e 25:

\[ P(15 \leq X \leq 25) = P(Z \leq 1) - P(Z \leq -1) \]

\[ = 0.8413 - 0.1587 = 0.6826 \]
Percentile 90 della distribuzione:

Il valore di Z per il 90% è 1.28.

\[ X = 20 + (1.28 \times 5) = 26.4 \]

Esercizio 4: Legge della Probabilità Totale

\[ P(SWLS > 20) = P(SWLS > 20 | S) P(S) + P(SWLS > 20 | \neg S) P(\neg S) \]

\[ = (0.75 \times 0.60) + (0.50 \times 0.40) \]

\[ = 0.45 + 0.20 = 0.65 \]

Esercizio 5: Teorema di Bayes e Supporto Sociale

\[ P(S | SWLS > 20) = \frac{P(SWLS > 20 | S) P(S)}{P(SWLS > 20)} \]

\[ = \frac{(0.75 \times 0.60)}{0.65} \]

\[ = \frac{0.45}{0.65} = 0.6923 \]

Quindi, la probabilità che uno studente provenga da un ambiente con forte supporto sociale dato che il suo punteggio SWLS è superiore a 20 è circa 69.2%.

Informazioni sull’Ambiente di Sviluppo

sessionInfo()
#> R version 4.5.0 (2025-04-11)
#> Platform: aarch64-apple-darwin20
#> Running under: macOS Sequoia 15.5
#> 
#> Matrix products: default
#> BLAS:   /Library/Frameworks/R.framework/Versions/4.5-arm64/Resources/lib/libRblas.0.dylib 
#> LAPACK: /Library/Frameworks/R.framework/Versions/4.5-arm64/Resources/lib/libRlapack.dylib;  LAPACK version 3.12.1
#> 
#> locale:
#> [1] C/UTF-8/C/C/C/C
#> 
#> time zone: Europe/Rome
#> tzcode source: internal
#> 
#> attached base packages:
#> [1] stats     graphics  grDevices utils     datasets  methods   base     
#> 
#> other attached packages:
#>  [1] thematic_0.1.7   MetBrewer_0.2.0  ggokabeito_0.1.0 see_0.11.0      
#>  [5] gridExtra_2.3    patchwork_1.3.0  bayesplot_1.13.0 psych_2.5.3     
#>  [9] scales_1.4.0     markdown_2.0     knitr_1.50       lubridate_1.9.4 
#> [13] forcats_1.0.0    stringr_1.5.1    dplyr_1.1.4      purrr_1.0.4     
#> [17] readr_2.1.5      tidyr_1.3.1      tibble_3.3.0     ggplot2_3.5.2   
#> [21] tidyverse_2.0.0  rio_1.2.3        here_1.0.1      
#> 
#> loaded via a namespace (and not attached):
#>  [1] generics_0.1.4     stringi_1.8.7      lattice_0.22-7    
#>  [4] hms_1.1.3          digest_0.6.37      magrittr_2.0.3    
#>  [7] evaluate_1.0.4     grid_4.5.0         timechange_0.3.0  
#> [10] RColorBrewer_1.1-3 fastmap_1.2.0      rprojroot_2.0.4   
#> [13] jsonlite_2.0.0     mnormt_2.1.1       cli_3.6.5         
#> [16] rlang_1.1.6        withr_3.0.2        yaml_2.3.10       
#> [19] tools_4.5.0        parallel_4.5.0     tzdb_0.5.0        
#> [22] pacman_0.5.1       vctrs_0.6.5        R6_2.6.1          
#> [25] lifecycle_1.0.4    htmlwidgets_1.6.4  pkgconfig_2.0.3   
#> [28] pillar_1.10.2      gtable_0.3.6       glue_1.8.0        
#> [31] xfun_0.52          tidyselect_1.2.1   rstudioapi_0.17.1 
#> [34] farver_2.1.2       htmltools_0.5.8.1  nlme_3.1-168      
#> [37] labeling_0.4.3     rmarkdown_2.29     compiler_4.5.0

Bibliografia

Blitzstein, J. K., & Hwang, J. (2019). Introduction to probability. CRC Press.

Loredo, T. J., & Wolpert, R. L. (2024). Bayesian inference: more than Bayes’s theorem. Frontiers in Astronomy and Space Sciences, 11, 1326926.