33 Proprietà delle variabili casuali
33.1 Introduzione
È spesso molto utile sintetizzare la distribuzione di una variabile casuale attraverso indicatori caratteristici. Questi indicatori consentono di cogliere le principali proprietà della distribuzione, come la posizione centrale (ovvero il “baricentro”) e la variabilità (ossia la dispersione attorno al centro). In questo modo, è possibile ottenere una descrizione sintetica e significativa della distribuzione di probabilità della variabile casuale.
In questo capitolo, introdurremo i concetti fondamentali di valore atteso e varianza di una variabile casuale, che sono strumenti essenziali per comprendere e riassumere le proprietà di una distribuzione probabilistica.
33.2 Tendenza Centrale
Quando vogliamo comprendere il comportamento tipico di una variabile casuale, ci interessa spesso determinare il suo “valore tipico”. Tuttavia, questa nozione può essere interpretata in diversi modi:
- Media: La somma dei valori divisa per il numero dei valori.
- Mediana: Il valore centrale della distribuzione, quando i dati sono ordinati in senso crescente o decrescente.
- Moda: Il valore che si verifica con maggiore frequenza.
Ad esempio, per il set di valori \(\{3, 1, 4, 1, 5\}\), la media è \(\frac{3+1+4+1+5}{5} = 2.8\), la mediana è 3, e la moda è 1. Tuttavia, quando ci occupiamo di variabili casuali, anziché di semplici sequenze di numeri, diventa necessario chiarire cosa intendiamo per “valore tipico” in questo contesto. Questo ci porta alla definizione formale del valore atteso.
33.3 Valore Atteso
Definizione 33.1 Sia \(X\) una variabile casuale discreta che assume i valori \(x_1, \dots, x_n\) con probabilità \(P(X = x_i) = p(x_i)\). Il valore atteso di \(X\), denotato con \(\mathbb{E}(X)\), è definito come:
\[ \mathbb{E}(X) = \sum_{i=1}^n x_i \cdot p(x_i). \]
In altre parole, il valore atteso (noto anche come speranza matematica o aspettazione) di una variabile casuale è la somma di tutti i valori che la variabile può assumere, ciascuno ponderato dalla probabilità con cui esso si verifica.
Esempio 33.1 Calcoliamo il valore atteso della variabile casuale \(X\) corrispondente al lancio di una moneta equilibrata, dove testa corrisponde a \(X = 1\) e croce corrisponde a \(X = 0\):
\[ \mathbb{E}(X) = \sum_{i=1}^{2} x_i \cdot P(x_i) = 0 \cdot \frac{1}{2} + 1 \cdot \frac{1}{2} = 0.5. \]
Esempio 33.2 Calcoliamo il valore atteso della variabile casuale \(X\) che rappresenta la somma dei punti ottenuti dal lancio di due dadi equilibrati a sei facce.
La variabile casuale \(X\) può assumere i seguenti valori:
\[ \{2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12\}. \]
La probabilità associata a ciascun valore è data dalla distribuzione di massa di probabilità. Ad esempio, il valore \(X = 2\) si ottiene solo se entrambi i dadi mostrano 1, quindi ha probabilità:
\[ P(X = 2) = \frac{1}{36}. \]
Analogamente, \(X = 7\) può essere ottenuto con sei combinazioni diverse: (1,6), (2,5), (3,4), (4,3), (5,2), (6,1), quindi:
\[ P(X = 7) = \frac{6}{36}. \]
La distribuzione di massa di probabilità completa è:
\[ P(X) = \left\{\frac{1}{36}, \frac{2}{36}, \frac{3}{36}, \frac{4}{36}, \frac{5}{36}, \frac{6}{36}, \frac{5}{36}, \frac{4}{36}, \frac{3}{36}, \frac{2}{36}, \frac{1}{36}\right\}. \]
Il valore atteso \(\mathbb{E}[X]\) è definito come:
\[ \mathbb{E}[X] = \sum_{x} x \cdot P(X = x). \]
Applicando questa formula:
\[ \mathbb{E}[X] = 2 \cdot \frac{1}{36} + 3 \cdot \frac{2}{36} + 4 \cdot \frac{3}{36} + \cdots + 12 \cdot \frac{1}{36} = 7. \]
Ecco come calcolarlo utilizzando R:
Il risultato sarà: \[ \mathbb{E}[X] = 7. \]
Per rappresentare graficamente la distribuzione di massa di probabilità:
# Creazione di un data frame
dati <- data.frame(Valore = valori, Probabilità = prob)
# Plot
ggplot(dati, aes(x = Valore, y = Probabilità)) +
geom_col(fill = "lightblue") +
labs(
title = "Distribuzione di Massa di Probabilità per X",
x = "Valore della Somma (X)",
y = "Probabilità"
)
33.3.1 Interpretazione
Nel suo Ars conjectandi, Bernoulli introduce la nozione di valore atteso con le seguenti parole:
il termine “aspettativa” non deve essere inteso nel suo significato comune […], bensì come la speranza di ottenere il meglio diminuita dalla paura di ottenere il peggio. Pertanto, il valore della nostra aspettativa rappresenta sempre qualcosa di intermedio tra il meglio che possiamo sperare e il peggio che possiamo temere (Hacking, 2006).
In termini moderni, questa intuizione può essere rappresentata in modo più chiaro attraverso una simulazione. Possiamo affermare, infatti, che il valore atteso di una variabile casuale corrisponde alla media aritmetica di un gran numero di realizzazioni indipendenti della variabile stessa.
Per fare un esempio concreto, consideriamo nuovamente il caso del lancio di due dadi bilanciati a sei facce, dove la variabile casuale \(X\) rappresenta la “somma dei due dadi”. Simuliamo un numero elevato di realizzazioni indipendenti di \(X\).
L’istruzione sample(x, size = 1e6, replace = TRUE, prob = px))
utilizza R per generare un array di 1.000.000 di elementi (specificato dal parametro size
), selezionati casualmente dall’array x
secondo le probabilità specificate nell’array px
.
Quando il numero di realizzazioni indipendenti è sufficientemente grande, la media aritmetica dei campioni generati si avvicina al valore atteso della variabile casuale:
mean(x_samples)
#> [1] 6.998
Questo risultato conferma che il valore atteso \(\mathbb{E}[X] = 7\) rappresenta la somma media dei punti ottenuti nel lancio di due dadi equilibrati su un numero elevato di prove. Anche se ogni singola somma può variare tra 2 e 12, in media ci aspettiamo una somma di 7.
L’aspettativa può anche essere interpretata come un centro di massa. Immagina che delle masse puntiformi con pesi \(p_1, p_2, \dots, p_n\) siano posizionate alle posizioni \(x_1, x_2, \dots, x_n\) sulla retta reale. Il centro di massa—il punto in cui i pesi sono bilanciati—è dato da:
\[ \text{centro di massa} = x_1 p_1 + x_2 p_2 + \dots + x_n p_n, \]
che corrisponde esattamente all’aspettativa della variabile discreta \(X\), che assume valori \(x_1, \dots, x_n\) con probabilità \(p_1, \dots, p_n\). Una conseguenza ovvia di questa interpretazione è che, per una funzione di densità di probabilità (pdf) simmetrica, l’aspettativa coincide con il punto di simmetria (a patto che l’aspettativa esista).
33.3.2 Proprietà del Valore Atteso
Una delle proprietà più importanti del valore atteso è la sua linearità: il valore atteso della somma di due variabili casuali è uguale alla somma dei loro rispettivi valori attesi:
\[ \mathbb{E}(X + Y) = \mathbb{E}(X) + \mathbb{E}(Y). \tag{33.1}\]
Questa proprietà, espressa dalla formula sopra, è intuitiva quando \(X\) e \(Y\) sono variabili casuali indipendenti, ma è valida anche nel caso in cui \(X\) e \(Y\) siano correlate.
Inoltre, se moltiplichiamo una variabile casuale per una costante \(c\), il valore atteso del prodotto è uguale alla costante moltiplicata per il valore atteso della variabile casuale:
\[ \mathbb{E}(cY) = c \mathbb{E}(Y). \tag{33.2}\]
Questa proprietà ci dice che una costante può essere “estratta” dall’operatore di valore atteso, e si applica a qualunque numero di variabili casuali.
Un’altra proprietà significativa riguarda il prodotto di variabili casuali indipendenti. Se \(X\) e \(Y\) sono indipendenti, allora il valore atteso del loro prodotto è uguale al prodotto dei loro valori attesi:
\[ \mathbb{E}(XY) = \mathbb{E}(X) \mathbb{E}(Y). \tag{33.3}\]
Infine, consideriamo la media aritmetica \(\bar{X} = \frac{X_1 + \ldots + X_n}{n}\) di \(n\) variabili casuali indipendenti con la stessa distribuzione e con valore atteso \(\mu\). Il valore atteso della media aritmetica è:
\[ \mathbb{E}(\bar{X}) = \frac{1}{n} \left(\mathbb{E}(X_1) + \dots + \mathbb{E}(X_n)\right) = \frac{1}{n} \cdot n \cdot \mathbb{E}(X) = \mu. \]
Questo risultato conferma che la media aritmetica di un campione di variabili casuali indipendenti ha lo stesso valore atteso della distribuzione originaria, rendendo il valore atteso uno strumento cruciale per l’analisi statistica e probabilistica.
Esempio 33.3 Consideriamo il seguente esperimento casuale. Sia \(Y\) il numero che si ottiene dal lancio di un dado equilibrato a sei facce e \(Y\) il numero di teste prodotto dal lancio di una moneta equilibrata (0 oppure 1). Troviamo il valore atteso di \(X+Y\).
Per risolvere il problema iniziamo a costruire lo spazio campione dell’esperimento casuale.
\(x /\ y\) | 1 | 2 | 3 | 4 | 5 | 6 |
---|---|---|---|---|---|---|
0 | (0, 1) | (0, 2) | (0, 3) | (0, 4) | (0, 5) | (0, 6) |
1 | (1, 1) | (1, 2) | (1, 3) | (1, 4) | (1, 5) | (1, 6) |
ovvero
\(x /\ y\) | 1 | 2 | 3 | 4 | 5 | 6 |
---|---|---|---|---|---|---|
0 | 1 | 2 | 3 | 4 | 5 | 6 |
1 | 2 | 3 | 4 | 5 | 6 | 7 |
Il risultato del lancio del dado è indipendente dal risultato del lancio della moneta. Pertanto, ciascun evento elementare dello spazio campione avrà la stessa probabilità di verificarsi, ovvero \(P(\omega) = \frac{1}{12}\). Il valore atteso di \(X+Y\) è dunque uguale a:
\[ \mathbb{E}(X+Y) = 1 \cdot \frac{1}{12} + 2 \cdot \frac{1}{12} + \dots + 7 \cdot \frac{1}{12} = 4.0. \]
Si ottiene lo stesso risultato usando l’Equazione eq-prop-expval-linearity:
\[ \mathbb{E}(X+Y) = \mathbb{E}(X) + E(Y) = 3.5 + 0.5 = 4.0. \]
Esempio 33.4 Svolgiamo ora l’esercizio in R
coin <- 0:1 # Valori della moneta: testa (0) e croce (1)
die <- 1:6 # Valori del dado: da 1 a 6
# Creazione del campione come combinazione di valori (moneta, dado)
sample <- expand.grid(coin = coin, die = die)
print(sample)
#> coin die
#> 1 0 1
#> 2 1 1
#> 3 0 2
#> 4 1 2
#> 5 0 3
#> 6 1 3
#> 7 0 4
#> 8 1 4
#> 9 0 5
#> 10 1 5
#> 11 0 6
#> 12 1 6
px <- numeric() # Vettore per memorizzare le probabilità
for (i in 1:7) {
# Filtrare le combinazioni in cui la somma è uguale a 'i'
event <- subset(sample, coin + die == i)
# Calcolare la probabilità
prob <- nrow(event) / nrow(sample)
px <- c(px, prob)
# Stampare la probabilità
cat(sprintf("P(X + Y = %d) = %d / %d\n", i, nrow(event), nrow(sample)))
}
#> P(X + Y = 1) = 1 / 12
#> P(X + Y = 2) = 2 / 12
#> P(X + Y = 3) = 2 / 12
#> P(X + Y = 4) = 2 / 12
#> P(X + Y = 5) = 2 / 12
#> P(X + Y = 6) = 2 / 12
#> P(X + Y = 7) = 1 / 12
x <- 1:7 # Valori della variabile casuale (somma di moneta e dado)
expected_value <- sum(x * px)
expected_value
#> [1] 4
Esempio 33.5 Consideriamo le variabili casuali \(X\) e \(Y\) definite nel caso del lancio di tre monete equilibrate, dove \(X\) conta il numero delle teste nei tre lanci e \(Y\) conta il numero delle teste al primo lancio. Si calcoli il valore atteso di \(Z = X \cdot Y\).
La distribuzione di probabilità congiunta \(P(X, Y)\) è fornita nella tabella seguente.
\(x /\ y\) | 0 | 1 | \(p(Y)\) |
---|---|---|---|
0 | 1/8 | 0 | 1/8 |
1 | 2/8 | 1/8 | 3/8 |
2 | 1/8 | 2/8 | 3/8 |
3 | 0 | 1/8 | 1/8 |
\(p(y)\) | 4/8 | 4/8 | 1.0 |
Il calcolo del valore atteso di \(XY\) si riduce a
\[ \mathbb{E}(Z) = 1 \cdot \frac{1}{8} + 2 \cdot \frac{2}{8} + 3 \cdot \frac{1}{8} = 1.0. \]
Si noti che le variabili casuali \(Y\) e \(Y\) non sono indipendenti. Dunque non possiamo usare l’Equazione eq-expval-prod-ind-rv. Infatti, il valore atteso di \(X\) è
\[ \mathbb{E}(X) = 1 \cdot \frac{3}{8} + 2 \cdot \frac{3}{8} + 3 \cdot \frac{1}{8} = 1.5 \]
e il valore atteso di \(Y\) è
\[ \mathbb{E}(Y) = 0 \cdot \frac{4}{8} + 1 \cdot \frac{4}{8} = 0.5. \]
Perciò
\[ 1.5 \cdot 0.5 \neq 1.0. \]
33.3.3 Variabili casuali continue
Nel caso di una variabile casuale continua \(X\), il valore atteso è definito come:
\[ \mathbb{E}(X) = \int_{-\infty}^{+\infty} x \cdot p(x) \, \mathrm{d}x. \]
Anche in questo contesto, il valore atteso rappresenta una media ponderata dei valori di \(x\), dove ogni possibile valore di \(x\) è ponderato in base alla densità di probabilità \(p(x)\).
L’integrale può essere interpretato analogamente a una somma continua, in cui \(x\) rappresenta la posizione delle barre infinitamente strette di un istogramma, e \(p(x)\) rappresenta l’altezza di tali barre. La notazione \(\int_{-\infty}^{+\infty}\) indica che si sta sommando il contributo di ogni valore possibile di \(x\) lungo l’intero asse reale.
Questa interpretazione rende chiaro come l’integrale calcoli una somma ponderata che si estende su tutti i possibili valori di \(x\), fornendo una misura centrale della distribuzione della variabile casuale continua. Per ulteriori dettagli sulla notazione dell’integrale, si veda l’sec-calculus.
33.3.3.1 Moda
Un’altra misura di tendenza centrale delle variabili casuali continue è la moda. La moda di \(Y\) individua il valore \(y\) più plausibile, ovvero il valore \(y\) che massimizza la funzione di densità \(p(y)\):
\[ Mo(Y) = \text{argmax}_y p(y). \tag{33.4}\]
33.4 Varianza
Dopo il valore atteso, la seconda proprietà più importante di una variabile casuale è la varianza.
Definizione 33.2 Se \(X\) è una variabile casuale discreta con distribuzione \(p(x)\), la varianza di \(X\), denotata con \(\mathbb{V}(X)\), è definita come:
\[ \mathbb{V}(X) = \mathbb{E}\Big[\big(X - \mathbb{E}(X)\big)^2\Big]. \tag{33.5}\]
In altre parole, la varianza misura la deviazione media quadratica dei valori della variabile rispetto alla sua media. Se denotiamo il valore atteso di \(X\) con \(\mu = \mathbb{E}(X)\), la varianza \(\mathbb{V}(X)\) diventa il valore atteso di \((X - \mu)^2\).
33.4.1 Interpretazione della Varianza
La varianza rappresenta una misura della “dispersione” dei valori di \(X\) intorno al suo valore atteso. Quando calcoliamo la varianza, stiamo effettivamente misurando quanto i valori di \(X\) tendono a differire dalla media \(\mu\).
Per capire meglio, consideriamo la variabile casuale \(X - \mathbb{E}(X)\), detta scarto o deviazione dalla media. Questa variabile rappresenta le “distanze” tra i valori di \(X\) e il valore atteso \(\mathbb{E}(X)\). Tuttavia, poiché lo scarto può essere positivo o negativo, la media dello scarto è sempre zero, il che lo rende inadatto a quantificare la dispersione.
Per risolvere questo problema, eleviamo al quadrato gli scarti, ottenendo \((X - \mathbb{E}(X))^2\), che rende tutte le deviazioni positive. La varianza è quindi la media di questi scarti al quadrato, fornendo una misura efficace della dispersione complessiva dei valori di \(X\) rispetto alla sua media.
Questo concetto è fondamentale per comprendere la variabilità di una distribuzione e per applicare strumenti statistici che richiedono una conoscenza approfondita della distribuzione dei dati.
Esempio 33.6 Posta \(S\) uguale alla somma dei punti ottenuti nel lancio di due dadi equilibrati, si calcoli la varianza di \(S\).
La variabile casuale \(S\) ha la seguente distribuzione di probabilità:
\(s\) | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
---|---|---|---|---|---|---|---|---|---|---|---|
\(P(S = s)\) | \(\frac{1}{36}\) | \(\frac{2}{36}\) | \(\frac{3}{36}\) | \(\frac{4}{36}\) | \(\frac{5}{36}\) | \(\frac{6}{36}\) | \(\frac{5}{36}\) | \(\frac{4}{36}\) | \(\frac{3}{36}\) | \(\frac{2}{36}\) | \(\frac{1}{36}\) |
Essendo \(\mathbb{E}(S) = 7\), la varianza diventa
\[ \begin{aligned} \mathbb{V}(S) &= \sum \left(s - \mathbb{E}(S)\right)^2 \cdot P(s) \notag\\ &= (2 - 7)^2 \cdot \frac{1}{36} + (3-7)^2 \cdot \frac{3}{36} + \dots + (12 - 7)^2 \cdot \frac{1}{36} \notag\\ &= 5.8333.\notag \end{aligned} \]
Esempio 33.7 Svolgiamo l’esercizio in R
Applichiamo l’Equazione eq-def-var-rv:
# Calcolo della varianza utilizzando la definizione
variance <- sum((x - ex)^2 * px)
variance
#> [1] 5.833
Usiamo la funzione var()
di rv_discrete
:
# Calcolo della varianza con pesi
variance_check <- weighted.mean((x - ex)^2, w = px)
variance_check
#> [1] 5.833
33.4.2 Formula Alternativa per la Varianza
La varianza di una variabile casuale \(X\), indicata come \(\mathbb{V}(X)\), misura la dispersione dei valori attorno alla media. La definizione classica è:
\[ \mathbb{V}(X) = \mathbb{E}\Big[\big(X - \mathbb{E}(X)\big)^2\Big]. \]
Esiste però una formula alternativa che semplifica il calcolo.
Dimostrazione.
Espansione del quadrato
Consideriamo la varianza, definita come \(\mathbb{V}(X) = \mathbb{E}\big[(X - \mathbb{E}(X))^2\big]\).
Espandiamo il quadrato \((X - \mathbb{E}(X))^2\) utilizzando la regola \((a - b)^2 = a^2 - 2ab + b^2\): \[ (X - \mathbb{E}(X))^2 = X^2 - 2\,X\,\mathbb{E}(X) + \big(\mathbb{E}(X)\big)^2. \]Applicazione dell’aspettativa
Applichiamo \(\mathbb{E}[\cdot]\) a ciascun termine, ricordando che l’aspettativa è un operatore lineare: \[ \mathbb{E}\big[(X - \mathbb{E}(X))^2\big] = \mathbb{E}\big[X^2\big] \;-\; 2 \,\mathbb{E}\big[X\,\mathbb{E}(X)\big] \;+\; \mathbb{E}\big[\big(\mathbb{E}(X)\big)^2\big]. \]-
Gestione dei termini costanti
L’aspettativa \(\mathbb{E}(X)\) è una costante (indipendente da \(X\)). Indichiamola con \(\mu\). Quindi:- \(\mathbb{E}(X^2)\) resta com’è.
- \(\mathbb{E}[X \cdot \mu] = \mu \, \mathbb{E}[X] = \mu \cdot \mu = \mu^2\).
- \(\mathbb{E}\big(\mu^2\big) = \mu^2\).
-
Sostituzione e semplificazione
Rimpiazzando i risultati nel secondo passaggio si ottiene: \[ \mathbb{E}(X^2) \;-\; 2\,\mu^2 \;+\; \mu^2 \;=\; \mathbb{E}(X^2) - \mu^2. \]
Poiché \(\mu = \mathbb{E}(X)\), la varianza può quindi essere scritta come:\[ \boxed{ \mathbb{V}(X) = \mathbb{E}(X^2) \;-\; \bigl(\mathbb{E}(X)\bigr)^2. } \tag{33.6}\]
Questa forma risulta molto utile per ragioni di efficienza computazionale: invece di calcolare gli scarti \((X - \mu)\) per ogni osservazione, è sufficiente trovare \(\mathbb{E}(X^2)\) e poi sottrarre \(\mu^2\). In tal modo si riducono i passaggi intermedi e, di conseguenza, si minimizzano gli errori pratici. Inoltre, nelle dimostrazioni che richiedono manipolazioni algebriche – come quelle tipiche della Teoria Classica dei Test – questa espressione semplifica notevolmente le trasformazioni.
Esempio 33.8 Consideriamo la variabile casuale \(X\) che corrisponde al numero di teste che si osservano nel lancio di una moneta truccata con probabilità di testa uguale a 0.8. Si trovi la varianza di \(Y\).
Il valore atteso di \(X\) è
\[ \mathbb{E}(X) = 0 \cdot 0.2 + 1 \cdot 0.8 = 0.8. \]
Usando la formula tradizionale della varianza otteniamo:
\[ \mathbb{V}(X) = (0 - 0.8)^2 \cdot 0.2 + (1 - 0.8)^2 \cdot 0.8 = 0.16. \]
Lo stesso risultato si trova con la formula alternativa della varianza. Il valore atteso di \(X^2\) è
\[ \mathbb{E}(X^2) = 0^2 \cdot 0.2 + 1^2 \cdot 0.8 = 0.8. \]
e la varianza diventa
\[ \mathbb{V}(X) = \mathbb{E}(X^2) - \big(\mathbb{E}(Y) \big)^2 = 0.8 - 0.8^2 = 0.16. \]
33.4.3 Proprietà
Segno della varianza. La varianza di una variabile aleatoria non è mai negativa, ed è zero solamente quando la variabile assume un solo valore.
Invarianza per traslazione. La varianza è invariante per traslazione, che lascia fisse le distanze dalla media, e cambia quadraticamente per riscalamento:
\[ \mathbb{V}(a + bX) = b^2\mathbb{V}(X). \]
Dimostrazione. Iniziamo a scrivere
\[ (aX+b)-{\mathbb{E}}[aX+b]=aX+b-a{\mathbb{E}}[X]-b=a(X-{\mathbb {E}}[X]). \]
Quindi
\[ \sigma _{{aX+b}}^{2}={\mathbb{E}}[a^{2}(X-{\mathbb {E}}[X])^{2}]=a^{2}\sigma _{X}^{2}. \]
Esaminiamo una dimostrazione numerica.
Varianza della somma di due variabili indipendenti. La varianza della somma di due variabili indipendenti o anche solo incorrelate è pari alla somma delle loro varianze:
\[ \mathbb{V}(X+Y) = \mathbb{V}(X) + \mathbb{V}(Y). \]
Dimostrazione. Se \(\mathbb{E}(X) = \mathbb{E}(Y) = 0\), allora \(\mathbb{E}(X+Y) = 0\) e
\[\mathbb{V}(X+Y) = \mathbb{E}((X+Y)^2) = \mathbb{E}(X^2) + 2 \mathbb{E}(XY) + \mathbb{E}(Y^2).\]
Siccome le variabili sono indipendenti risulta \(\mathbb{E}(XY) = \mathbb{E}(X)\mathbb{E}(Y) = 0\).
Varianza della differenza di due variabili indipendenti. La varianza della differenza di due variabili indipendenti è pari alla somma delle loro varianze:
\[ \mathbb{V}(X-Y) = \mathbb{V}(X) + \mathbb{V}(Y). \]
Dimostrazione.
\[ \mathbb{V}(X-Y) = \mathbb{V}(X +(-Y)) = \mathbb{V}(X) + \mathbb{V}(-Y) = \mathbb{V}(X) + \mathbb{V}(Y). \]
Varianza della somma di due variabili non indipendenti. Se \(X\) e \(Y\) non sono indipendenti, la formula viene corretta dalla loro covarianza:
\[ \mathbb{V}(X+Y) = \mathbb{V}(X) + \mathbb{V}(Y) + 2 Cov(X,Y), \]
dove \(Cov(X,Y) = \mathbb{E}(XY) - \mathbb{E}(X)\mathbb{E}(Y)\).
Una dimostrazione numerica di questo principio è fornita sotto.
Varianza della media di variabili indipendenti. La media aritmetica \(\textstyle {\bar {X}}={\frac {X_{1}+\ldots +X_{n}}{n}}\) di \(n\) variabili casuali indipendenti aventi la medesima distribuzione, ha varianza
\[ \mathbb{V}(\bar{X}) = \frac{1}{n^2} \mathbb{V}(X_1)+ \dots \mathbb{V}(X_n) = \frac{1}{n^2} n \mathbb{V}(X) = \frac{1}{n} \mathbb{V}(X). \]
Il principio precedente è illustrato dalla seguente simulazione.
# Creare la popolazione
set.seed(123) # Per riproducibilità
population <- rnorm(10000, mean = 50, sd = 10)
# Definire dimensione del campione e numero di campioni
sample_size <- 30
num_samples <- 100000
# Creare un vettore per memorizzare le medie campionarie
sample_means <- numeric(num_samples)
# Generare i campioni e calcolare le medie
for (i in 1:num_samples) {
sample <- sample(population, size = sample_size, replace = TRUE)
sample_means[i] <- mean(sample)
}
# Calcolare la varianza delle medie campionarie
sampling_dist_mean_var <- var(sample_means) * ((num_samples - 1) / num_samples) # ddof = 0
sampling_dist_mean_var
#> [1] 3.331
Il valore teorico della varianza della distribuzione campionaria della media è
10^2 / 30
#> [1] 3.333
33.4.4 Variabili casuali continue
Per una variabile casuale continua \(X\), la varianza è definita come:
\[ \mathbb{V}(X) = \int_{-\infty}^{+\infty} \large[x - \mathbb{E}(X)\large]^2 p(x) \,\operatorname {d}\!x. \tag{33.7}\]
Analogamente al caso discreto, la varianza di una variabile casuale continua \(X\) una misura della dispersione, ovvero la “distanza” media quadratica attesa dei valori \(x\) rispetto alla loro media \(\mathbb{E}(X)\). In altre parole, la varianza quantifica quanto i valori della variabile casuale si discostano tipicamente dal loro valore medio.
33.5 Deviazione Standard
Quando si lavora con le varianze, i valori sono elevati al quadrato, il che può rendere i numeri significativamente più grandi (o più piccoli) rispetto ai dati originali. Per riportare questi valori all’unità di misura della scala originale, si prende la radice quadrata della varianza. Il risultato ottenuto è chiamato deviazione standard ed è comunemente indicato con la lettera greca \(\sigma\).
Definizione 33.3 La deviazione standard, o scarto quadratico medio, è definita come la radice quadrata della varianza:
\[ \sigma_X = \sqrt{\mathbb{V}(X)}. \tag{33.8}\]
Come nella statistica descrittiva, la deviazione standard di una variabile casuale fornisce una misura della dispersione, ossia la “distanza” tipica o prevista dei valori \(x\) rispetto alla loro media.
Esempio 33.10 Per i dadi equilibrati dell’esempio precedente, la deviazione standard della variabile casuale \(S\) è pari a \(\sqrt{5.833} = 2.415\). Questo valore indica quanto i risultati della somma dei due dadi tendono a variare attorno alla loro media.
33.6 Standardizzazione
Definizione 33.4 Data una variabile casuale \(X\), si dice variabile standardizzata di \(X\) l’espressione
\[ Z = \frac{X - \mathbb{E}(X)}{\sigma_X}. \tag{33.9}\]
Solitamente, una variabile standardizzata viene denotata con la lettera \(Z\).
33.7 Il Teorema di Chebyshev
Il Teorema di Chebyshev ci permette di stimare la probabilità che una variabile aleatoria si discosti dal suo valore atteso (media) di una certa quantità. In altre parole, ci fornisce un limite superiore alla probabilità che una variabile aleatoria assuma valori “estremi”.
Il teorema di Chebyshev afferma che, per qualsiasi variabile aleatoria X con media E(X) e varianza Var(X), e per qualsiasi numero reale k > 0, si ha:
\[ P(\mid X - E(X)\mid \geq k \sigma) \leq 1/k^2, \tag{33.10}\]
dove:
- \(P(\mid X - E(X)\mid \geq k \sigma)\) è la probabilità che lo scarto assoluto tra X e la sua media sia maggiore o uguale a k volte la deviazione standard (σ).
- σ è la radice quadrata della varianza, ovvero la deviazione standard.
Cosa ci dice questo teorema?
- Limite superiore: Il teorema ci fornisce un limite superiore alla probabilità che una variabile aleatoria si discosti dalla sua media di più di k deviazioni standard.
- Qualsiasi distribuzione: La bellezza di questo teorema è che vale per qualsiasi distribuzione di probabilità, a patto che la media e la varianza esistano.
- Utilizzo: Il teorema di Chebyshev è molto utile quando non conosciamo la distribuzione esatta di una variabile aleatoria, ma conosciamo la sua media e la sua varianza.
In sintesi, il teorema di Chebyshev ci fornisce un limite superiore alla probabilità che una variabile aleatoria si discosti dalla sua media di una certa quantità, in base alla sua varianza. Il teorema di Chebyshev ci permette quindi di fare inferenze sulla distribuzione di una variabile aleatoria anche quando abbiamo informazioni limitate.
Esempio 33.11 Supponiamo di avere una variabile aleatoria \(X\) con media 100 e varianza 25. Vogliamo stimare la probabilità che \(X\) assuma valori al di fuori dell’intervallo [90, 110].
In questo caso, \(k\) = 2 (poiché 10 è uguale a 2 volte la deviazione standard, che è 5). Applicando il teorema di Chebyshev, otteniamo:
\[ P(\mid X - 100 \mid \geq 10) \leq \left( \frac{1}{2} \right)^2 = 0.25 \]
Quindi, possiamo affermare con certezza che al massimo il 25% dei valori di X saranno al di fuori dell’intervallo [90, 110].
33.8 Momenti di variabili casuali
Definizione 33.5 Si chiama momento di ordine \(q\) di una v.c. \(X\), dotata di densità \(p(x)\), la quantità
\[ \mathbb{E}(X^q) = \int_{-\infty}^{+\infty} x^q p(x) \; dx. \tag{33.11}\]
Se \(X\) è una v.c. discreta, i suoi momenti valgono:
\[ \mathbb{E}(X^q) = \sum_i x_i^q P(x_i), \tag{33.12}\]
dove:
- \(E(X^q)\) rappresenta il valore atteso di \(X\) elevato alla \(q\)-esima potenza.
- \(x_i\) sono i possibili valori della variabile discreta.
- \(P(x_i)\) è la probabilità associata a ciascun valore discreto.
I momenti sono parametri statistici che forniscono informazioni importanti sulle caratteristiche di una variabile casuale. Tra questi, i più noti e utilizzati sono:
- Il momento del primo ordine (\(q\) = 1): corrisponde al valore atteso (o media) della variabile casuale \(X\).
- Il momento del secondo ordine (\(q\) = 2): quando calcolato rispetto alla media, corrisponde alla varianza.
Per i momenti di ordine superiore al primo, è comune calcolarli rispetto al valore medio di \(X\). Questo si ottiene applicando una traslazione: \(x_0 = x − \mathbb{E}(X)\), dove \(x_0\) rappresenta lo scarto dalla media. In particolare, il momento centrale del secondo ordine, calcolato con questa traslazione, corrisponde alla definizione di varianza.
33.9 Alcuni esempi in R
In R, possiamo calcolare il valore atteso e la varianza di variabili casuali discrete utilizzando vettori di valori e probabilità.
Consideriamo una variabile casuale \(X\) che rappresenta i valori ottenuti dal lancio di un dado non equilibrato, con valori possibili da 0 a 6, e con la seguente distribuzione di massa di probabilità: 0.1, 0.2, 0.3, 0.1, 0.1, 0.0, 0.2.
Iniziamo a definire un vettore che contiene i valori della v.c.:
x <- 0:6
print(x)
#> [1] 0 1 2 3 4 5 6
Il vettore px
conterrà le probabilità associate ai valori x
:
Controlliamo che la somma sia 1:
sum(px)
#> [1] 1
Calcoliamo il valore atteso di \(X\) implementando la formula del valore atteso utilizzando i vettori x
e px
:
x_ev <- sum(x * px)
x_ev
#> [1] 2.7
Calcoliamo la varianza di \(X\) usando i vettori x
e px
:
x_var <- sum((x - x_ev)^2 * px)
x_var
#> [1] 3.81
Calcoliamo la deviazione standard di \(X\) prendendo la radice quadrata della varianza:
x_sd <- sqrt(x_var)
x_sd
#> [1] 1.952
Per rappresentare graficamente la distribuzione di massa, possiamo usare ggplot2
:
df <- data.frame(x = x, pmf = px)
ggplot(df, aes(x = x, y = pmf)) +
geom_point(color = "#832F2B", size = 3) +
geom_segment(aes(xend = x, yend = 0), linewidth = 1) +
labs(title = "Distribuzione di massa di probabilità",
x = "Valori", y = "Probabilità")
Questo codice calcola il valore atteso, la varianza e la deviazione standard di una variabile casuale discreta e rappresenta graficamente la distribuzione di massa, tutto in R.
33.10 Applicazioni Psicologiche
Un esempio pratico dell’uso del valore atteso e della varianza in psicologia è rappresentato dagli studi sulla memoria episodica, in particolare attraverso il paradigma sperimentale delle risposte “Remember-Know”. Questo paradigma permette di esplorare come le persone riconoscano eventi passati, distinguendo tra ricordi dettagliati e semplici sensazioni di familiarità.
Il Paradigma “Remember-Know”
In un tipico esperimento di memoria episodica:
- Ai partecipanti viene presentata una lista di stimoli (es. parole o immagini).
- Dopo un intervallo di tempo, viene mostrata una nuova lista contenente elementi precedentemente visti (old) e elementi nuovi (new).
- Per ogni stimolo old riconosciuto, i soggetti devono specificare se:
- Remember (R): Ricordano consapevolmente dettagli contestuali dell’episodio di encoding (es. “Ricordo che questa parola era scritta in rosso”).
-
Know (K): Avvertono familiarità con lo stimolo, ma senza accesso a dettagli specifici (es. “Sembra conosciuto, ma non so perché”).
- Miss: Non riconoscono lo stimolo.
La variabile in gioco è quindi categorica e discreta, con tre possibili esiti per gli stimoli old: {R, K, Miss}.
Modelli Teorici e Previsioni Statistiche
Due importanti teorie cercano di spiegare come avviene questo riconoscimento:
Teoria del Processo Unico (Strength Theory) (e.g., Wixted & Mickes, 2010)
-
Ipotesi centrale:
C’è una sola dimensione continua (la “forza mnemonica”) che determina il tipo di risposta.- Le risposte Remember derivano da tracce molto forti, quelle Know da tracce di forza intermedia, e i Miss da tracce troppo deboli.
- Implicazioni statistiche: molte risposte Know, meno risposte Remember, bassa varianza.
Teoria del Doppio Processo (Dual-Process) (e.g., Yonelinas, 2002)
-
Ipotesi centrale:
Ci sono due processi indipendenti:-
Recollection (R): Processo qualitativo e binario (presente/assente), legato al ricordo consapevole di dettagli contestuali.
- Familiarità (K): Processo continuo, basato su una sensazione generica di familiarità.
-
Recollection (R): Processo qualitativo e binario (presente/assente), legato al ricordo consapevole di dettagli contestuali.
- Implicazioni statistiche: numero simile di risposte Remember e Know, alta varianza.
Qui entrano in gioco i concetti statistici: ogni teoria formula previsioni diverse sul valore atteso (es. proporzione attesa di risposte R o K) e sulla varianza (dispersione dei dati attorno a questi valori). Confrontando le osservazioni sperimentali con le aspettative teoriche, è possibile testare quale modello sia più coerente con i dati empirici, illustrando come strumenti probabilistici possano chiarire meccanismi cognitivi complessi.
Confronto Statistico: Previsioni Teoriche
Per confrontare quantitativamente le previsioni dei due modelli, consideriamo un esperimento ipotetico con 100 stimoli old. Assegniamo punteggi numerici alle categorie di risposta per trasformarle in una variabile discreta, facilitando il calcolo di valore atteso e varianza:
-
Remember (R) = 2
-
Know (K) = 1
- Miss = 0
Questa codifica riflette l’intensità mnemonica associata a ciascuna risposta, permettendo di quantificare le differenze teoriche tra i modelli.
1. Modello Single-Process (Forza continua)
Secondo questa teoria, la distribuzione attesa delle risposte è:
Categoria | R | K | Miss |
---|---|---|---|
% Prevista | 25% | 60% | 15% |
Calcoli statistici:
- Valore atteso (media ponderata):
\[
E(X) = (2 \cdot 0.25) + (1 \cdot 0.60) + (0 \cdot 0.15) = 1.10
\]
- Varianza (dispersione attorno alla media):
\[
\begin{aligned}
Var(X) &= (2-1.10)^2 \cdot 0.25 + (1-1.10)^2 \cdot 0.60 + (0-1.10)^2 \cdot 0.15 \\
&= 0.2025 + 0.006 + 0.1815 = 0.39
\end{aligned}
\]
2. Modello Dual-Process (Recollection e Familiarità)
La teoria prevede una distribuzione basata su due meccanismi indipendenti:
Categoria | R | K | Miss |
---|---|---|---|
% Prevista | 40% | 40% | 20% |
Calcoli statistici:
- Valore atteso:
\[
E(X) = (2 \cdot 0.40) + (1 \cdot 0.40) + (0 \cdot 0.20) = 1.20
\]
- Varianza:
\[
\begin{aligned}
Var(X) &= (2-1.20)^2 \cdot 0.40 + (1-1.20)^2 \cdot 0.40 + (0-1.20)^2 \cdot 0.20 \\
&= 0.256 + 0.016 + 0.288 = 0.56
\end{aligned}
\]
Sintesi del Confronto
I due modelli generano previsioni distinte, riassunte nella tabella seguente:
Modello | Valore Atteso | Varianza | Interpretazione |
---|---|---|---|
Single-Process | 1.10 | 0.39 | Media più bassa, varianza ridotta (distribuzione concentrata attorno a K). |
Dual-Process | 1.20 | 0.56 | Media più alta, varianza elevata (effetto della miscela tra due processi). |
-
Valore atteso: Il modello dual-process predice una media superiore, coerente con la maggiore proporzione attesa di risposte Remember.
- Varianza: La differenza nella dispersione (0.39 vs. 0.56) riflette l’eterogeneità introdotta dalla separazione tra recollection e familiarità nel modello duale.
Applicazione a Dati Empirici
Supponiamo ora di aver raccolto dati reali da 100 soggetti che hanno prodotto questa distribuzione:
R | K | Miss |
---|---|---|
38% | 42% | 20% |
Calcoliamo il valore atteso e la varianza empiriche:
\[ E(X) = 2 \cdot 0.38 + 1 \cdot 0.42 + 0 \cdot 0.20 = 1.18 \]
\[ Var(X) = (2-1.18)^2 \cdot 0.38 + (1-1.18)^2 \cdot 0.42 + (0-1.18)^2 \cdot 0.20 = 0.55 \]
Risultati:
Dati | Valore Atteso | Varianza |
---|---|---|
Empirici | 1.18 | 0.55 |
Confrontando questi risultati con le previsioni teoriche, notiamo che i dati empirici si avvicinano molto più al modello dual-process (valore atteso: 1.20 vs. 1.18; varianza: 0.56 vs. 0.55).
Implicazioni Psicologiche e Cliniche
Teoriche: Il confronto tra distribuzioni osservate e teoriche, usando valore atteso e varianza, consente di identificare quale teoria cognitiva spieghi meglio i dati.
Cliniche: In contesti clinici (es. valutazione di deficit cognitivi), questo approccio consente di identificare se un paziente mostra un profilo riconducibile a un danno selettivo della recollection (R ↓) o della familiarità (K ↓).
Questo framework illustra come strumenti probabilistici di base possano tradurre ipotesi psicologiche complesse in predizioni quantitative verificabili, avanzando la comprensione dei meccanismi cognitivi.
33.11 Riflessioni Conclusive
In conclusione, i concetti di valore atteso e varianza sono fondamentali per comprendere il comportamento delle variabili casuali. Il valore atteso fornisce una misura centrale, rappresentando il “valore tipico” che ci si aspetta di osservare, mentre la varianza quantifica la dispersione dei valori attorno a questa media, offrendo una visione più completa della distribuzione. Questi strumenti sono essenziali per l’analisi e la modellizzazione statistica, fornendo le basi per valutare e interpretare la variabilità nei fenomeni aleatori.
Esercizi
33.12 Esercizi
Consiglio gli esercizi di base disponibili nella seguente pagina web.
Informazioni sull’Ambiente di Sviluppo
sessionInfo()
#> R version 4.5.0 (2025-04-11)
#> Platform: aarch64-apple-darwin20
#> Running under: macOS Sequoia 15.5
#>
#> Matrix products: default
#> BLAS: /Library/Frameworks/R.framework/Versions/4.5-arm64/Resources/lib/libRblas.0.dylib
#> LAPACK: /Library/Frameworks/R.framework/Versions/4.5-arm64/Resources/lib/libRlapack.dylib; LAPACK version 3.12.1
#>
#> locale:
#> [1] C/UTF-8/C/C/C/C
#>
#> time zone: Europe/Rome
#> tzcode source: internal
#>
#> attached base packages:
#> [1] stats graphics grDevices utils datasets methods base
#>
#> other attached packages:
#> [1] thematic_0.1.6 MetBrewer_0.2.0 ggokabeito_0.1.0 see_0.11.0
#> [5] gridExtra_2.3 patchwork_1.3.0 bayesplot_1.12.0 psych_2.5.3
#> [9] scales_1.4.0 markdown_2.0 knitr_1.50 lubridate_1.9.4
#> [13] forcats_1.0.0 stringr_1.5.1 dplyr_1.1.4 purrr_1.0.4
#> [17] readr_2.1.5 tidyr_1.3.1 tibble_3.2.1 ggplot2_3.5.2
#> [21] tidyverse_2.0.0 rio_1.2.3 here_1.0.1
#>
#> loaded via a namespace (and not attached):
#> [1] generics_0.1.4 stringi_1.8.7 lattice_0.22-7
#> [4] hms_1.1.3 digest_0.6.37 magrittr_2.0.3
#> [7] evaluate_1.0.3 grid_4.5.0 timechange_0.3.0
#> [10] RColorBrewer_1.1-3 fastmap_1.2.0 rprojroot_2.0.4
#> [13] jsonlite_2.0.0 mnormt_2.1.1 cli_3.6.5
#> [16] rlang_1.1.6 withr_3.0.2 tools_4.5.0
#> [19] parallel_4.5.0 tzdb_0.5.0 pacman_0.5.1
#> [22] vctrs_0.6.5 R6_2.6.1 lifecycle_1.0.4
#> [25] htmlwidgets_1.6.4 pkgconfig_2.0.3 pillar_1.10.2
#> [28] gtable_0.3.6 glue_1.8.0 xfun_0.52
#> [31] tidyselect_1.2.1 rstudioapi_0.17.1 farver_2.1.2
#> [34] htmltools_0.5.8.1 nlme_3.1-168 labeling_0.4.3
#> [37] rmarkdown_2.29 compiler_4.5.0