21. Probabilità congiunta#

La probabilità congiunta è la probabilità che due o più eventi si verifichino contemporaneamente. In questo capitolo verrà esaminato il caso discreto.

21.1. Funzione di probabilità congiunta#

Dopo aver trattato della distribuzione di probabilità di una variabile casuale, la quale associa ad ogni evento elementare dello spazio campione uno ed un solo numero reale, è naturale estendere questo concetto al caso di due o più variabili casuali.

Facciamo un esempio per il caso discreto. Consideriamo l’esperimento casuale corrispondente al lancio di tre monete equilibrate. Lo spazio campione è

\[ \Omega = \{TTT, TTC, TCT, CTT, CCT, CTC, TCC, CCC\}. \]

Dato che i tre lanci sono tra loro indipendenti, non c’è ragione di aspettarci che uno degli otto risultati possibili dell’esperimento sia più probabile degli altri, dunque possiamo associare a ciascuno degli otto eventi elementari dello spazio campione la stessa probabilità, ovvero 1/8.

Definiamo sullo spazio campione \(\Omega\) le seguenti variabili casuali:

  • \(X \in \{0, 1, 2, 3\}\) = “numero di realizzazioni con il risultato testa nei tre lanci”,

  • \(Y \in \{0, 1\}\) = “numero di realizzazioni con il risultato testa nel primo lancio”.

Indicando con T = ‘testa’ e C = ‘croce’, si ottiene la situazione riportata nella Table 21.1.

Table 21.1 Spazio campione dell’esperimento consistente nel lancio di tre monete equilibrate su cui sono state definite le variabili aleatorie \(X\) = ‘numero di realizzazioni con il risultato testa nei tre lanci’ e \(Y\) = ‘numero di realizzazioni con il risultato testa nel primo lancio’.#

\(\omega\)

\(X\)

\(Y\)

\(P(\omega)\)

\(\omega_1\) = TTT

3

1

1/8

\(\omega_2\) = TTC

2

1

1/8

\(\omega_3\) = TCT

2

1

1/8

\(\omega_4\) = CTT

2

0

1/8

\(\omega_5\) = CCT

1

0

1/8

\(\omega_6\) = CTC

1

0

1/8

\(\omega_7\) = TCC

1

1

1/8

\(\omega_8\) = CCC

0

0

1/8

Ci poniamo il problema di associare un valore di probabilità ad ogni coppia \((x, y)\) definita su \(\Omega\). La coppia \((X = 0, Y = 0)\) si realizza in corrispondenza di un solo evento elementare, ovvero CCC; avrà dunque una probabilità pari a

\[ P(X=0, Y=0) = P(CCC) = 1/8. \]

Nel caso della coppia \((X = 1, Y = 0)\) ci sono due eventi elementari che danno luogo al risultato considerato, ovvero, CCT e CTC. La probabilità dell’evento composto \(P(X=1, Y=0)\) è dunque uguale alla somma delle probabilità dei due eventi elementari che lo costituiscono, cioé

\[ P(X=1, Y=0) = P(\text{CCT}) + P(\text{CTC}) = 1/8 + 1/8 = 1/4. \]

Di seguito sono riportati i calcoli per tutte le possibili coppie \(X, Y\):

\[\begin{split} \begin{align} P(X = 0, Y = 0) &= P(\omega_8 = CCC) = 1/8; \notag\\ P(X = 1, Y = 0) &= P(\omega_5 = CCT) + P(\omega_6 = CTC) = 2/8; \notag\\ P(X = 1, Y = 1) &= P(\omega_7 = TCC) = 1/8; \notag\\ P(X = 2, Y = 0) &= P(\omega_4 = CTT) = 1/8; \notag\\ P(X = 2, Y = 1) &= P(\omega_3 = TCT) + P(\omega_2 = TTC) = 2/8; \notag\\ P(X = 3, Y = 1) &= P(\omega_1 = TTT) = 1/8; \notag \end{align} \end{split}\]

Le probabilità così trovate sono riportate nella Table 21.2 che descrive la distribuzione di probabilità congiunta delle variabili casuali \(X\) (“numero di realizzazioni con il risultato testa nei tre lanci”) e \(Y\) (“numero di realizzazioni con il risultato testa nel primo lancio”) per l’esperimento casuale che consiste nel lancio di tre monete equilibrate.

Table 21.2 Distribuzione di probabilità congiunta per i risultati dell’esperimento consistente nel lancio di tre monete equilibrate. #

\(x /\ y\)

0

1

0

1/8

0

1

2/8

1/8

2

1/8

2/8

3

0

1/8

In generale, possiamo dire che, dato uno spazio campione discreto \(\Omega\), è possibile associare ad ogni evento elementare \(\omega_i\) dello spazio campione una coppia di numeri reali \((x, y)\), essendo \(x = X(\omega)\) e \(y = Y(\omega)\), il che ci conduce alla seguente definizione.

Definizione

Siano \(X\) e \(Y\) due variabili casuali. La funzione che associa ad ogni coppia \((x, y)\) un valore di probabilità prende il nome di funzione di probabilità congiunta:

\[ P(x, y) = P(X = x, Y = y). \]

Il termine “congiunta” deriva dal fatto che questa probabilità è legata al verificarsi di una coppia di valori, il primo associato alla variabile casuale \(X\) ed il secondo alla variabile casuale \(Y\). Nel caso di due sole variabili casuali si parla di distribuzione bivariata, mentre nel caso di più variabili casuali si parla di distribuzione multivariata.

21.1.1. Proprietà#

Una distribuzione di massa di probabilità congiunta bivariata deve soddisfare due proprietà:

  1. \(0 \leq P(x_i, y_j) \leq 1\);

  2. la probabilità totale deve essere uguale a 1: \(\sum_{i} \sum_{j} P(x_i, y_j) = 1.\)

21.1.2. Eventi#

Si noti che dalla probabilità congiunta possiamo calcolare la probabilità di qualsiasi evento definito in base alle variabili aleatorie \(X\) e \(Y\). Per capire come questo possa essere fatto, consideriamo nuovamente l’esperimento casuale discusso in precedenza.

Per fare un esempio, consideriamo la distribuzione di massa di probabilità congiunta riportata nella Table 21.2 si trovi la probabilità dell’evento \(X+Y \leq 1\).

Per trovare la probabilità richiesta dobbiamo sommare le probabilità associate a tutte le coppie \((x,y)\) che soddisfano la condizione \(X+Y \leq 1\), ovvero

\[ P_{XY}(X+Y \leq 1) = P_{XY}(0, 0)+ P_{XY}(0, 1) + P_{XY}(1, 0) = 3/8. \]

21.1.3. Funzioni di probabilità marginali#

La distribuzione marginale di un sottoinsieme di variabili casuali è la distribuzione di probabilità delle variabili contenute nel sottoinsieme. Come spiegato da Wikipedia:

il termine variabile marginale è usato per riferirsi a quelle variabili nel sottoinsieme delle variabili che vengono trattenute ovvero utilizzate. Questo termine, marginale, è attribuito ai valori ottenuti ad esempio sommando in una tabella di valori lungo le righe oppure lungo le colonne, trascrivendo il risultato appunto a margine rispettivamente della riga o colonna sommata. La distribuzione delle variabili marginali (la distribuzione marginale) è ottenuta mediante marginalizzazione sopra le variabili da “scartare”, e le variabili scartate sono dette fuori marginalizzate.

Nel caso di due variabili casuali discrete \(X\) e \(Y\) di cui conosciamo la distribuzione congiunta, la distribuzione marginale di \(X\), \(P(X=x)\), è dunque

\[ P(X = x) = \sum_y P(X, Y = y) = \sum_y P(X \mid Y = y) P(Y = y), \]

dove \(P(X = x,Y = y)\) è la distribuzione congiunta di \(X, Y\), mentre \(P(X = x \mid Y = y)\) è la distribuzione condizionata di \(X\) dato \(Y\).

Le probabilità bivariate marginali e congiunte di variabili casuali discrete sono spesso rappresentate mediante tabelle di contingenza. Si noti che \(P(X = x)\) e \(P(Y = y)\) sono normalizzate:

\[ \sum_x P(X=x) = 1.0, \quad \sum_y P(Y=y) = 1.0. \]

Nel caso continuo si sostituisce l’integrazione alla somma.

Esercizio. Per l’esperimento casuale descritto nella Funzione di probabilità congiunta, calcoliamo le probabilità marginali di \(X\) e \(Y\). Come indicato nella Table 21.3, \(P_X\) si ottiene sommando su ciascuna riga fissata la colonna \(j\), \(P_X(X = j) = \sum_y p_{xy}(x = j, y)\) e \(P_Y\) si trova sommando su ciascuna colonna fissata la riga \(i,\) \(P_Y (Y = i) = \sum_x p_{xy}(x, y = i)\).

Table 21.3 Distribuzione di probabilità congiunta \(P(X,Y)\) per i risultati dell’esperimento consistente nel lancio di tre monete equilibrate e probabilità marginali \(P(X)\) e \(P(Y)\).#

\(x /\ y\)

0

1

\(P(x)\)

0

1/8

0

1/8

1

2/8

1/8

3/8

2

1/8

2/8

3/8

3

0

1/8

1/8

\(P(y)\)

4/8

4/8

1.0

21.1.4. Marginalizzazione di variabili casuali continue#

Nella trattazione della statistca bayesiana useremo spesso il concetto di “marginalizzazione” e vedremo equazioni come la seguente:

(21.1)#\[ p(y) = \int_{\theta} p(y, \theta) = \int_{\theta} p(y \mid \theta) p(\theta), \]

laddove \(y\) e \(\theta\) sono due variabili casuali continue – nello specifico, con \(y\) denoteremo i dati e con \(\theta\) i parametri di un modello statistico. Alla luce di quanto detto sopra, è possibiile pensare al caso continuo indicato nell’eq. (21.1) come all’estensione dell’esempio discusso in questo capitolo ad un numero infinito di valori delle due variabili continue (qui \(y\) e \(\theta\)).

21.2. Indipendenza#

La nozione di indipendenza per le variabili casuali è molto simile alla nozione di indipendenza per gli eventi. Due variabili casuali sono indipendenti se la conoscenza relativa a una di esse non influisce sulle probabilità dell’altra. Nel caso di due variabili casuali discrete, presentiamo qui una definizione di indipendenza formulata nei termini della loro distribuzione di massa di probabilità congiunta.

Definizione

Due variabili casuali \(X\) e \(Y\) distribuite congiuntamente si dicono indipendenti se e solo se

\[ P_{X, Y}(x, y) = P_X(x) P_Y(y). \]

A parole, se due variabili discrete \(X\) e \(Y\) non si influenzano, ovvero se sono statisticamente indipendenti, allora la distribuzione di massa di probabilità congiunta si ottiene come prodotto delle funzioni di probabilità marginali di \(X\) e \(Y\). Se \(P_{X, Y}(x, y) \neq P_X(x) P_Y(y)\), allora le due variabili si dicono associate. Lo stesso vale per le variabili casuali continue.

Se due variabili causali non sono indipendenti, si dicono associate. Una misura del grado di associazione lineare tra due variabili casuali è fornita dalla covarianza (o dalla correlazione).

21.3. Covarianza#

La covarianza quantifica la tendenza delle variabili casuali \(X\) e \(Y\) a “variare assieme”. Per esempio, l’altezza e il peso delle giraffe producono una covarianza positiva perché all’aumentare di una di queste due quantità tende ad aumentare anche l’altra. La covarianza misura la forza e la direzione del legame lineare tra due variabili casuali \(X\) ed \(Y\). Si utilizza la notazione \(Cov(X,Y)=\sigma_{xy}\).

Definizione

Date due variabili casuali \(X\), \(Y\), chiamiamo covarianza tra \(X\) ed \(Y\) il numero

(21.2)#\[ Cov(X,Y) = \mathbb{E}\Bigl(\bigl(X - \mathbb{E}(X)\bigr) \bigl(Y - \mathbb{E}(Y)\bigr)\Bigr), \]

dove \(\mathbb{E}(X)\) e \(\mathbb{E}(Y)\) sono i valori attesi di \(X\) ed \(Y\).

In maniera esplicita,

(21.3)#\[ Cov(X,Y) = \sum_{(x,y) \in \Omega} (x - \mu_X) (y - \mu_Y) f(x, y). \]

La definizione è analoga, algebricamente, a quella di varianza e risulta infatti

\[ \mathbb{V}(x) = Cov(X, X) \]

e

(21.4)#\[ Cov(X,Y) = \mathbb{E}(XY) - \mathbb{E}(Y)\mathbb{E}(X). \]

Dimostrazione

L’eq. (21.4) si ricava nel modo seguente:

\[\begin{split} \begin{align} Cov(X,Y) &= \mathbb{E}\Bigl(\bigl(X-\mathbb{E}(X)\bigr) \bigl(Y-\mathbb{E}(Y)\bigr)\Bigr)\notag\\ %&= \mathbb{E}(XY) - \mathbb{E}(Y)X -\mathbb{E}(X)Y + \mathbb{E}(X)\mathbb{E}(Y) )\notag\\ &= \mathbb{E}(XY) - \mathbb{E}(Y)\mathbb{E}(X) - \mathbb{E}(X)\mathbb{E}(Y) + \mathbb{E}(X)\mathbb{E}(Y)\notag\\ &= \mathbb{E}(XY) - \mathbb{E}(Y)\mathbb{E}(X)\notag. \end{align} \end{split}\]

Esercizio. Consideriamo le variabili casuali definite nell’esempio descritto nella Funzione di probabilità congiunta. Poniamoci il problema di calcolare la covarianza di \(X\) e \(Y\).

Abbiamo che \(\mu_X = 1.5\) e \(\mu_Y = 0.5\). Ne segue che la covarianza di \(X\) e \(Y\) è:

\[\begin{split} \begin{align} Cov(X,Y) &= \sum_{(x,y) \in \Omega} (x - \mu_X) (y - \mu_Y) f(x, y)\notag\\ &= (0-1.5)(0-0.5)\cdot \frac{1}{8} + (0-1.5)(1-0.5) \cdot 0 \\ &\qquad + (1-1.5)(0-0.5)\cdot \frac{2}{8} + (1-1.5)(1-0.5) \cdot \frac{1}{8} \notag\\ &\qquad+ (2-1.5)(0-0.5) \cdot \frac{1}{8} + (2-1.5)(1-0.5) \cdot \frac{2}{8} \\ &\qquad+ (3-1.5)(0-0.5) \cdot 0 + (3-1.5)(1-0.5)\cdot\frac{1}{8} \notag\\ &= \frac{1}{4}. \notag \end{align} \end{split}\]

Lo stesso risultato può essere trovato usando l’eq. (21.4). Iniziamo a calcolare il valore atteso del prodotto \(XY\):

\[ \mathbb{E}(XY) = 0 \cdot\frac{4}{8} + 1 \cdot\frac{1}{8} + 2 \cdot\frac{2}{8} + 3 \cdot\frac{1}{8} = 1.0. \]

Dunque, la covarianza tra \(X\) e \(Y\) diventa

\[\begin{split} \begin{align} Cov(X,Y) &= \mathbb{E}(XY) - \mathbb{E}(X)\mathbb{E}(Y)\notag\\ &= 1 - 1.5\cdot 0.5 \notag\\ &= 0.25.\notag \end{align} \end{split}\]

Per fare un esempio con Python, consideriamo l’esempio precedente nel quale \(X\) è il numero che si ottiene dal lancio di tre monete equilibrate e \(Y\) è il numero di teste al primo lancio. Troviamo \(Cov(X, Y)\).

Creiamo il prodotto cartesiano che si ottiene per tutti i possibili valori \(X\) e i possibili valori \(Y\).

import numpy as np
import pandas as pd
c3 = np.arange(0, 4)
c1 = np.arange(0, 2)
sample = [(i, j) for i in c1 for j in c3]
sample
[(0, 0), (0, 1), (0, 2), (0, 3), (1, 0), (1, 1), (1, 2), (1, 3)]

Il primo numero di ogni coppia rappresenta il valore di \(Y\), mentre il secondo numero è il valore di \(X\). Come abbiamo visto in precedenza, però, quete coppie di valori \(X, Y\) non hanno tutte la stessa probabilità di verificarsi. Infatti, la probabilità che ciascuna coppia \(X, Y\) si osservi è data, in sequenza, dai valori 1/8, 2/8, 1/8, 0, 0, 1/8, 2/8, 1/8. Questi valori rappresentano la distribuzione di massa di probabilità congiunta delle variabili casuali \(X\) e \(Y\). Possiamo quindi applicare l’eq. (21.2):

res = []

pmf = np.array([1/8, 2/8, 1/8, 0, 0, 1/8, 2/8, 1/8])

for i in range(8):
    res.append((sample[i][0] - 0.5) * (sample[i][1] - 1.5) * pmf[i])

sum(res)
0.25

La covarianza tra \(X\) e \(Y\) è dunque uguale a 0.25.

21.4. Correlazione#

La covarianza dipende dall’unità di misura delle due variabili e quindi non consente di stabilire l’intensità della relazione. Una misura standardizzata della relazione che intercorre fra due variabili è invece rappresentata dalla correlazione. La correlazione si ottiene dividendo la covarianza per le deviazioni standard delle due variabili aleatorie.

Definizione

Il coefficiente di correlazione tra \(X\) ed \(Y\) è il numero definito da

(21.5)#\[ \rho(X,Y) =\frac{Cov(X,Y)}{\sqrt{\mathbb{V}(X)\mathbb{V}(Y)}}. \]

Si può anche scrivere \(\rho_{X,Y}\) al posto di \(\rho(X,Y)\).

Il coefficiente di correlazione \(\rho_{xy}\) è un numero puro, cioè non dipende dall’unità di misura delle variabili, e assume valori compresi tra -1 e +1.

21.5. Proprietà#

  • La covarianza tra una variabile aleatoria \(X\) e una costante \(c\) è nulla: \(Cov(c,X) = 0;\)

  • la covarianza è simmetrica: \(Cov(X,Y) = Cov(Y,X);\)

  • vale \(-1 \leq \rho(X,Y) \leq 1;\)

  • la correlazione non dipende dall’unità di misura: \(\rho(aX, bY) = \rho(X,Y), \quad \forall a, b > 0;\)

  • se \(Y = a + bX\) è una funzione lineare di \(X\) con costanti \(a\) e \(b\), allora \(\rho(X,Y) = \pm 1\), a seconda del segno di \(b\);

  • la covarianza tra \(X\) e \(Y\), ciascuna moltiplicata per una costante, è uguale al prodotto delle costanti per la covarianza tra \(X\) e \(Y\): \(Cov(aX,bY) = ab \;Cov(X,Y)\);

  • vale \(\mathbb{V}(X \pm Y) = \mathbb{V}(X) + \mathbb{V}(Y) \pm 2 \cdot Cov(X,Y)\);

  • vale \(Cov(X + Y, Z) = Cov(X,Z) + Cov(Y,Z);\)

  • per una sequenza di variabili aleatorie \(X_1, \dots, X_n\), si ha $\(\mathbb{V}\left( \sum_{i=1}^n X_i\right) = \sum_{i=1}^n \mathbb{V}(X_i) + 2\sum_{i,j: i<j}cov(X_i, X_j);\)$

  • vale \(Cov\left(\sum_{i=1}^n a_i X_i, \sum_{j=1}^m b_jY_j\right) = \sum_{i=1}^n \sum_{j=1}^m a_j b_jCov(X_j, Y_j);\)

  • se \(X_1, X_2, \dots, X_n\) sono indipendenti, allora

\[ Cov\left(\sum_{i=1}^n a_i X_i, \sum_{j=1}^n b_jX_j\right) = \sum_{i=1}^n a_i b_i \mathbb{V}(X_i). \]

21.5.1. Incorrelazione#

Definizione

Si dice che \(X\) ed \(Y\) sono incorrelate, o linermente indipendenti, se la loro covarianza è nulla,

(21.6)#\[ \sigma_{XY} = \mathbb{E} \big[(X - \mu_X) (y-\mu_u) \big] = 0, \]

che si può anche scrivere come

\[ \rho_{XY} = 0, \quad \mathbb{E}(XY) = \mathbb{E}(X) \mathbb{E}(Y). \]

Si introduce così un secondo tipo di indipendenza, più debole, dopo quello di indipendenza stocastica. Viceversa, però, se \(Cov(X, Y) = 0\), non è detto che \(X\) ed \(Y\) siano indipendenti.

Esercizio. Quale esempio, siano \(X\) e \(Y\) due variabili aleatorie discrete avente una distribuzione di massa di probabilità congiunta pari a

\[ f_{XY}(x,y) = \frac{1}{4} \quad (x,y) \in \{(0,0), (1,1), (1, -1), (2,0) \} \]

e zero altrimenti. Le due variabili aleatorie \(X\) e \(Y\) sono mutuamente indipendenti?

La distribuzione marginale della \(X\) è

\[\begin{split} \begin{cases} X = 0, \quad P_X = 1/4, \\ X = 1, \quad P_X = 2/4, \\ X = 2, \quad P_X = 1/4. \end{cases} \end{split}\]
\[ \mathbb{E}(X) = 0 \frac{1}{4} + 1 \frac{2}{4} + 2 \frac{1}{4} = 1. \]
\[ \mathbb{E}(X^2) = 0^2 \frac{1}{4} + 1^2 \frac{2}{4} + 2^2 \frac{1}{4} = \frac{3}{2}. \]
\[ \mathbb{V}(X) = \frac{3}{2} - 1^2 = \frac{1}{2}. \]

La distribuzione marginale della \(Y\) è

\[\begin{split} \begin{cases} Y = -1, \quad P_Y = 1/4, \\ Y = 0, \quad P_Y = 2/4, \\ Y = 1, \quad P_Y = 1/4. \end{cases} \end{split}\]
\[ \mathbb{E}(Y) = 0 \frac{2}{4} + 1 \frac{1}{4} + (-1) \frac{1}{4} = 0. \]
\[ \mathbb{E}(Y^2) = 0^2 \frac{2}{4} + 1^2 \frac{1}{4} + (-1)^2 \frac{1}{4} = \frac{1}{2}. \]
\[ \mathbb{V}(X) = \frac{1}{2} - 0^2 = \frac{1}{2}. \]

Calcoliamo ora la covarianza tra \(X\) e \(Y\):

\[ \mathbb{E}(XY) = \sum_x\sum_y xy f_{XY} (x,y) = (0\cdot 0)\frac{1}{4} + (1\cdot 1)\frac{1}{4} + (1\cdot -1)\frac{1}{4} + (2\cdot 0)\frac{1}{4} = 0. \]
\[ Cov(X,Y) = \mathbb{E}(XY) - \mathbb{E}(X)\mathbb{E}(Y) = 0 - 1\cdot0 = 0. \]

Quindi le due variabili aleatorie hanno covarianza pari a zero. Tuttavia, esse non sono indipendenti, in quanto non è vero che

\[ f_{XY} (x,y) = f_X(x) f_Y(y) \]

per tutti gli \(x\) e \(y\).

In conclusione, anche se la condizione di indipendenza implica una covarianza nulla, l’esempio precedente mostra come l’inverso non sia necessariamente vero: la covarianza può essere zero anche se due variabili casuali non sono indipendenti.

21.6. Commenti e considerazioni finali#

In alcune situazioni, ogni singolo elemento di una popolazione può essere associato a diverse variabili casuali. Ad esempio, consideriamo l’elenco di tutti gli studenti iscritti a un’università e immaginiamo di selezionare uno studente a caso per misurare la sua altezza e il suo peso. In questo caso, ogni individuo della popolazione è associato a due variabili casuali, l’altezza e il peso. Quando si hanno due o più variabili casuali associate ad ogni elemento di una popolazione, è possibile studiare la distribuzione congiunta di tali variabili casuali. In questo capitolo abbiamo esaminato come rappresentare la distribuzione di massa di probabilità congiunta di due variabili casuali discrete e come ottenere le distribuzioni marginali delle due variabili. Inoltre, abbiamo discusso i concetti di incorrelazione e indipendenza.

21.7. Watermark#

%load_ext watermark
%watermark -n -u -v -iv -w -p pytensor
Last updated: Sat Jun 17 2023

Python implementation: CPython
Python version       : 3.11.3
IPython version      : 8.12.0

pytensor: 2.12.2

pandas: 1.5.3
numpy : 1.24.3

Watermark: 2.3.1