35 Probabilità congiunta
- comprendere la probabilità che due o più eventi si verifichino contemporaneamente.
- definire e calcolare la funzione di probabilità congiunta per variabili casuali discrete.
- verificare le proprietà fondamentali delle distribuzioni di probabilità congiunta.
- determinare la probabilità di eventi definiti in termini di variabili aleatorie.
- derivare e interpretare le distribuzioni marginali da una distribuzione congiunta.
- formalizzare l’indipendenza tra variabili casuali e calcolare la loro distribuzione congiunta.
- Leggere il capitolo Joint Distributions (Chan & Kroese, 2025).
- Leggere il capitolo Joint Distributions (Blitzstein & Hwang, 2019).
35.1 Introduzione
Fino a questo momento abbiamo considerato il concetto di probabilità associato a singole variabili casuali. Tuttavia, in molte situazioni pratiche e psicologiche, è fondamentale analizzare come due o più variabili casuali interagiscono tra loro. La distribuzione congiunta ci permette di descrivere la probabilità che più variabili aleatorie assumano contemporaneamente specifici valori.
Questo capitolo introduce e approfondisce il concetto di distribuzione congiunta attraverso definizioni, proprietà essenziali e un esempio concreto basato sulla letteratura psicologica.
35.2 Cos’è la Distribuzione Congiunta?
La distribuzione congiunta di due variabili casuali, denotate con \(X\) e \(Y\), rappresenta la probabilità che queste variabili assumano simultaneamente determinati valori. Si distinguono due casi fondamentali:
- Caso discreto: definita attraverso la funzione di massa di probabilità congiunta:
\[ p(x, y) = P(X = x, Y = y) . \]
- Caso continuo: definita tramite la funzione di densità di probabilità congiunta:
\[ f(x, y) . \]
Queste funzioni ci permettono di rispondere a domande riguardanti la probabilità che eventi relativi a più variabili si verifichino simultaneamente.
35.3 Proprietà della Distribuzione Congiunta
Una distribuzione di probabilità congiunta deve soddisfare alcune proprietà essenziali:
Non-negatività: \[ p(x,y) \geq 0, \quad \text{oppure} \quad f(x,y) \geq 0 . \]
Normalizzazione:
- Caso discreto: \[ \sum_{x}\sum_{y} p(x,y) = 1 . \]
- Caso continuo: \[ \int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty} f(x,y)\,dx\,dy = 1 . \]
Queste proprietà assicurano che le funzioni rappresentino correttamente una distribuzione di probabilità.
35.4 Esempio Psicologico: Ansia e Prestazione Cognitiva
Consideriamo un esempio tratto dalla letteratura psicologica: la relazione tra ansia (Y) e prestazione cognitiva (X) in studenti universitari. La ricerca psicologica indica spesso una relazione negativa tra questi due fattori: livelli elevati di ansia possono associarsi a prestazioni cognitive inferiori (Eysenck et al., 2007).
Supponiamo di aver valutato due variabili discrete in un gruppo di studenti:
- Ansia: bassa, media, alta (codificata come Y = 0, 1, 2);
- Prestazione cognitiva: insufficiente, sufficiente, buona (codificata come X = 0, 1, 2).
La distribuzione congiunta potrebbe essere rappresentata nella seguente tabella (i dati sono ipotetici ma coerenti con la letteratura):
Ansia Bassa (0) | Ansia Media (1) | Ansia Alta (2) | |
---|---|---|---|
Insufficiente (0) | 0.05 | 0.10 | 0.15 |
Sufficiente (1) | 0.15 | 0.20 | 0.10 |
Buona (2) | 0.10 | 0.10 | 0.05 |
I valori nella tabella rappresentano stime empiriche delle probabilità congiunte, ovvero le proporzioni osservate di studenti che hanno manifestato una specifica combinazione di livelli delle due variabili. Ad esempio, la cella corrispondente a “Ansia Media” e “Prestazione Sufficiente” indica che il 20% degli studenti nel campione considerato ha un livello medio di ansia ed ha ottenuto prestazioni sufficienti nel compito cognitivo.
Da questa distribuzione, possiamo rispondere a domande specifiche come:
- Qual è la probabilità che uno studente ottenga una prestazione cognitiva almeno sufficiente indipendentemente dal livello di ansia?
\[ P(X \geq 1) = 0.15 + 0.20 + 0.10 + 0.10 + 0.10 + 0.05 = 0.70 . \]
35.5 Distribuzioni Marginali
A partire dalla distribuzione congiunta, è possibile ottenere le distribuzioni marginali per ciascuna variabile sommando (nel caso discreto) o integrando (nel caso continuo) sulla variabile che vogliamo marginalizzare.
Ad esempio, la distribuzione marginale di ansia (Y) si ottiene sommando su tutti i valori possibili della prestazione cognitiva:
- Ansia bassa: \[P(Y=0)=0.05+0.15+0.10=0.30 .\]
- Ansia media: \[P(Y=1)=0.10+0.20+0.10=0.40 .\]
- Ansia alta: \[P(Y=2)=0.15+0.10+0.05=0.30 .\]
Le probabilità marginali permettono di considerare la distribuzione di una singola variabile indipendentemente dall’altra.
35.6 Indipendenza e Dipendenza tra Variabili
Due variabili casuali \(X\) e \(Y\) si dicono indipendenti se la loro distribuzione congiunta si fattorizza nelle rispettive distribuzioni marginali:
\[p(x,y)=p(x)p(y) \quad \text{oppure} \quad f(x,y)=f(x)f(y) .\]
Nel nostro esempio, verificare l’indipendenza equivale a controllare se, ad esempio:
\[P(X=0,Y=2)=P(X=0)P(Y=2) .\]
Se tale condizione non è soddisfatta, le variabili sono dipendenti. Tipicamente, nel contesto psicologico dell’esempio proposto, ansia e prestazione cognitiva risultano dipendenti.
35.7 Riflessioni Conclusive
La distribuzione congiunta fornisce uno strumento per analizzare simultaneamente più variabili aleatorie e la loro interazione. È cruciale nella ricerca psicologica, dove è comune studiare relazioni tra variabili psicologiche come ansia, prestazione, motivazione e molti altri costrutti. Il passaggio successivo, affrontato nei capitoli seguenti, sarà quello di quantificare la forza e la direzione di queste relazioni mediante indici come la covarianza e la correlazione.
35.8 Informazioni sull’Ambiente di Sviluppo
sessionInfo()
#> R version 4.4.2 (2024-10-31)
#> Platform: aarch64-apple-darwin20
#> Running under: macOS Sequoia 15.3.2
#>
#> Matrix products: default
#> BLAS: /Library/Frameworks/R.framework/Versions/4.4-arm64/Resources/lib/libRblas.0.dylib
#> LAPACK: /Library/Frameworks/R.framework/Versions/4.4-arm64/Resources/lib/libRlapack.dylib; LAPACK version 3.12.0
#>
#> locale:
#> [1] C/UTF-8/C/C/C/C
#>
#> time zone: Europe/Rome
#> tzcode source: internal
#>
#> attached base packages:
#> [1] stats graphics grDevices utils datasets methods base
#>
#> other attached packages:
#> [1] thematic_0.1.6 MetBrewer_0.2.0 ggokabeito_0.1.0 see_0.11.0
#> [5] gridExtra_2.3 patchwork_1.3.0 bayesplot_1.11.1 psych_2.5.3
#> [9] scales_1.3.0 markdown_2.0 knitr_1.50 lubridate_1.9.4
#> [13] forcats_1.0.0 stringr_1.5.1 dplyr_1.1.4 purrr_1.0.4
#> [17] readr_2.1.5 tidyr_1.3.1 tibble_3.2.1 ggplot2_3.5.1
#> [21] tidyverse_2.0.0 rio_1.2.3 here_1.0.1
#>
#> loaded via a namespace (and not attached):
#> [1] generics_0.1.3 stringi_1.8.4 lattice_0.22-6 hms_1.1.3
#> [5] digest_0.6.37 magrittr_2.0.3 evaluate_1.0.3 grid_4.4.2
#> [9] timechange_0.3.0 fastmap_1.2.0 rprojroot_2.0.4 jsonlite_1.9.1
#> [13] mnormt_2.1.1 cli_3.6.4 rlang_1.1.5 munsell_0.5.1
#> [17] withr_3.0.2 tools_4.4.2 parallel_4.4.2 tzdb_0.5.0
#> [21] colorspace_2.1-1 pacman_0.5.1 vctrs_0.6.5 R6_2.6.1
#> [25] lifecycle_1.0.4 htmlwidgets_1.6.4 pkgconfig_2.0.3 pillar_1.10.1
#> [29] gtable_0.3.6 glue_1.8.0 xfun_0.51 tidyselect_1.2.1
#> [33] rstudioapi_0.17.1 farver_2.1.2 htmltools_0.5.8.1 nlme_3.1-167
#> [37] rmarkdown_2.29 compiler_4.4.2