76 La grandezza del campione
76.1 Introduzione
La scelta della dimensione del campione è fondamentale per garantire che i risultati di uno studio siano affidabili, bilanciando precisione e costi. In questo capitolo, esamineremo come calcolare la dimensione minima del campione necessaria per stimare la media di una popolazione con un margine di errore prefissato e un determinato livello di confidenza. Utilizzeremo un esempio tratto dalla psicologia per illustrare il processo e fornire implementazioni pratiche in R.
76.2 La Logica Dietro la Scelta della Dimensione Campionaria
In psicologia, è comune stimare la media di una variabile (ad esempio, il punteggio medio di una scala psicometrica). I vantaggi di utilizzare campioni più grandi includono:
- Stime più precise: Con un campione più grande, la varianza dell’estimatore diminuisce, rendendo le stime più accurate.
- Maggiore fiducia nei risultati: Un campione più grande riduce il margine di errore, aumentando la certezza dei risultati.
Tuttavia, i campioni più grandi richiedono risorse maggiori in termini di tempo e denaro. Pertanto, il problema si riduce spesso a trovare il campione più piccolo che garantisca la precisione desiderata.
76.3 Calcolo della Dimensione Campionaria
Per campioni sufficientemente grandi, la media campionaria \(\bar{X}\) segue una distribuzione normale:
\[ \bar{X} \sim \mathcal{N}\left(\mu, \frac{\sigma^2}{n}\right), \]
dove:
- \(n\) è la dimensione del campione,
- \(\mu\) è la vera media della popolazione,
- \(\sigma^2\) è la varianza della popolazione.
Il nostro obiettivo è trovare la dimensione campionaria \(n\) tale che:
\[ P\left(|\bar{X} - \mu| < E\right) \geq 0.95, \]
dove:
- \(\bar{X}\) è la media campionaria,
- \(\mu\) è la media della popolazione,
- \(E\) è il margine di errore massimo accettabile.
Sappiamo che, per il teorema centrale del limite, la media campionaria \(\bar{X}\) può essere standardizzata come segue:
\[ Z = \frac{\bar{X} - \mu}{\sigma / \sqrt{n}}. \]
Questa quantità \(Z\) segue una distribuzione normale standard \(\mathcal{N}(0, 1)\).
Quindi, possiamo riscrivere la probabilità richiesta come:
\[ P\left(|\bar{X} - \mu| < E\right) = P\left(|Z| < z_{0.025}\right), \]
dove \(z_{0.025} = 1.96\) è il quantile superiore della distribuzione normale standard corrispondente a un livello di confidenza del \(95\%\).
Dalla definizione della variabile standardizzata \(Z\), possiamo ricavare la relazione per il margine di errore:
\[ |\bar{X} - \mu| < E \implies Z = \frac{\bar{X} - \mu}{\sigma / \sqrt{n}} \implies \left|\frac{\bar{X} - \mu}{\sigma / \sqrt{n}}\right| < \frac{E}{\sigma / \sqrt{n}}. \]
Sostituendo la condizione \(|Z| < z_{0.025}\), otteniamo:
\[ \frac{E}{\sigma / \sqrt{n}} = z_{0.025}. \]
Risolvendo per \(\sqrt{n}\), moltiplichiamo entrambi i membri per \(\sigma / \sqrt{n}\):
\[ E = z_{0.025} \cdot \frac{\sigma}{\sqrt{n}}. \]
Isoliamo \(\sqrt{n}\) dividendo entrambi i membri per \(z_{0.025} \cdot \sigma\):
\[ \sqrt{n} = \frac{z_{0.025} \cdot \sigma}{E}. \]
Infine, eleviamo entrambi i membri al quadrato per ottenere \(n\):
\[ n = \left(\frac{z_{0.025} \cdot \sigma}{E}\right)^2. \]
In conclusione, la dimensione campionaria minima \(n\) necessaria per soddisfare il margine di errore \(E\) e il livello di confidenza richiesto è:
\[ n = \left(\frac{z_{0.025} \cdot \sigma}{E}\right)^2. \]
76.4 Stima della Media del Punteggio di Autostima
Consideriamo un esempio pratico: vogliamo stimare la media del punteggio di autostima in una popolazione di giovani adulti, utilizzando la Rosenberg Self-Esteem Scale (RSES), che assegna un punteggio compreso tra 0 e 30.
Dettagli del Problema:
- Deviazione standard del punteggio: \(\sigma = 6\) (stimata da studi precedenti).
- Margine di errore massimo accettabile: \(E = 2\).
- Livello di confidenza: \(95\%\).
Implementiamo in R la formula derivata in precedenza.
# Parametri del problema
sigma <- 6 # Deviazione standard del punteggio RSES
E <- 2 # Margine di errore desiderato
z_alpha <- qnorm(0.975) # Quantile superiore della distribuzione normale (95% confidenza)
# Calcolo della dimensione campionaria
n <- (z_alpha * sigma / E)^2
n <- ceiling(n) # Arrotondamento all'intero successivo
n
#> [1] 35
In conclusione, la dimensione campionaria minima necessaria per stimare la media del punteggio di autostima con un margine di errore massimo di 2 punti e un livello di confidenza del 95% è \(n = 35\).
76.4.1 Approfondimenti
-
Precisione e Livello di Confidenza Aumentando \(n\), la varianza di \(\bar{X}\) diminuisce:
\[ \text{Var}(\bar{X}) = \frac{\sigma^2}{n}. \]
Questo restringe l’intervallo di confidenza e migliora la precisione.
Costo e Praticità Un campione più grande comporta costi più elevati. È importante trovare il giusto compromesso tra precisione e fattibilità.
Adattamento ad Altri Livelli di Confidenza Per altri livelli di confidenza, basta modificare il quantile \(z_{\alpha/2}\). Ad esempio, per un livello di confidenza del 99%, \(z_{0.005} \approx\) 2.576.
76.5 Riflessioni Conclusive
Definire la dimensione del campione rappresenta un passaggio cruciale nella progettazione di qualsiasi studio psicologico. Un approccio matematico rigoroso, fondato su analisi di potenza statistica e stime di effetti attesi, consente di ottimizzare il bilanciamento tra precisione dei risultati e limitazioni pratiche, come tempi, costi e disponibilità dei partecipanti. Questo equilibrio è fondamentale per garantire che i dati raccolti siano sufficientemente robusti da supportare conclusioni valide, senza tuttavia sprecare risorse in campioni eccessivamente ampi. Una corretta determinazione del campione contribuisce inoltre a ridurre il rischio di errori di tipo I e II, rafforzando l’integrità scientifica della ricerca.
Nel confronto tra paradigmi statistici, l’approccio frequentista si distingue per la sua enfasi sul controllo degli errori e sulla replicabilità attraverso il calcolo del valore p e della potenza statistica. Questo metodo richiede una rigorosa pianificazione preliminare, con la determinazione a priori della dimensione del campione basata su stime dell’effetto atteso e soglie prefissate di significatività e potenza. Tale rigidità metodologica, sebbene garantisca standardizzazione e controllo degli errori di Tipo I, può presentare notevoli limitazioni. In particolare, non permette modifiche alla dimensione del campione durante lo studio senza compromettere la validità statistica e può portare al problema dello “optional stopping”, dove il controllo ripetuto dei risultati aumenta il rischio di falsi positivi.
L’approccio bayesiano, d’altra parte, offre una prospettiva complementare, ponendo l’accento sulla stima e sull’aggiornamento delle credenze in base ai dati osservati. Nel contesto bayesiano, la dimensione del campione non è solo uno strumento per garantire la significatività statistica, ma diventa un mezzo per affinare la precisione delle stime a posteriori. Questo approccio si caratterizza per una maggiore flessibilità, permettendo il monitoraggio continuo dell’evidenza attraverso i fattori di Bayes e l’aggiornamento sequenziale delle stime di probabilità. L’uso di distribuzioni a priori consente di incorporare conoscenze pregresse, portando a distribuzioni a posteriori che quantificano l’incertezza in modo più intuitivo e direttamente interpretabile.
La scelta di quando interrompere la raccolta dati rappresenta un esempio emblematico delle differenze tra i due approcci. Mentre il metodo frequentista richiede una dimensione campionaria fissa determinata a priori, l’approccio bayesiano permette una maggiore flessibilità, consentendo di interrompere la raccolta quando si raggiunge un livello desiderato di precisione nelle stime posteriori. Tuttavia, questa flessibilità comporta anche sfide specifiche, come la necessità di specificare distribuzioni a priori appropriate e una maggiore complessità computazionale.
Una soluzione pragmatica potrebbe essere l’integrazione dei punti di forza di entrambi gli approcci. Si potrebbe utilizzare l’analisi della potenza frequentista per stabilire una dimensione minima del campione, implementando poi un monitoraggio bayesiano per valutare quando l’evidenza raccolta è sufficiente. Questo approccio integrato dovrebbe essere guidato da regole decisionali stabilite a priori e supportato da analisi di sensitività per valutare la robustezza delle conclusioni.
In sintesi, la scelta della dimensione del campione e la decisione su quando concludere la raccolta dati non dovrebbero essere viste solo come problemi tecnici, ma come opportunità per riflettere sulle priorità della ricerca, sul contesto teorico e sulle metodologie più adatte. La combinazione dei punti di forza degli approcci frequentista e bayesiano può portare a una ricerca più robusta, flessibile e informativa, contribuendo a un progresso scientifico più solido e sfaccettato. Tale scelta metodologica deve considerare gli obiettivi specifici dello studio, le risorse disponibili, i requisiti delle riviste scientifiche e la natura delle ipotesi da testare, bilanciando le esigenze di precisione con quelle di praticabilità. Pertanto, investire tempo nella pianificazione di questo aspetto non è solo una scelta metodologica, ma un imperativo etico per chiunque si impegni nella produzione di conoscenza psicologica.
Esercizi
Informazioni sull’Ambiente di Sviluppo
sessionInfo()
#> R version 4.5.0 (2025-04-11)
#> Platform: aarch64-apple-darwin20
#> Running under: macOS Sequoia 15.5
#>
#> Matrix products: default
#> BLAS: /Library/Frameworks/R.framework/Versions/4.5-arm64/Resources/lib/libRblas.0.dylib
#> LAPACK: /Library/Frameworks/R.framework/Versions/4.5-arm64/Resources/lib/libRlapack.dylib; LAPACK version 3.12.1
#>
#> locale:
#> [1] C/UTF-8/C/C/C/C
#>
#> time zone: Europe/Rome
#> tzcode source: internal
#>
#> attached base packages:
#> [1] stats graphics grDevices utils datasets methods base
#>
#> other attached packages:
#> [1] thematic_0.1.6 MetBrewer_0.2.0 ggokabeito_0.1.0 see_0.11.0
#> [5] gridExtra_2.3 patchwork_1.3.0 bayesplot_1.12.0 psych_2.5.3
#> [9] scales_1.4.0 markdown_2.0 knitr_1.50 lubridate_1.9.4
#> [13] forcats_1.0.0 stringr_1.5.1 dplyr_1.1.4 purrr_1.0.4
#> [17] readr_2.1.5 tidyr_1.3.1 tibble_3.2.1 ggplot2_3.5.2
#> [21] tidyverse_2.0.0 rio_1.2.3 here_1.0.1
#>
#> loaded via a namespace (and not attached):
#> [1] generics_0.1.4 stringi_1.8.7 lattice_0.22-7
#> [4] hms_1.1.3 digest_0.6.37 magrittr_2.0.3
#> [7] evaluate_1.0.3 grid_4.5.0 timechange_0.3.0
#> [10] RColorBrewer_1.1-3 fastmap_1.2.0 rprojroot_2.0.4
#> [13] jsonlite_2.0.0 mnormt_2.1.1 cli_3.6.5
#> [16] rlang_1.1.6 withr_3.0.2 tools_4.5.0
#> [19] parallel_4.5.0 tzdb_0.5.0 pacman_0.5.1
#> [22] vctrs_0.6.5 R6_2.6.1 lifecycle_1.0.4
#> [25] htmlwidgets_1.6.4 pkgconfig_2.0.3 pillar_1.10.2
#> [28] gtable_0.3.6 glue_1.8.0 xfun_0.52
#> [31] tidyselect_1.2.1 rstudioapi_0.17.1 farver_2.1.2
#> [34] htmltools_0.5.8.1 nlme_3.1-168 rmarkdown_2.29
#> [37] compiler_4.5.0