96 La fragilità del p-valore

In questo capitolo imparerai a

verificare quanto il valore-\(p\) varia da campione a campione.

Prerequisiti

Leggere il seguente post sul blog di Andrew Gelman.

Preparazione del Notebook

here::here("code", "_common.R") |> 
  source()

96.1 Introduzione

Questo capitolo analizza la fragilità dei valori-\(p\) e la loro variabilità in diversi campioni. Attraverso una simulazione, dimostreremo come l’uso dei valori-\(p\) come criterio per valutare la rilevanza sostanziale di un risultato costituisca un errore metodologico. L’analisi si basa su un approccio critico ispirato da una discussione proposta da Andrew Gelman nel suo blog.

96.2 Simulazione

Questa simulazione mira a dimostrare quanto i valori-\(p\) possano essere instabili e variare notevolmente da campione a campione, anche quando i dati provengono dalla stessa distribuzione. Ciò evidenzia come il valore-\(p\), comunemente utilizzato per valutare la significatività statistica di un effetto, possa essere fortemente influenzato dalla variabilità campionaria, specialmente in campioni di piccole dimensioni o con effetti deboli. Gelman & Stern (2006) esprimono questo concetto affermando che:

La differenza tra “significativo” e “non significativo” non è di per sé statisticamente significativa.

96.2.1 Logica della Simulazione

Obiettivo:
- Dimostrare la variabilità dei valori-\(p\) calcolati su diversi campioni estratti da una popolazione con una media molto vicina a zero.
- Mostrare come, nonostante l’effetto reale sia piccolo, i valori-\(p\) possano variare notevolmente a seconda della variabilità della popolazione e delle dimensioni del campione.
Setup della Simulazione:
- Generiamo \(J = 10\) campioni indipendenti, ciascuno con un numero ridotto di osservazioni (\(n = 10\)), per massimizzare la variabilità dei risultati.
- Ogni campione è generato da una distribuzione normale con una media vera di \(\mu = 0.05\) e una deviazione standard di \(\sigma = 0.1\). Questi parametri sono scelti per rendere la media dei campioni vicina a zero, mantenendo una certa variabilità.
Calcolo della media campionaria:
- Per ciascun campione, calcoliamo la media (\(\hat{\mu}\)) e la deviazione standard (\(\hat{\sigma}\)).
- La media del campione (\(\hat{\mu}\)) è utilizzata come stima del parametro.
Calcolo del valore-\(p\):
- Applichiamo un \(t\)-test per ciascun campione per verificare l’ipotesi nulla (\(H_0\)) che la media del campione sia zero.
- Il valore-\(p\) viene calcolato utilizzando la formula classica del \(t\)-test:
  
  \[ t = \frac{\hat{\mu}}{\frac{\hat{\sigma}}{\sqrt{n}}} \]
  
  dove:
  - \(\hat{\mu}\) è la media del campione,
  - \(\hat{\sigma}\) è la deviazione standard del campione,
  - \(n\) è il numero di osservazioni per campione.
- Successivamente, il valore-\(p\) è calcolato come:
  
  \[ \text{p-value} = 2 \times (1 - \text{CDF}(|t|)) \]
  
  dove \(\text{CDF}\) è la funzione cumulativa della distribuzione \(t\) con \(n-1\) gradi di libertà.

96.2.2 Descrizione della Sintassi

Il codice R è strutturato come segue:

Generazione dei campioni:
- Creiamo una lista di campioni (10 campioni in totale), ciascuno con 10 osservazioni, utilizzando la distribuzione normale con media 0.05 e deviazione standard 0.1.
Calcolo delle medie e dei valori-\(p\):
- Iteriamo su ciascun campione per calcolare la media (\(\hat{\mu}\)) e la deviazione standard (\(\hat{\sigma}\)).
- Calcoliamo il valore statistico \(t\) e il corrispondente valore-\(p\) utilizzando la distribuzione \(t\).
Stampa dei risultati:
- I valori-\(p\) vengono arrotondati e stampati per osservare la loro variabilità.

# Imposta il seme per riproducibilità
set.seed(1234)

# Parametri della simulazione
J <- 10              # Numero di campioni indipendenti
n <- 10              # Numero di osservazioni per campione
true_mean <- 0.05    # Media vera della popolazione
true_sd <- 0.1       # Deviazione standard della popolazione

# Genera i campioni casuali
samples <- replicate(J, rnorm(n, mean = true_mean, sd = true_sd), simplify = FALSE)

# Calcola statistiche campionarie e p-valori
results <- lapply(samples, function(sample) {
  sample_mean <- mean(sample)                         # Media campionaria
  sample_sd <- sd(sample)                             # Deviazione standard campionaria
  t_statistic <- sample_mean / (sample_sd / sqrt(n))  # Statistica t
  p_value <- 2 * (1 - pt(abs(t_statistic), df = n - 1))  # valore-$p$ bilaterale
  list(mean = sample_mean, sd = sample_sd, t = t_statistic, p_value = p_value)
})

# Converti i risultati in un data frame per facilitarne la visualizzazione
results_df <- do.call(rbind, lapply(results, as.data.frame))
rownames(results_df) <- paste("C", 1:J)

# Visualizza i risultati
print(results_df)
#>         mean     sd      t p_value
#> C 1   0.0117 0.0996  0.371 0.71918
#> C 2   0.0382 0.1067  1.131 0.28718
#> C 3   0.0112 0.0666  0.532 0.60758
#> C 4  -0.0266 0.0894 -0.941 0.37112
#> C 5  -0.0110 0.0787 -0.441 0.66955
#> C 6   0.0221 0.1186  0.590 0.56994
#> C 7   0.1117 0.1144  3.086 0.01301
#> C 8   0.0458 0.0924  1.567 0.15157
#> C 9   0.0342 0.0735  1.470 0.17575
#> C 10  0.1061 0.0984  3.409 0.00776

ggplot(results_df, aes(x = rownames(results_df), y = p_value)) +
  geom_point(size = 3, color = "blue") +
  geom_hline(yintercept = 0.05, linetype = "dashed", color = "red") +
  labs(
    title = "Variabilità dei p-valori",
    x = "Campioni",
    y = "valore-p"
  )

96.2.3 Interpretazione dei Risultati

In un tipico esperimento, i risultati potrebbero variare notevolmente tra i diversi campioni analizzati. Alcuni campioni potrebbero essere pienamente compatibili con il rumore statistico, mentre altri potrebbero suggerire lievi evidenze contro l’ipotesi nulla. Altri ancora potrebbero addirittura apparire altamente significativi dal punto di vista statistico.

Tuttavia, la differenza tra ‘statisticamente significativo’ e ‘non significativo’ non sempre corrisponde a una distinzione scientificamente rilevante nel fenomeno studiato. Ad esempio, un valore-\(p\) di 0.003 potrebbe sembrare drasticamente diverso da uno di 0.336, ma questa discrepanza, di per sé, non implica un’effettiva differenza sostanziale.

Questa situazione estrema emerge quando non esiste alcuna vera variazione sottostante tra i campioni. In tali casi, un modello multilivello rivelerebbe che le apparenti differenze osservate non rappresentano un’effettiva variabilità degna di interesse, ma fluttuazioni casuali intorno a un effetto nullo.

96.2.4 Punti Chiave

Il valore-\(p\) descrive solo l’ipotesi nulla: È una misura relativa all’assenza di effetto, ma non ha necessariamente un significato diretto rispetto a un effetto reale, anche se piccolo.
Il valore-\(p\) è altamente variabile: Essendo una trasformazione non lineare dello z-score, il valore-\(p\) può comportarsi in modi non intuitivi, soprattutto con campioni piccoli.
Le simulazioni sono istruttive: Anche esperimenti semplici come questo possono essere estremamente utili per comprendere le limitazioni e l’interpretazione dei risultati.

96.2.5 Un Avvertimento Importante

Anche le inferenze bayesiane sono soggette a variabilità. Qualsiasi sintesi dei dati porta con sé un certo grado di incertezza. Il problema non risiede nei valori-\(p\) in sé, ma nel loro utilizzo scorretto. Interpretare un valore-\(p\) come una dichiarazione forte sulla realtà, invece di considerarlo un riassunto rumoroso di un esperimento specifico, è un errore comune.

Allo stesso modo, fraintendimenti e sovrainterpretazioni possono verificarsi anche con approcci bayesiani. Ad esempio, l’adattamento di un modello con prior non informativi e l’interpretazione della probabilità posteriore di un parametro (ad esempio, maggiore di zero) sulla base di una soglia arbitraria può portare a conclusioni altrettanto problematiche. Questi risultati ci ricordano l’importanza di una sana cautela nell’interpretazione statistica, indipendentemente dal metodo utilizzato.

96.3 Riflessioni Conclusive

La simulazione mostra che, nonostante le medie dei campioni siano generate con una distribuzione simile, i valori-\(p\) possono variare drasticamente. Questo effetto è amplificato dalla scelta di campioni piccoli e di una media vera molto vicina all’ipotesi nulla (zero). Ciò dimostra quanto il valore-\(p\) possa essere influenzato da piccole variazioni nei dati e perché non sia sempre un indicatore affidabile per valutare l’efficacia o la presenza di un effetto.

In generale, la domanda importante dal punto di vista scientifico non è se in un particolare campione è stato ottenuto un risultato statisticamente significativo, ma se l’effetto osservato in quel campione sia generalizzabile ad altri campioni e a dati futuri. Solo in questo secondo caso possiamo concludere, con un certo grado di certezza, di aver compreso qualcosa di rilevante sul fenomeno studiato.

Informazioni sull’Ambiente di Sviluppo

sessionInfo()
#> R version 4.5.1 (2025-06-13)
#> Platform: aarch64-apple-darwin20
#> Running under: macOS Sequoia 15.6.1
#> 
#> Matrix products: default
#> BLAS:   /Library/Frameworks/R.framework/Versions/4.5-arm64/Resources/lib/libRblas.0.dylib 
#> LAPACK: /Library/Frameworks/R.framework/Versions/4.5-arm64/Resources/lib/libRlapack.dylib;  LAPACK version 3.12.1
#> 
#> locale:
#> [1] C/UTF-8/C/C/C/C
#> 
#> time zone: Europe/Rome
#> tzcode source: internal
#> 
#> attached base packages:
#> [1] stats     graphics  grDevices utils     datasets  methods   base     
#> 
#> other attached packages:
#>  [1] pillar_1.11.0         tinytable_0.13.0      patchwork_1.3.2      
#>  [4] ggdist_3.3.3          tidybayes_3.0.7       bayesplot_1.14.0     
#>  [7] ggplot2_3.5.2         reliabilitydiag_0.2.1 priorsense_1.1.1     
#> [10] posterior_1.6.1       loo_2.8.0             rstan_2.32.7         
#> [13] StanHeaders_2.32.10   brms_2.22.0           Rcpp_1.1.0           
#> [16] sessioninfo_1.2.3     conflicted_1.2.0      janitor_2.2.1        
#> [19] matrixStats_1.5.0     modelr_0.1.11         tibble_3.3.0         
#> [22] dplyr_1.1.4           tidyr_1.3.1           rio_1.2.3            
#> [25] here_1.0.1           
#> 
#> loaded via a namespace (and not attached):
#>  [1] svUnit_1.0.8          tidyselect_1.2.1      farver_2.1.2         
#>  [4] fastmap_1.2.0         TH.data_1.1-4         tensorA_0.36.2.1     
#>  [7] digest_0.6.37         timechange_0.3.0      estimability_1.5.1   
#> [10] lifecycle_1.0.4       survival_3.8-3        magrittr_2.0.3       
#> [13] compiler_4.5.1        rlang_1.1.6           tools_4.5.1          
#> [16] knitr_1.50            labeling_0.4.3        bridgesampling_1.1-2 
#> [19] htmlwidgets_1.6.4     curl_7.0.0            pkgbuild_1.4.8       
#> [22] RColorBrewer_1.1-3    abind_1.4-8           multcomp_1.4-28      
#> [25] withr_3.0.2           purrr_1.1.0           grid_4.5.1           
#> [28] stats4_4.5.1          colorspace_2.1-1      xtable_1.8-4         
#> [31] inline_0.3.21         emmeans_1.11.2-8      scales_1.4.0         
#> [34] MASS_7.3-65           cli_3.6.5             mvtnorm_1.3-3        
#> [37] rmarkdown_2.29        ragg_1.5.0            generics_0.1.4       
#> [40] RcppParallel_5.1.11-1 cachem_1.1.0          stringr_1.5.1        
#> [43] splines_4.5.1         parallel_4.5.1        vctrs_0.6.5          
#> [46] V8_7.0.0              Matrix_1.7-4          sandwich_3.1-1       
#> [49] jsonlite_2.0.0        arrayhelpers_1.1-0    systemfonts_1.2.3    
#> [52] glue_1.8.0            codetools_0.2-20      distributional_0.5.0 
#> [55] lubridate_1.9.4       stringi_1.8.7         gtable_0.3.6         
#> [58] QuickJSR_1.8.0        htmltools_0.5.8.1     Brobdingnag_1.2-9    
#> [61] R6_2.6.1              textshaping_1.0.3     rprojroot_2.1.1      
#> [64] evaluate_1.0.5        lattice_0.22-7        backports_1.5.0      
#> [67] memoise_2.0.1         broom_1.0.9           snakecase_0.11.1     
#> [70] rstantools_2.5.0      coda_0.19-4.1         gridExtra_2.3        
#> [73] nlme_3.1-168          checkmate_2.3.3       xfun_0.53            
#> [76] zoo_1.8-14            pkgconfig_2.0.3

Bibliografia

Gelman, A., & Stern, H. (2006). The difference between «significant» and «not significant» is not itself statistically significant. The American Statistician, 60(4), 328–331.