64  La grandezza dell’effetto: valutare la rilevanza pratica

In questo capitolo imparerai a
  • calcolare la grandezza dell’effetto usando brm() del pacchetto brms.
Prerequisiti
  • Consultare l’articolo “Bayesian estimation supersedes the t test” (Kruschke, 2013).
Preparazione del Notebook
here::here("code", "_common.R") |> 
  source()

# Load packages
if (!requireNamespace("pacman")) install.packages("pacman")
pacman::p_load(cmdstanr, posterior, brms, bayestestR, insight)

64.1 Introduzione

Nel capitolo precedente abbiamo esaminato la differenza nei punteggi di QI tra bambini nati da madri con e senza diploma di scuola superiore. L’analisi bayesiana ci ha permesso di ottenere una distribuzione a posteriori per questa differenza, da cui derivano inferenze probabilistiche ricche e sfumate. Ma un interrogativo cruciale rimane aperto: questa differenza è importante?

In psicologia, come in molte scienze applicate, non è sufficiente stabilire che un effetto esiste: bisogna valutare se l’effetto ha una magnitudine sufficiente da avere rilevanza teorica, clinica o sociale. È in questa prospettiva che si introduce il concetto di grandezza dell’effetto (effect size), una misura quantitativa dell’intensità di un risultato.

64.2 Perché stimare la grandezza dell’effetto

La grandezza dell’effetto fornisce un ponte tra analisi statistica e interpretazione sostanziale dei dati. Essa consente di rispondere a domande come:

  • Quanto è marcata la differenza osservata?
  • L’effetto ha un impatto concreto nella vita reale o nelle applicazioni cliniche?
  • La variazione osservata è sufficiente a giustificare interventi, cambiamenti o nuove ipotesi teoriche?

L’American Psychological Association (APA) raccomanda di riportare sempre una misura di grandezza dell’effetto, in quanto essa fornisce un’informazione critica che va oltre la mera dicotomia “effetto presente / effetto assente”.

64.3 Standardizzare le differenze: il Cohen’s d

Nel confronto tra due gruppi, una delle misure più comuni di grandezza dell’effetto è il Cohen’s d, che esprime la differenza tra due medie in unità di deviazione standard:

\[ d = \frac{\mu_1 - \mu_2}{\sigma}, \]

dove:

  • \(\mu_1\) e \(\mu_2\) sono le medie dei due gruppi,
  • \(\sigma\) è una stima comune della deviazione standard.

L’interpretazione di d è indipendente dalle unità di misura originali, il che la rende particolarmente utile per confrontare risultati provenienti da diversi studi o contesti.

64.4 Il Cohen’s d in ottica bayesiana

Nell’approccio bayesiano, non calcoliamo un unico valore di d, ma una distribuzione a posteriori di valori plausibili per d, ottenuta combinando:

  • i campioni posteriori della differenza tra gruppi,
  • i campioni posteriori della deviazione standard residua.

64.4.1 Esempio pratico con brms

A partire dal modello stimato nel capitolo precedente:

kidiq <- rio::import(here::here("data", "kidiq.dta"))

fit_1 <- brm(
  kid_score ~ mom_hs, 
  data = kidiq, 
  backend = "cmdstanr",
  silent = 0
)

Otteniamo i campioni posteriori:

post <- as_draws_df(fit_1)
d_samples <- post$b_mom_hs / post$sigma

64.4.2 Visualizzazione della distribuzione di d

mcmc_areas(as_draws_df(tibble(d = d_samples)), pars = "d", prob = 0.89) +
  labs(
    title = "Distribuzione a posteriori di Cohen's d",
    subtitle = "Stima bayesiana della grandezza dell’effetto"
  )

Questa distribuzione esprime l’incertezza residua sulla grandezza dell’effetto, dopo aver osservato i dati, ed è il punto di partenza per una valutazione più completa.

64.4.3 Statistiche riassuntive

bayestestR::describe_posterior(d_samples, ci = 0.89)
#> Summary of Posterior Distribution
#> 
#> Parameter | Median |       89% CI |   pd |          ROPE | % in ROPE
#> --------------------------------------------------------------------
#> Posterior |   0.59 | [0.41, 0.78] | 100% | [-0.10, 0.10] |        0%

Questa funzione fornisce:

  • la stima centrale (media o mediana) di d,
  • l’intervallo di credibilità,
  • la probabilità che d sia maggiore o minore di soglie rilevanti.

64.5 Interpretare la grandezza dell’effetto: da soglie fisse a giudizi probabilistici

In ambito frequentista, la seguente classificazione è comunemente usata:

Valore di d Interpretazione convenzionale
≈ 0.2 Effetto piccolo
≈ 0.5 Effetto medio
≥ 0.8 Effetto grande

Queste soglie hanno valore euristico, ma non vanno applicate meccanicamente. Nell’approccio bayesiano possiamo invece porre domande più informative, del tipo:

  • Qual è la probabilità che l’effetto superi 0.5 (soglia di effetto medio)?
  • Qual è la probabilità che sia minore di 0.2 (effetto trascurabile)?
  • Qual è l’intervallo entro cui cade il 89% degli effetti più credibili?

Queste domande trovano risposta diretta nei dati posteriori:

mean(d_samples > 0.5)  # Probabilità che l'effetto sia almeno medio
#> [1] 0.7873
mean(d_samples > 0.8)  # Probabilità che l'effetto sia grande
#> [1] 0.037
mean(d_samples < 0.2)  # Probabilità che l'effetto sia trascurabile
#> [1] 0.00025

64.6 La soglia di rilevanza pratica

In contesti applicativi, non basta sapere che l’effetto è diverso da zero: bisogna chiedersi se supera una soglia minima di rilevanza (minimum effect of interest, o region of practical equivalence).

Ad esempio, se uno psicologo clinico ritiene che un effetto inferiore a d = 0.3 sia irrilevante dal punto di vista terapeutico, può valutare:

mean(d_samples > 0.3)
#> [1] 0.9938

Questa quantità risponde alla domanda: qual è la probabilità che l’effetto sia rilevante nella pratica clinica?

64.7 Riflessioni conclusive

L’American Psychological Association (APA) raccomanda vivamente di riportare le dimensioni dell’effetto (effect size) nei lavori di ricerca, in aggiunta o in alternativa alla sola verifica di ipotesi. Questo perché l’effect size fornisce un’indicazione quantitativa della magnitudine di un fenomeno, offrendo una prospettiva più informativa rispetto alla sola significatività statistica. Conoscere l’esistenza di un effetto non basta: è necessario comprenderne l’entità per valutare se esso sia teoricamente interessante o praticamente rilevante.

Nel contesto della statistica frequentista, l’effect size è spesso presentato come una stima puntuale, accompagnata da un intervallo di confidenza che rappresenta la variabilità campionaria attesa in ipotetiche ripetizioni dell’esperimento. Tuttavia, questa rappresentazione può indurre interpretazioni dicotomiche (ad esempio: significativo/non significativo), che rischiano di semplificare eccessivamente la complessità dei dati.

L’approccio bayesiano, invece, adotta una prospettiva differente e più sfumata. L’effect size è trattato come una variabile aleatoria, di cui si stima una distribuzione a posteriori: una funzione di densità che esprime quali valori dell’effetto sono più compatibili con i dati osservati, tenendo conto anche delle conoscenze pregresse (esplicitate attraverso una distribuzione a priori). Questo consente di:

  • formulare affermazioni probabilistiche dirette, del tipo: “c’è il 90% di probabilità che l’effetto sia almeno di media grandezza”;
  • quantificare l’incertezza in modo trasparente e continuo, evitando l’uso di soglie arbitrarie;
  • integrare teoria e dati: le aspettative teoriche non sono ignorate, ma formalmente incorporate nel processo inferenziale.

Questa modalità di ragionamento è particolarmente adatta alle scienze psicologiche, dove la complessità dei fenomeni e la variabilità interindividuale sono elevati. L’obiettivo non è stabilire una verità assoluta, ma descrivere in modo credibile e informato quanto plausibile sia un certo effetto, in relazione ai dati disponibili.

In questo senso, la dimensione dell’effetto diventa uno strumento inferenziale a pieno titolo, non soltanto un valore da riportare a margine. Essa permette di esprimere con maggiore chiarezza comunicativa quanto i risultati ottenuti siano compatibili con ipotesi teoriche, cliniche o applicative, stimolando riflessioni più ricche e meno soggette a distorsioni interpretative.

In conclusione, adottare una prospettiva bayesiana sull’analisi della dimensione dell’effetto significa spostarsi da un paradigma decisionale rigido a uno probabilistico e argomentativo, in cui i risultati vengono valutati alla luce della loro plausibilità, coerenza teorica e rilevanza pratica. Questo approccio non solo migliora la qualità dell’inferenza, ma contribuisce a una scienza psicologica più trasparente, riflessiva e orientata al significato.

Informazioni sull’Ambiente di Sviluppo

sessionInfo()
#> R version 4.5.0 (2025-04-11)
#> Platform: aarch64-apple-darwin20
#> Running under: macOS Sequoia 15.5
#> 
#> Matrix products: default
#> BLAS:   /Library/Frameworks/R.framework/Versions/4.5-arm64/Resources/lib/libRblas.0.dylib 
#> LAPACK: /Library/Frameworks/R.framework/Versions/4.5-arm64/Resources/lib/libRlapack.dylib;  LAPACK version 3.12.1
#> 
#> locale:
#> [1] C/UTF-8/C/C/C/C
#> 
#> time zone: Europe/Rome
#> tzcode source: internal
#> 
#> attached base packages:
#> [1] stats     graphics  grDevices utils     datasets  methods   base     
#> 
#> other attached packages:
#>  [1] insight_1.3.0     bayestestR_0.16.0 brms_2.22.0       Rcpp_1.0.14      
#>  [5] posterior_1.6.1   cmdstanr_0.9.0    thematic_0.1.7    MetBrewer_0.2.0  
#>  [9] ggokabeito_0.1.0  see_0.11.0        gridExtra_2.3     patchwork_1.3.0  
#> [13] bayesplot_1.13.0  psych_2.5.3       scales_1.4.0      markdown_2.0     
#> [17] knitr_1.50        lubridate_1.9.4   forcats_1.0.0     stringr_1.5.1    
#> [21] dplyr_1.1.4       purrr_1.0.4       readr_2.1.5       tidyr_1.3.1      
#> [25] tibble_3.3.0      ggplot2_3.5.2     tidyverse_2.0.0   rio_1.2.3        
#> [29] here_1.0.1       
#> 
#> loaded via a namespace (and not attached):
#>  [1] mnormt_2.1.1         inline_0.3.21        sandwich_3.1-1      
#>  [4] rlang_1.1.6          magrittr_2.0.3       multcomp_1.4-28     
#>  [7] matrixStats_1.5.0    ggridges_0.5.6       compiler_4.5.0      
#> [10] loo_2.8.0            vctrs_0.6.5          reshape2_1.4.4      
#> [13] pkgconfig_2.0.3      fastmap_1.2.0        backports_1.5.0     
#> [16] labeling_0.4.3       rmarkdown_2.29       tzdb_0.5.0          
#> [19] haven_2.5.5          ps_1.9.1             xfun_0.52           
#> [22] jsonlite_2.0.0       parallel_4.5.0       R6_2.6.1            
#> [25] stringi_1.8.7        RColorBrewer_1.1-3   StanHeaders_2.32.10 
#> [28] estimability_1.5.1   rstan_2.32.7         zoo_1.8-14          
#> [31] pacman_0.5.1         R.utils_2.13.0       Matrix_1.7-3        
#> [34] splines_4.5.0        timechange_0.3.0     tidyselect_1.2.1    
#> [37] rstudioapi_0.17.1    abind_1.4-8          yaml_2.3.10         
#> [40] codetools_0.2-20     curl_6.3.0           processx_3.8.6      
#> [43] pkgbuild_1.4.8       lattice_0.22-7       plyr_1.8.9          
#> [46] withr_3.0.2          bridgesampling_1.1-2 coda_0.19-4.1       
#> [49] evaluate_1.0.4       survival_3.8-3       RcppParallel_5.1.10 
#> [52] pillar_1.10.2        tensorA_0.36.2.1     checkmate_2.3.2     
#> [55] stats4_4.5.0         distributional_0.5.0 generics_0.1.4      
#> [58] rprojroot_2.0.4      hms_1.1.3            rstantools_2.4.0    
#> [61] xtable_1.8-4         glue_1.8.0           emmeans_1.11.1      
#> [64] tools_4.5.0          data.table_1.17.6    mvtnorm_1.3-3       
#> [67] grid_4.5.0           QuickJSR_1.8.0       datawizard_1.1.0    
#> [70] colorspace_2.1-1     nlme_3.1-168         cli_3.6.5           
#> [73] Brobdingnag_1.2-9    V8_6.0.4             gtable_0.3.6        
#> [76] R.methodsS3_1.8.2    digest_0.6.37        TH.data_1.1-3       
#> [79] htmlwidgets_1.6.4    farver_2.1.2         htmltools_0.5.8.1   
#> [82] R.oo_1.27.1          lifecycle_1.0.4      MASS_7.3-65

Bibliografia

Kruschke, J. K. (2013). Bayesian estimation supersedes the t test. Journal of Experimental Psychology: General, 142(2), 573–603.