37 Modelli statistici

Introduzione

Negli ultimi anni, la psicologia ha vissuto un profondo ripensamento metodologico, sollecitato dalla cosiddetta crisi della replicabilità. Una delle critiche principali emerse in questo dibattito riguarda la tendenza della ricerca tradizionale a concentrarsi prevalentemente sull’identificazione di associazioni statistiche tra variabili, trascurando la modellazione dei processi psicologici sottostanti che potrebbero aver generato i dati osservati.

Sebbene un approccio descrittivo possa rivelarsi utile in determinate circostanze, presenta due limiti fondamentali. In primo luogo, tende a produrre risultati fragili e difficilmente replicabili, in quanto le relazioni identificate non sono ancorate a una solida teoria riguardante i meccanismi causali che le generano. In secondo luogo, contribuisce a mantenere un divario tra la psicologia e altre discipline scientifiche, come la fisica, la biologia o l’economia, che da tempo basano il proprio progresso sulla costruzione di modelli formali in grado di rappresentare esplicitamente i processi alla base dei fenomeni osservati.

Panoramica del capitolo

Cosa significa descrivere i dati rispetto a spiegare i processi che li generano.
I limiti dei modelli fenomenologici e perché possono indurre in errore.
Il ruolo delle distribuzioni di probabilità per rappresentare l’incertezza.
Come confrontare modelli alternativi e scegliere quelli che meglio descrivono i dati e generalizzano a nuovi contesti.

Prerequisiti

Leggere il capitolo Common Statistical Models del testo di Chan & Kroese (2025).

Preparazione del Notebook

37.1 Preparazione del Notebook

here::here("code", "_common.R") |> 
  source()

37.1.1 Dalla correlazione alla spiegazione

Un modello che si limita a stimare una correlazione o una regressione lineare può dirci se due variabili sono associate, ma non ci spiega il perché. Per esempio, osservare un’associazione tra stress e rendimento accademico è informativo, ma non basta per capire il processo attraverso cui lo stress influisce (o non influisce) sulla performance.

Il passo successivo consiste nel cercare di rappresentare come i dati emergono dai processi psicologici sottostanti. In altre parole, si sposta l’attenzione dalle semplici relazioni osservate ai meccanismi che le generano.

37.1.1.1 Perché questo cambiamento è cruciale?

Questo cambiamento è cruciale perché permette di costruire modelli più vicini alla realtà dei fenomeni psicologici, rende le teorie più precise e testabili e fornisce risultati più robusti e potenzialmente più replicabili, in quanto radicati in una rappresentazione del processo e non solo in un campione di dati.

37.1.2 Anticipazione

Nei prossimi capitoli di questa sezione del manuale vedremo come questo approccio si traduca in pratica: non ci limiteremo a presentare i modelli di regressione nelle loro diverse varianti, ma esploreremo anche modelli che cercano di descrivere processi psicologici espliciti, come ad esempio il modello di Rescorla-Wagner per l’apprendimento associativo.

L’obiettivo non è sostituire l’analisi statistica classica, ma integrarla con strumenti che ci aiutino a rispondere a una domanda più ambiziosa: quali processi mentali plausibili possono aver generato i dati che osserviamo?

37.2 Campionamento indipendente da una distribuzione fissa

Molti modelli statistici tradizionali si basano sull’assunzione fondamentale che i dati osservati rappresentino un processo di campionamento indipendente da una distribuzione fissa. Prendiamo ad esempio il caso dei punteggi di ansia misurati in un campione di studenti: si assume che questi punteggi seguano una distribuzione normale caratterizzata da una media $\mu$ e una deviazione standard $\sigma$.

In questo quadro concettuale:

ogni singola osservazione viene considerata come un’estrazione indipendente dalla stessa distribuzione di probabilità sottostante;
l’obiettivo principale del modello statistico diventa quindi la stima dei parametri che definiscono questa distribuzione ($\mu$ e $\sigma$).

Questo approccio presenta indubbi vantaggi per la descrizione sintetica dei dati e l’identificazione delle loro caratteristiche distributive fondamentali. Tuttavia, è importante riconoscere i suoi limiti concettuali: questa prospettiva rimane essenzialmente muta riguardo ai meccanismi attraverso i quali i livelli di ansia effettivamente emergono o si modificano nel tempo. In altre parole, descrive i dati nella loro manifestazione osservabile (“così come sono”), ma non offre alcuna insight sui processi psicologici dinamici che li hanno generati.

37.3 Modelli fenomenologici: descrivere le associazioni

Un passo in più è rappresentato dai modelli che analizzano relazioni tra variabili, come la regressione lineare o logistica. Questi approcci ci permettono di andare oltre la semplice descrizione di una distribuzione, consentendoci di studiare sistematicamente come una variabile dipendente cambia in funzione di una o più variabili indipendenti.

Per esempio, possiamo modellare la relazione tra stress e rendimento accademico, verificando empiricamente se un aumento dei livelli di stress corrisponde effettivamente a un calo delle performance scolastiche.

Questi modelli statistici sono estremamente diffusi e costituiscono il fondamento metodologico di gran parte della ricerca psicologica contemporanea. Tuttavia, è importante riconoscere che rimangono essenzialmente modelli fenomenologici: descrivono efficacemente che cosa accade (documentando ad esempio l’esistenza di una correlazione tra stress e rendimento), ma non sono in grado di spiegare perché tale relazione esista.

Un modello di regressione, infatti, non può dirci se lo stress riduce direttamente il rendimento, se entrambe le variabili sono influenzate da un fattore terzo (come il supporto sociale), o se la relazione evolve nel tempo attraverso complesse dinamiche di adattamento psicologico. Questa fragilità metodologica ha contribuito direttamente alla crisi di replicazione: modelli che descrivono soltanto associazioni spesso sembrano solidi in uno studio, ma non riescono a replicarsi in altri contesti, proprio perché non si appoggiano a un processo generativo condiviso.

37.4 Modelli meccanicistici: spiegare i processi

I modelli meccanicistici, detti anche processuali, rappresentano un passo ulteriore rispetto ai modelli puramente statistici. Questi modelli non si limitano a descrivere associazioni tra variabili, ma cercano di formalizzare i meccanismi psicologici che generano i dati osservati.

Questi modelli sono costruiti a partire da ipotesi specifiche su come le persone percepiscono, apprendono, decidono o reagiscono a stimoli. Ogni parametro del modello possiede un significato psicologico interpretabile, come ad esempio la velocità di apprendimento, una soglia decisionale, o la sensibilità a ricompense e punizioni. In questa prospettiva, i dati non sono più considerati come semplici estrazioni indipendenti da una distribuzione fissa, ma come l’esito dinamico di un processo psicologico sottostante.

Un esempio particolarmente illustrativo è il modello di Rescorla-Wagner per l’apprendimento associativo. Questo modello descrive come la forza di un’associazione tra stimoli viene aggiornata a ogni prova in base all’errore di previsione commesso dall’individuo. In questo caso, non ci limitiamo a stimare se “esiste un effetto” di uno stimolo, ma modelliamo esplicitamente il processo di apprendimento che produce le risposte osservate, offrendo così una comprensione più profonda e meccanicistica del fenomeno psicologico in esame. Modelli di questo tipo, radicati in un processo psicologico esplicito, hanno il potenziale di produrre risultati più robusti e replicabili: se il modello cattura davvero il meccanismo sottostante, allora la sua applicazione a nuovi dati dovrebbe confermare le stesse dinamiche di base, anche se le osservazioni specifiche cambiano.

37.4.1 Confronto tra i due approcci

I modelli fenomenologici offrono il vantaggio della semplicità e sono spesso sufficienti per una descrizione iniziale dei dati. Tuttavia, questa semplicità comporta un rischio significativo: tendono a produrre spiegazioni fragili e poco replicabili, in quanto catturano relazioni superficiali senza indagare i meccanismi sottostanti.

Al contrario, i modelli meccanicistici richiedono un maggior numero di ipotesi iniziali e presentano una complessità analitica superiore. Questo investimento aggiuntivo viene ricompensato da un fondamentale vantaggio epistemologico: ci avvicinano alla logica metodologica delle scienze naturali, permettendoci di spiegare i dati osservati attraverso la formalizzazione di processi generativi sottostanti. In questo modo, non ci limitiamo a descrivere le relazioni tra variabili, ma cerchiamo di comprendere i meccanismi causali che le producono.

Differenza intuitiva

Un modello fenomenologico si limita a descrivere una relazione osservabile, affermando ad esempio che “più ore di studio corrispondono a voti più alti”. Al contrario, un modello meccanicistico cerca di spiegare il processo sottostante questa relazione, proponendo ad esempio che “ogni sessione di studio incrementa la forza della traccia mnestica con un determinato tasso di apprendimento, il quale a sua volta influenza direttamente la probabilità di rispondere correttamente durante l’esame”.

Mentre il primo si concentra sul cosa accade, il secondo cerca di spiegare come e perché accade.

Modello fenomenologico: il focus è sulla forma della distribuzione e sui suoi parametri riassuntivi (media, varianza).

Modello meccanicistico: il focus è sul meccanismo nel tempo (apprendimento): $V_t$ evolve in base all’errore di previsione e le osservazioni $Y_t$ sono rumore attorno a $V_t$.

**Messaggio chiave:* descrivere associazioni vs spiegare processi generativi.

37.5 Valutazione e confronto dei modelli

Ogni modello psicologico, che sia descrittivo o meccanicistico, costituisce una rappresentazione semplificata della realtà. Nessun modello può catturare interamente la complessità dei fenomeni psicologici: il suo valore scientifico dipende fondamentalmente dalla capacità di aiutarci a comprendere e prevedere i dati osservati.

37.5.1 Due prospettive complementari

La valutazione dei modelli si articola su due dimensioni distinte ma complementari. Da un lato l’adeguatezza esplicativa, che misura quanto bene un modello riesce a descrivere i dati già osservati. Dall’altro la capacità predittiva, che valuta invece l’abilità del modello di generalizzare a nuovi dati non ancora raccolti.

È importante notare come queste due dimensioni non sempre coincidano: un modello eccessivamente complesso può adattarsi perfettamente ai dati esistenti, mostrando un’eccellente adeguatezza esplicativa, ma rivelarsi al contempo incapace di fare previsioni accurate su dati nuovi, manifestando così una scarsa capacità predittiva.

37.5.2 Confrontare i modelli

La crisi di replicazione ci ricorda che non basta adattare bene un modello ai dati disponibili: ciò che conta è la capacità di prevedere dati nuovi. È proprio qui che la valutazione e il confronto dei modelli diventano strumenti centrali per una psicologia più solida.

Il confronto tra modelli rappresenta un aspetto cruciale della ricerca scientifica, poiché riconosce che per uno stesso fenomeno possono esistere multiple spiegazioni plausibili. Il compito del ricercatore consiste nell’identificare il modello che produce le rappresentazioni più utili e coerenti con la realtà osservata.

Questo confronto può avvenire sia tra approcci diversi che all’interno dello stesso paradigma. I modelli fenomenologici e meccanicistici, ad esempio, possono essere messi a confronto: mentre il primo si limita a descrivere le associazioni tra variabili, il secondo avanza ipotesi specifiche sui processi generatori dei dati. Allo stesso modo, due modelli meccanicistici alternativi – come diverse teorie dell’apprendimento – possono essere confrontati per determinare quale meglio spieghi il comportamento osservato.

37.5.3 Anticipazione

Nella prossima sezione del manuale esploreremo le metodologie concrete per condurre questi confronti, introducendo strumenti statistici che quantificano oggettivamente la bontà predittiva dei modelli. In particolare:

approfondiremo criteri statistici come la log-verosimiglianza, il WAIC e il LOO-CV, che permettono un confronto formale delle capacità predittive dei modelli;
esamineremo casi di studio psicologici in cui modelli alternativi – come diversi modelli di apprendimento o processi decisionali – vengono sottoposti a verifica empirica sugli stessi dati.

Questo approccio ci permetterà di passare da valutazioni qualitative a giudizi quantitativi e rigorosi sulla bontà dei nostri modelli teorici.

Messaggio chiave

Un modello non è mai “vero” in senso assoluto: è più o meno utile. La valutazione e il confronto dei modelli sono strumenti fondamentali per rendere la psicologia una scienza cumulativa, in cui teorie diverse possono essere messe a confronto sulla base dei dati.

I modelli possono essere valutati secondo due prospettive fondamentali: quella esplicativa e quella predittiva.

La valutazione esplicativa (o fit del modello) misura quanto bene un modello riesce a descrivere i dati già osservati, ovvero quanto sia in grado di adattarsi alle informazioni in nostro possesso.

La valutazione predittiva (o validazione del modello) misura invece la capacità del modello di generalizzare, ovvero di fare previsioni accurate su dati nuovi, non ancora osservati e provenienti da outside del campione originario.

Il messaggio chiave è che un modello statisticamente valido non è solo quello che spiega bene il passato, ma soprattutto quello che dimostra di saper prevedere in modo affidabile il futuro. La vera prova della bontà di un modello risiede nella sua capacità predittiva, non solo in quella descrittiva.

37.5.4 Un esempio psicologico: scelte alimentari negli adolescenti

Immaginiamo di voler studiare le scelte alimentari di un gruppo di adolescenti, osservando se scelgono uno snack salutare o non salutare in una serie di decisioni.

Approccio fenomenologico Possiamo costruire una regressione logistica che predice la probabilità di scegliere lo snack salutare in funzione di alcune variabili, ad esempio il livello di stress e la disponibilità economica. Questo modello ci direbbe se lo stress è associato a una minore probabilità di fare scelte salutari, senza però chiarire perché avvenga.
Approccio meccanicistico Possiamo invece ipotizzare un modello di apprendimento associativo (ad esempio il modello di Rescorla–Wagner): ad ogni prova, l’adolescente aggiorna le proprie aspettative di ricompensa per ciascuna opzione sulla base dell’esperienza precedente. In questo quadro, i dati delle scelte non sono solo correlati a variabili esterne, ma sono l’esito di un processo dinamico di apprendimento governato da parametri interpretabili (tasso di apprendimento, sensibilità alla ricompensa, variabilità decisionale).

37.5.4.1 Confronto dei due modelli

Entrambi i modelli possono adattarsi agli stessi dati, ma offrono spiegazioni molto diverse: la regressione descrive un’associazione “statica” tra stress e scelta, mentre il modello di apprendimento descrive un meccanismo dinamico, cioè come gli adolescenti aggiornano le loro preferenze. Valutare e confrontare i modelli significa allora chiedersi quale delle due rappresentazioni sia più utile: quella che ci dice solo quali variabili sono correlate, o quella che propone un processo psicologico plausibile alla base delle decisioni?

Messaggio chiave

Gli stessi dati possono essere interpretati con modelli diversi. Il confronto tra modelli non è un lusso, ma una necessità: ci permette di capire quale rappresentazione dei dati sia più informativa e più vicina ai processi psicologici reali.

Riflessioni conclusive

In questo capitolo abbiamo distinto tra due modi di intendere i modelli in psicologia:

i modelli fenomenologici, che descrivono le relazioni osservabili tra variabili;
i modelli meccanicistici, che cercano invece di rappresentare i processi psicologici che generano i dati.

I primi hanno il vantaggio della semplicità e forniscono un punto di partenza utile per descrivere i fenomeni. I secondi, più complessi, ci permettono però di avvicinarci a una spiegazione: ci dicono non solo che cosa accade, ma anche come e perché accade.

Abbiamo visto che la psicologia, per rafforzare la propria solidità scientifica, non può limitarsi all’analisi delle associazioni. È necessario un salto verso modelli che mettano al centro i meccanismi generativi. Solo così possiamo rendere le nostre teorie più precise, più testabili e più replicabili.

Un altro punto fondamentale riguarda la valutazione dei modelli: non esiste un modello “vero” in senso assoluto, ma modelli più o meno utili. Per questo dobbiamo sempre confrontare alternative, verificare la loro capacità di spiegare i dati raccolti e soprattutto la loro forza nel prevedere dati nuovi.

Nei prossimi capitoli passeremo dal livello concettuale a quello operativo, vedendo come l’approccio bayesiano ci consenta di costruire e confrontare concretamente modelli fenomenologici e meccanicistici.

Messaggio chiave

L’uso dei modelli meccanicistici, insieme a strumenti di confronto basati sulla capacità predittiva, rappresenta una via promettente per affrontare la crisi di replicabilità in psicologia. Nei capitoli successivi vedremo come tradurre questi principi in pratiche concrete di analisi statistica e di modellazione.

Problemi

Qual è il processo concettuale alla base della modellizzazione e dell’analisi statistica?
Cosa significa che un campione è indipendente e identicamente distribuito (iid) e perché questa assunzione è importante nei modelli statistici?
Come si differenziano i modelli di campionamento da una singola distribuzione rispetto ai modelli di campioni multipli indipendenti?
Qual è la differenza tra regressione lineare semplice e regressione lineare multipla?
In che modo i modelli computazionali, come il modello di apprendimento associativo e il modello drift-diffusion, si differenziano dai modelli statistici tradizionali?

Consegna: Rispondi con parole tue e carica il file .qmd, convertito in PDF su Moodle.

Soluzioni

Il processo concettuale della modellizzazione e analisi statistica inizia con un problema reale e i dati raccolti su tale problema. Si costruisce quindi un modello probabilistico che rappresenta le conoscenze disponibili e il modo in cui i dati sono stati ottenuti. L’analisi viene condotta all’interno del modello, producendo conclusioni sui suoi parametri. Infine, i risultati vengono tradotti in inferenze sulla realtà, con lo scopo di migliorare la comprensione del fenomeno studiato.
Un campione è detto indipendente e identicamente distribuito (iid) se le osservazioni sono indipendenti tra loro e seguono la stessa distribuzione di probabilità. Questa assunzione è fondamentale perché semplifica le analisi statistiche e permette di applicare risultati teorici importanti, come la legge dei grandi numeri e il teorema del limite centrale.
Nei modelli di campionamento da una singola distribuzione, si assume che tutte le osservazioni provengano da una stessa popolazione e seguano la stessa distribuzione. Nei modelli di campioni multipli indipendenti, invece, si confrontano più gruppi distinti, ciascuno con la propria distribuzione, per studiare differenze tra le popolazioni. Un esempio è il confronto tra altezze di individui con madri fumatrici e non fumatrici.
La regressione lineare semplice analizza la relazione tra una variabile dipendente e una sola variabile indipendente attraverso una relazione lineare. La regressione lineare multipla, invece, estende questo concetto a più variabili indipendenti, permettendo di modellare fenomeni più complessi e controllare l’effetto di più fattori simultaneamente.
I modelli computazionali, come il modello di apprendimento associativo e il modello drift-diffusion, differiscono dai modelli statistici tradizionali perché mirano a simulare i processi mentali e decisionali sottostanti il comportamento umano. I modelli statistici descrivono principalmente relazioni tra variabili nei dati osservati, mentre i modelli computazionali cercano di rappresentare dinamicamente i meccanismi cognitivi e comportamentali che generano tali dati.

Informazioni sull’ambiente di sviluppo

sessionInfo()
#> R version 4.5.1 (2025-06-13)
#> Platform: aarch64-apple-darwin20
#> Running under: macOS Tahoe 26.0.1
#> 
#> Matrix products: default
#> BLAS:   /Library/Frameworks/R.framework/Versions/4.5-arm64/Resources/lib/libRblas.0.dylib 
#> LAPACK: /Library/Frameworks/R.framework/Versions/4.5-arm64/Resources/lib/libRlapack.dylib;  LAPACK version 3.12.1
#> 
#> locale:
#> [1] C.UTF-8/UTF-8/C.UTF-8/C/C.UTF-8/C.UTF-8
#> 
#> time zone: Europe/Zagreb
#> tzcode source: internal
#> 
#> attached base packages:
#> [1] grid      stats     graphics  grDevices utils     datasets  methods  
#> [8] base     
#> 
#> other attached packages:
#>  [1] ragg_1.5.0            tinytable_0.13.0      withr_3.0.2          
#>  [4] systemfonts_1.3.1     patchwork_1.3.2       ggdist_3.3.3         
#>  [7] tidybayes_3.0.7       bayesplot_1.14.0      ggplot2_4.0.0        
#> [10] reliabilitydiag_0.2.1 priorsense_1.1.1      posterior_1.6.1      
#> [13] loo_2.8.0             rstan_2.32.7          StanHeaders_2.32.10  
#> [16] brms_2.23.0           Rcpp_1.1.0            sessioninfo_1.2.3    
#> [19] conflicted_1.2.0      janitor_2.2.1         matrixStats_1.5.0    
#> [22] modelr_0.1.11         tibble_3.3.0          dplyr_1.1.4          
#> [25] tidyr_1.3.1           rio_1.2.4             here_1.0.2           
#> 
#> loaded via a namespace (and not attached):
#>  [1] svUnit_1.0.8          tidyselect_1.2.1      farver_2.1.2         
#>  [4] S7_0.2.0              fastmap_1.2.0         TH.data_1.1-4        
#>  [7] tensorA_0.36.2.1      digest_0.6.37         timechange_0.3.0     
#> [10] estimability_1.5.1    lifecycle_1.0.4       survival_3.8-3       
#> [13] magrittr_2.0.4        compiler_4.5.1        rlang_1.1.6          
#> [16] tools_4.5.1           yaml_2.3.10           knitr_1.50           
#> [19] labeling_0.4.3        bridgesampling_1.1-2  htmlwidgets_1.6.4    
#> [22] curl_7.0.0            pkgbuild_1.4.8        RColorBrewer_1.1-3   
#> [25] abind_1.4-8           multcomp_1.4-28       purrr_1.1.0          
#> [28] stats4_4.5.1          colorspace_2.1-2      xtable_1.8-4         
#> [31] inline_0.3.21         emmeans_1.11.2-8      scales_1.4.0         
#> [34] MASS_7.3-65           cli_3.6.5             mvtnorm_1.3-3        
#> [37] rmarkdown_2.30        generics_0.1.4        RcppParallel_5.1.11-1
#> [40] cachem_1.1.0          stringr_1.5.2         splines_4.5.1        
#> [43] parallel_4.5.1        vctrs_0.6.5           V8_8.0.1             
#> [46] Matrix_1.7-4          sandwich_3.1-1        jsonlite_2.0.0       
#> [49] arrayhelpers_1.1-0    glue_1.8.0            codetools_0.2-20     
#> [52] distributional_0.5.0  lubridate_1.9.4       stringi_1.8.7        
#> [55] gtable_0.3.6          QuickJSR_1.8.1        pillar_1.11.1        
#> [58] htmltools_0.5.8.1     Brobdingnag_1.2-9     R6_2.6.1             
#> [61] textshaping_1.0.4     rprojroot_2.1.1       evaluate_1.0.5       
#> [64] lattice_0.22-7        backports_1.5.0       memoise_2.0.1        
#> [67] broom_1.0.10          snakecase_0.11.1      rstantools_2.5.0     
#> [70] gridExtra_2.3         coda_0.19-4.1         nlme_3.1-168         
#> [73] checkmate_2.3.3       xfun_0.53             zoo_1.8-14           
#> [76] pkgconfig_2.0.3

Bibliografia

Chan, J. C. C., & Kroese, D. P. (2025). Statistical Modeling and Computation (2ª ed.). Springer.

# Modelli statistici {#sec-bayes-stat-models} ## Introduzione {.unnumbered .unlisted} Negli ultimi anni, la psicologia ha vissuto un profondo ripensamento metodologico, sollecitato dalla cosiddetta *crisi della replicabilità*. Una delle critiche principali emerse in questo dibattito riguarda la tendenza della ricerca tradizionale a concentrarsi prevalentemente sull'identificazione di *associazioni statistiche* tra variabili, trascurando la modellazione dei *processi psicologici* sottostanti che potrebbero aver generato i dati osservati. Sebbene un approccio descrittivo possa rivelarsi utile in determinate circostanze, presenta due limiti fondamentali. In primo luogo, tende a produrre risultati fragili e difficilmente replicabili, in quanto le relazioni identificate non sono ancorate a una solida teoria riguardante i meccanismi causali che le generano. In secondo luogo, contribuisce a mantenere un divario tra la psicologia e altre discipline scientifiche, come la fisica, la biologia o l'economia, che da tempo basano il proprio progresso sulla costruzione di modelli formali in grado di rappresentare esplicitamente i processi alla base dei fenomeni osservati. ### Panoramica del capitolo {.unnumbered .unlisted} - Cosa significa descrivere i dati rispetto a spiegare i processi che li generano. - I limiti dei modelli fenomenologici e perché possono indurre in errore. - Il ruolo delle distribuzioni di probabilità per rappresentare l’incertezza. - Come confrontare modelli alternativi e scegliere quelli che meglio descrivono i dati e generalizzano a nuovi contesti. ::: {.callout-tip collapse=true} ## Prerequisiti - Leggere il capitolo *Common Statistical Models* del testo di @kroese2025statistical. ::: ::: {.callout-caution collapse=true title="Preparazione del Notebook"} ## Preparazione del Notebook ```{r} here::here("code", "_common.R") |> source() ``` ::: ### Dalla correlazione alla spiegazione Un modello che si limita a stimare una correlazione o una regressione lineare può dirci se due variabili sono associate, ma non ci spiega il perché. Per esempio, osservare un'associazione tra stress e rendimento accademico è informativo, ma non basta per capire il processo attraverso cui lo stress influisce (o non influisce) sulla performance. Il passo successivo consiste nel cercare di rappresentare come i dati emergono dai processi psicologici sottostanti. In altre parole, si sposta l'attenzione dalle semplici relazioni osservate ai meccanismi che le generano. #### Perché questo cambiamento è cruciale? Questo cambiamento è cruciale perché permette di costruire modelli più vicini alla realtà dei fenomeni psicologici, rende le teorie più precise e testabili e fornisce risultati più robusti e potenzialmente più replicabili, in quanto radicati in una rappresentazione del processo e non solo in un campione di dati. ### Anticipazione Nei prossimi capitoli di questa sezione del manuale vedremo come questo approccio si traduca in pratica: non ci limiteremo a presentare i modelli di regressione nelle loro diverse varianti, ma esploreremo anche modelli che cercano di descrivere processi psicologici espliciti, come ad esempio il modello di Rescorla-Wagner per l’apprendimento associativo. L’obiettivo non è sostituire l’analisi statistica classica, ma integrarla con strumenti che ci aiutino a rispondere a una domanda più ambiziosa: quali processi mentali plausibili possono aver generato i dati che osserviamo? ## Campionamento indipendente da una distribuzione fissa Molti modelli statistici tradizionali si basano sull'assunzione fondamentale che i dati osservati rappresentino un *processo di campionamento indipendente* da una distribuzione fissa. Prendiamo ad esempio il caso dei punteggi di ansia misurati in un campione di studenti: si assume che questi punteggi seguano una distribuzione normale caratterizzata da una media $\mu$ e una deviazione standard $\sigma$. In questo quadro concettuale: * ogni singola osservazione viene considerata come un'estrazione indipendente dalla stessa distribuzione di probabilità sottostante; * l'obiettivo principale del modello statistico diventa quindi la stima dei parametri che definiscono questa distribuzione ($\mu$ e $\sigma$). Questo approccio presenta indubbi vantaggi per la descrizione sintetica dei dati e l'identificazione delle loro caratteristiche distributive fondamentali. Tuttavia, è importante riconoscere i suoi limiti concettuali: questa prospettiva rimane essenzialmente muta riguardo ai meccanismi attraverso i quali i livelli di ansia effettivamente emergono o si modificano nel tempo. In altre parole, descrive i dati nella loro manifestazione osservabile ("così come sono"), ma non offre alcuna insight sui processi psicologici dinamici che li hanno generati. ## Modelli fenomenologici: descrivere le associazioni Un passo in più è rappresentato dai modelli che analizzano *relazioni tra variabili*, come la regressione lineare o logistica. Questi approcci ci permettono di andare oltre la semplice descrizione di una distribuzione, consentendoci di studiare sistematicamente come una variabile dipendente cambia in funzione di una o più variabili indipendenti. Per esempio, possiamo modellare la relazione tra stress e rendimento accademico, verificando empiricamente se un aumento dei livelli di stress corrisponde effettivamente a un calo delle performance scolastiche. Questi modelli statistici sono estremamente diffusi e costituiscono il fondamento metodologico di gran parte della ricerca psicologica contemporanea. Tuttavia, è importante riconoscere che rimangono essenzialmente modelli *fenomenologici*: descrivono efficacemente *che cosa* accade (documentando ad esempio l'esistenza di una correlazione tra stress e rendimento), ma non sono in grado di spiegare *perché* tale relazione esista. Un modello di regressione, infatti, non può dirci se lo stress riduce direttamente il rendimento, se entrambe le variabili sono influenzate da un fattore terzo (come il supporto sociale), o se la relazione evolve nel tempo attraverso complesse dinamiche di adattamento psicologico. Questa fragilità metodologica ha contribuito direttamente alla *crisi di replicazione*: modelli che descrivono soltanto associazioni spesso sembrano solidi in uno studio, ma non riescono a replicarsi in altri contesti, proprio perché non si appoggiano a un processo generativo condiviso. ## Modelli meccanicistici: spiegare i processi I modelli meccanicistici, detti anche processuali, rappresentano un passo ulteriore rispetto ai modelli puramente statistici. Questi modelli non si limitano a descrivere associazioni tra variabili, ma cercano di formalizzare i meccanismi psicologici che generano i dati osservati. Questi modelli sono costruiti a partire da ipotesi specifiche su come le persone percepiscono, apprendono, decidono o reagiscono a stimoli. Ogni parametro del modello possiede un significato psicologico interpretabile, come ad esempio la velocità di apprendimento, una soglia decisionale, o la sensibilità a ricompense e punizioni. In questa prospettiva, i dati non sono più considerati come semplici estrazioni indipendenti da una distribuzione fissa, ma come l'esito dinamico di un processo psicologico sottostante. Un esempio particolarmente illustrativo è il modello di Rescorla-Wagner per l'apprendimento associativo. Questo modello descrive come la forza di un'associazione tra stimoli viene aggiornata a ogni prova in base all'errore di previsione commesso dall'individuo. In questo caso, non ci limitiamo a stimare se "esiste un effetto" di uno stimolo, ma modelliamo esplicitamente il processo di apprendimento che produce le risposte osservate, offrendo così una comprensione più profonda e meccanicistica del fenomeno psicologico in esame. Modelli di questo tipo, radicati in un processo psicologico esplicito, hanno il potenziale di produrre risultati più robusti e *replicabili*: se il modello cattura davvero il meccanismo sottostante, allora la sua applicazione a nuovi dati dovrebbe confermare le stesse dinamiche di base, anche se le osservazioni specifiche cambiano. ### Confronto tra i due approcci I modelli fenomenologici offrono il vantaggio della semplicità e sono spesso sufficienti per una descrizione iniziale dei dati. Tuttavia, questa semplicità comporta un rischio significativo: tendono a produrre spiegazioni fragili e poco replicabili, in quanto catturano relazioni superficiali senza indagare i meccanismi sottostanti. Al contrario, i modelli meccanicistici richiedono un maggior numero di ipotesi iniziali e presentano una complessità analitica superiore. Questo investimento aggiuntivo viene ricompensato da un fondamentale vantaggio epistemologico: ci avvicinano alla logica metodologica delle scienze naturali, permettendoci di spiegare i dati osservati attraverso la formalizzazione di processi generativi sottostanti. In questo modo, non ci limitiamo a descrivere le relazioni tra variabili, ma cerchiamo di comprendere i meccanismi causali che le producono. ::: callout-note ## Differenza intuitiva Un modello fenomenologico si limita a descrivere una relazione osservabile, affermando ad esempio che "più ore di studio corrispondono a voti più alti". Al contrario, un modello meccanicistico cerca di spiegare il processo sottostante questa relazione, proponendo ad esempio che "ogni sessione di studio incrementa la forza della traccia mnestica con un determinato tasso di apprendimento, il quale a sua volta influenza direttamente la probabilità di rispondere correttamente durante l'esame". Mentre il primo si concentra sul *cosa* accade, il secondo cerca di spiegare *come* e *perché* accade. ::: ```{r} #| label: fig-fissa-vs-processo #| fig-cap: "Due modi di pensare ai dati: (sinistra) campionamento iid da distribuzione fissa (modello fenomenologico); (destra) dati generati da un processo dinamico (modello meccanicistico)." #| warning: false #| message: false #| echo: false set.seed(123) # --------------------------- # 1) Distribuzione fissa (iid) # --------------------------- n_iid <- 400 mu <- 0 sd_y <- 1 df_iid <- tibble(y = rnorm(n_iid, mu, sd_y)) p_iid <- ggplot(df_iid, aes(x = y)) + geom_histogram(aes(y = ..density..), bins = 30, fill = "#cfe0f5", color = "grey30") + stat_density(geom = "line", linewidth = 1) + geom_vline(xintercept = mu, linetype = "dashed") + labs( title = "Distribuzione fissa (iid)", subtitle = "Obiettivo = descrivere/riassumere la distribuzione", x = "Valore osservato", y = "Densità" ) # ------------------------------------- # 2) Processo dinamico (tipo apprendimento) # ------------------------------------- T <- 120 # numero di prove/tempi alpha <- 0.15 # tasso di apprendimento p_rew <- 0.7 # probabilità di 'rinforzo' (R_t = 1 con questa probabilità) sd_eps <- 0.15 # rumore osservazionale # Generazione processo: V <- numeric(T) R <- rbinom(T, 1, p_rew) Y <- numeric(T) V[1] <- 0.2 Y[1] <- V[1] + rnorm(1, 0, sd_eps) for (t in 1:(T-1)) { V[t+1] <- V[t] + alpha * (R[t] - V[t]) # aggiornamento per errore di previsione Y[t+1] <- V[t+1] + rnorm(1, 0, sd_eps) # osservazione rumorosa } df_proc <- tibble( t = 1:T, V = V, Y = Y, R = R ) # Plot dinamico: traiettoria del processo (V_t) + osservazioni (Y_t) p_proc <- ggplot(df_proc, aes(x = t)) + geom_line(aes(y = V), linewidth = 1) + geom_point(aes(y = Y), size = 1.4, alpha = 0.8) + geom_hline(yintercept = p_rew, linetype = "dotted") + labs( title = "Processo dinamico (meccanicistico)", subtitle = expression(V[t] == V[t-1] + alpha~(R[t-1] - V[t-1])~","~~Y[t] == V[t] + epsilon[t]), x = "Tempo / Prova", y = "Valore (V_t, Y_t)" ) ``` ```{r} #| echo: false p_iid ``` Modello fenomenologico: il focus è sulla forma della distribuzione e sui suoi parametri riassuntivi (media, varianza). ```{r} #| echo: false p_proc ``` Modello meccanicistico: il focus è sul *meccanismo nel tempo* (apprendimento): $V_t$ evolve in base all’errore di previsione e le osservazioni $Y_t$ sono rumore attorno a $V_t$. **Messaggio chiave:* descrivere *associazioni* vs spiegare *processi generativi*. ## Valutazione e confronto dei modelli Ogni modello psicologico, che sia descrittivo o meccanicistico, costituisce una *rappresentazione semplificata* della realtà. Nessun modello può catturare interamente la complessità dei fenomeni psicologici: il suo valore scientifico dipende fondamentalmente dalla capacità di aiutarci a comprendere e prevedere i dati osservati. ### Due prospettive complementari La valutazione dei modelli si articola su due dimensioni distinte ma complementari. Da un lato l'*adeguatezza esplicativa*, che misura quanto bene un modello riesce a descrivere i dati già osservati. Dall'altro la *capacità predittiva*, che valuta invece l'abilità del modello di generalizzare a nuovi dati non ancora raccolti. È importante notare come queste due dimensioni non sempre coincidano: un modello eccessivamente complesso può adattarsi perfettamente ai dati esistenti, mostrando un'eccellente adeguatezza esplicativa, ma rivelarsi al contempo incapace di fare previsioni accurate su dati nuovi, manifestando così una scarsa capacità predittiva. ### Confrontare i modelli La *crisi di replicazione* ci ricorda che non basta adattare bene un modello ai dati disponibili: ciò che conta è la capacità di prevedere dati nuovi. È proprio qui che la valutazione e il confronto dei modelli diventano strumenti centrali per una psicologia più solida. Il confronto tra modelli rappresenta un aspetto cruciale della ricerca scientifica, poiché riconosce che per uno stesso fenomeno possono esistere multiple spiegazioni plausibili. Il compito del ricercatore consiste nell'identificare il modello che produce le rappresentazioni più *utili* e *coerenti* con la realtà osservata. Questo confronto può avvenire sia tra approcci diversi che all'interno dello stesso paradigma. I modelli *fenomenologici* e *meccanicistici*, ad esempio, possono essere messi a confronto: mentre il primo si limita a descrivere le associazioni tra variabili, il secondo avanza ipotesi specifiche sui processi generatori dei dati. Allo stesso modo, due modelli meccanicistici alternativi – come diverse teorie dell'apprendimento – possono essere confrontati per determinare quale meglio spieghi il comportamento osservato. ### Anticipazione Nella prossima sezione del manuale esploreremo le metodologie concrete per condurre questi confronti, introducendo strumenti statistici che quantificano oggettivamente la bontà predittiva dei modelli. In particolare: * approfondiremo criteri statistici come la *log-verosimiglianza*, il *WAIC* e il *LOO-CV*, che permettono un confronto formale delle capacità predittive dei modelli; * esamineremo casi di studio psicologici in cui modelli alternativi – come diversi modelli di apprendimento o processi decisionali – vengono sottoposti a verifica empirica sugli stessi dati. Questo approccio ci permetterà di passare da valutazioni qualitative a giudizi quantitativi e rigorosi sulla bontà dei nostri modelli teorici. ::: {.callout-note title="Messaggio chiave"} Un modello non è mai “vero” in senso assoluto: è più o meno utile. La valutazione e il confronto dei modelli sono strumenti fondamentali per rendere la psicologia una scienza **cumulativa**, in cui teorie diverse possono essere messe a confronto sulla base dei dati. ::: ```{r} #| label: fig-schema-confronto-modelli #| fig-cap: "Valutazione e confronto dei modelli: adattamento ai dati osservati (sinistra) e capacità predittiva su dati nuovi (destra)." #| warning: false #| message: false #| echo: false set.seed(123) library(grid) # --- Layout dei nodi (modelli e "dataset") --- models <- tibble( name = c("Modello A", "Modello B", "Modello C"), x = -4, y = c( 2.0, 0.0, -2.0), color = c("#1b9e77", "#d95f02", "#7570b3") ) target_obs <- tibble(name = "Dati osservati", x = 4, y = 0) target_new <- tibble(name = "Dati nuovi", x = 4, y = 0) # --- Nuvolette di punti per rappresentare i dataset --- cloud <- function(cx, cy, n = 120, sx = 1.1, sy = 0.8) { tibble( x = rnorm(n, cx, sx), y = rnorm(n, cy, sy) ) } pts_obs <- cloud(target_obs$x, target_obs$y, n = 140, sx = 1.2, sy = 0.9) pts_new <- cloud(target_new$x, target_new$y, n = 140, sx = 1.2, sy = 0.9) # --- Frecce (modelli -> dati) --- arrows_obs <- models %>% mutate(xend = target_obs$x, yend = target_obs$y) arrows_new <- models %>% mutate(xend = target_new$x, yend = target_new$y) # --- Pannello A: confronto esplicativo\n(fit su dati osservati) --- pA <- ggplot() + # "nuvola" dati osservati geom_point(data = pts_obs, aes(x, y), alpha = 0.35, size = 1.2) + annotate("label", x = target_obs$x, y = target_obs$y + 2.1, label = "Dati osservati", size = 4, label.size = 0.25) + # modelli (nodi) geom_point(data = models, aes(x, y, color = name), size = 4) + geom_label(data = models, aes(x, y, label = name, color = name), size = 3.3, label.size = 0.25, fill = "white") + # frecce modello -> dati geom_curve(data = arrows_obs, aes(x = x, y = y, xend = xend - 0.6, yend = yend), curvature = 0.12, arrow = arrow(type = "closed", length = unit(6, "pt")), linewidth = 0.5) + scale_color_manual(values = setNames(models$color, models$name), guide = "none") + coord_equal(xlim = c(-6, 6.5), ylim = c(-3.5, 3.5), expand = FALSE) + labs(title = "Confronto esplicativo (fit ai dati osservati)") + theme_void(base_size = 12) + theme(plot.title = element_text(hjust = 0.5, face = "bold")) # --- Pannello B: confronto predittivo (su dati nuovi) --- pB <- ggplot() + # "nuvola" dati nuovi geom_point(data = pts_new, aes(x, y), alpha = 0.35, size = 1.2) + annotate("label", x = target_new$x, y = target_new$y + 2.1, label = "Dati nuovi", size = 4, label.size = 0.25, fill = "white") + # modelli (nodi) geom_point(data = models, aes(x, y, color = name), size = 4) + geom_label(data = models, aes(x, y, label = name, color = name), size = 3.3, label.size = 0.25, fill = "white") + # frecce modello -> dati nuovi geom_curve(data = arrows_new, aes(x = x, y = y, xend = xend - 0.6, yend = yend), curvature = 0.12, arrow = arrow(type = "closed", length = unit(6, "pt")), linewidth = 0.5) + scale_color_manual(values = setNames(models$color, models$name), guide = "none") + coord_equal(xlim = c(-6, 6.5), ylim = c(-3.5, 3.5), expand = FALSE) + labs(title = "Confronto predittivo\n(validazione su dati nuovi)") + theme_void(base_size = 12) + theme(plot.title = element_text(hjust = 0.5, face = "bold")) ``` ```{r} #| echo: false pA ``` ```{r} #| echo: false pB ``` I modelli possono essere valutati secondo due prospettive fondamentali: quella esplicativa e quella predittiva. La *valutazione esplicativa* (o _fit del modello_) misura quanto bene un modello riesce a descrivere i dati già osservati, ovvero quanto sia in grado di adattarsi alle informazioni in nostro possesso. La *valutazione predittiva* (o _validazione del modello_) misura invece la capacità del modello di generalizzare, ovvero di fare previsioni accurate su dati nuovi, non ancora osservati e provenienti da outside del campione originario. Il messaggio chiave è che un modello statisticamente valido non è solo quello che spiega bene il passato, ma soprattutto quello che dimostra di saper prevedere in modo affidabile il futuro. La vera prova della bontà di un modello risiede nella sua capacità predittiva, non solo in quella descrittiva. ### Un esempio psicologico: scelte alimentari negli adolescenti Immaginiamo di voler studiare le scelte alimentari di un gruppo di adolescenti, osservando se scelgono uno snack *salutare* o *non salutare* in una serie di decisioni. * **Approccio fenomenologico** Possiamo costruire una *regressione logistica* che predice la probabilità di scegliere lo snack salutare in funzione di alcune variabili, ad esempio il livello di stress e la disponibilità economica. Questo modello ci direbbe se lo stress è associato a una minore probabilità di fare scelte salutari, senza però chiarire *perché* avvenga. * **Approccio meccanicistico** Possiamo invece ipotizzare un *modello di apprendimento associativo* (ad esempio il modello di Rescorla–Wagner): ad ogni prova, l’adolescente aggiorna le proprie aspettative di ricompensa per ciascuna opzione sulla base dell’esperienza precedente. In questo quadro, i dati delle scelte non sono solo correlati a variabili esterne, ma sono l’esito di un processo dinamico di apprendimento governato da parametri interpretabili (tasso di apprendimento, sensibilità alla ricompensa, variabilità decisionale). #### Confronto dei due modelli Entrambi i modelli possono adattarsi agli stessi dati, ma offrono spiegazioni molto diverse: la regressione descrive un’associazione “statica” tra stress e scelta, mentre il modello di apprendimento descrive un meccanismo dinamico, cioè *come* gli adolescenti aggiornano le loro preferenze. Valutare e confrontare i modelli significa allora chiedersi quale delle due rappresentazioni sia *più utile*: quella che ci dice solo quali variabili sono correlate, o quella che propone un processo psicologico plausibile alla base delle decisioni? ::: {.callout-note title="Messaggio chiave"} Gli stessi dati possono essere interpretati con modelli diversi. Il confronto tra modelli non è un lusso, ma una necessità: ci permette di capire quale rappresentazione dei dati sia più informativa e più vicina ai processi psicologici reali. ::: ## Riflessioni conclusive {.unnumbered .unlisted} In questo capitolo abbiamo distinto tra due modi di intendere i modelli in psicologia: * i **modelli fenomenologici**, che descrivono le relazioni osservabili tra variabili; * i **modelli meccanicistici**, che cercano invece di rappresentare i processi psicologici che generano i dati. I primi hanno il vantaggio della semplicità e forniscono un punto di partenza utile per descrivere i fenomeni. I secondi, più complessi, ci permettono però di avvicinarci a una spiegazione: ci dicono non solo *che cosa* accade, ma anche *come* e *perché* accade. Abbiamo visto che la psicologia, per rafforzare la propria solidità scientifica, non può limitarsi all’analisi delle associazioni. È necessario un salto verso modelli che mettano al centro i *meccanismi generativi*. Solo così possiamo rendere le nostre teorie più precise, più testabili e più replicabili. Un altro punto fondamentale riguarda la *valutazione dei modelli*: non esiste un modello “vero” in senso assoluto, ma modelli più o meno utili. Per questo dobbiamo sempre confrontare alternative, verificare la loro capacità di spiegare i dati raccolti e soprattutto la loro forza nel prevedere dati nuovi. Nei prossimi capitoli passeremo dal livello concettuale a quello operativo, vedendo come l’approccio bayesiano ci consenta di costruire e confrontare concretamente modelli fenomenologici e meccanicistici. ::: {.callout-note title="Messaggio chiave"} L’uso dei modelli meccanicistici, insieme a strumenti di confronto basati sulla capacità predittiva, rappresenta una via promettente per affrontare la crisi di replicabilità in psicologia. Nei capitoli successivi vedremo come tradurre questi principi in pratiche concrete di analisi statistica e di modellazione. ::: ::: {.callout-important title="Problemi" collapse="true"} 1. Qual è il processo concettuale alla base della modellizzazione e dell'analisi statistica? 2. Cosa significa che un campione è indipendente e identicamente distribuito (iid) e perché questa assunzione è importante nei modelli statistici? 3. Come si differenziano i modelli di campionamento da una singola distribuzione rispetto ai modelli di campioni multipli indipendenti? 4. Qual è la differenza tra regressione lineare semplice e regressione lineare multipla? 5. In che modo i modelli computazionali, come il modello di apprendimento associativo e il modello drift-diffusion, si differenziano dai modelli statistici tradizionali? *Consegna:* Rispondi con parole tue e carica il file .qmd, convertito in PDF su Moodle. ::: ::: {.callout-tip title="Soluzioni" collapse="true"} 1. Il processo concettuale della modellizzazione e analisi statistica inizia con un problema reale e i dati raccolti su tale problema. Si costruisce quindi un modello probabilistico che rappresenta le conoscenze disponibili e il modo in cui i dati sono stati ottenuti. L’analisi viene condotta all’interno del modello, producendo conclusioni sui suoi parametri. Infine, i risultati vengono tradotti in inferenze sulla realtà, con lo scopo di migliorare la comprensione del fenomeno studiato. 2. Un campione è detto indipendente e identicamente distribuito (iid) se le osservazioni sono indipendenti tra loro e seguono la stessa distribuzione di probabilità. Questa assunzione è fondamentale perché semplifica le analisi statistiche e permette di applicare risultati teorici importanti, come la legge dei grandi numeri e il teorema del limite centrale. 3. Nei modelli di campionamento da una singola distribuzione, si assume che tutte le osservazioni provengano da una stessa popolazione e seguano la stessa distribuzione. Nei modelli di campioni multipli indipendenti, invece, si confrontano più gruppi distinti, ciascuno con la propria distribuzione, per studiare differenze tra le popolazioni. Un esempio è il confronto tra altezze di individui con madri fumatrici e non fumatrici. 4. La regressione lineare semplice analizza la relazione tra una variabile dipendente e una sola variabile indipendente attraverso una relazione lineare. La regressione lineare multipla, invece, estende questo concetto a più variabili indipendenti, permettendo di modellare fenomeni più complessi e controllare l’effetto di più fattori simultaneamente. 5. I modelli computazionali, come il modello di apprendimento associativo e il modello drift-diffusion, differiscono dai modelli statistici tradizionali perché mirano a simulare i processi mentali e decisionali sottostanti il comportamento umano. I modelli statistici descrivono principalmente relazioni tra variabili nei dati osservati, mentre i modelli computazionali cercano di rappresentare dinamicamente i meccanismi cognitivi e comportamentali che generano tali dati. ::: ::: {.callout-note collapse=true title="Informazioni sull'ambiente di sviluppo"} ```{r} sessionInfo() ``` ::: ## Bibliografia {.unnumbered .unlisted}