Considerazioni conclusive

L’inferenza bayesiana rappresenta un approccio rigoroso e trasparente per integrare conoscenze pregresse e dati empirici nell’analisi psicologica. A differenza dei metodi frequentisti, l’approccio bayesiano consente di quantificare l’incertezza e di costruire modelli che riflettono le nostre aspettative iniziali. Questa flessibilità è particolarmente preziosa in psicologia, dove teorie e ipotesi svolgono un ruolo centrale nel guidare la ricerca. L’inferenza bayesiana rende esplicite le nostre assunzioni a priori e ci permette di valutare come i dati influenzano la nostra comprensione dei fenomeni psicologici.

Limiti dell’inferenza frequentista

In questo libro, abbiamo esaminato i limiti dell’inferenza frequentista, specialmente quando utilizzata come “filtro” per distinguere risultati scientifici rilevanti da quelli trascurabili. L’eccessiva dipendenza dai valori-p è stata ampiamente criticata per la sua associazione con inferenze inadeguate. Gli effetti possono essere sovrastimati, talvolta anche nella direzione sbagliata, quando la stima è vincolata alla significatività statistica in presenza di dati altamente variabili (Loken & Gelman, 2017).

Nonostante le critiche di lunga data e i dibattiti sul loro uso improprio (Gardner e Altman, 1986; Cohen, 1994; Anderson et al., 2000; Fidler et al., 2004; Finch et al., 2004), i valori-p persistono come indicatore di significatività. Questa tenacia riflette forse la necessità dei ricercatori di avere strumenti intuitivi, sebbene semplificati, per interpretare i dati. Tuttavia, l’uso rigido di soglie arbitrarie (ad esempio, 0.05, 0.01, 0.001) ha trasformato il raggiungimento della significatività in un obiettivo fine a se stesso, piuttosto che in uno strumento per comprendere i fenomeni sottostanti (Cohen, 1994; Kirk, 1996). Inoltre, i valori-p possono solo rifiutare l’ipotesi nulla, ma non confermarla, poiché un risultato non significativo non implica l’assenza di effetti o differenze (Wagenmakers, 2007; Amrhein et al., 2019).

L’uso improprio dei valori-p, noto come “p-hacking” (Simmons et al., 2011), ha favorito pratiche scientifiche discutibili, contribuendo alla crisi di riproducibilità nella psicologia (Chambers et al., 2014; Szucs e Ioannidis, 2016).

La crisi della replicabilità

La crisi della replicabilità rappresenta una delle principali sfide che affliggono la ricerca scientifica contemporanea, con effetti particolarmente rilevanti nel campo della psicologia. Quando i risultati di uno studio non possono essere riprodotti in condizioni simili, si mette in discussione non solo la validità delle teorie su cui si basano interventi clinici e politiche pubbliche, ma anche la fiducia generale nella scienza. Questo problema va oltre l’ambito accademico, influenzando direttamente l’efficacia delle applicazioni pratiche delle ricerche.

Le cause sottostanti

Uno dei fattori principali della crisi è legato all’uso di metodologie di ricerca e analisi dei dati insufficientemente rigorose, che spesso portano a falsi positivi. Sebbene siano stati fatti appelli per migliorare le pratiche scientifiche, tali problemi persistono, indicando che il fenomeno non è semplicemente frutto di errori o mancanza di comprensione. Secondo Smaldino & McElreath (2016), la causa radicale risiede nei sistemi di incentivi distorti che favoriscono la quantità piuttosto che la qualità della ricerca. In questo contesto, la pressione a pubblicare risultati significativi diventa prioritaria rispetto alla rigorosità metodologica, alimentando un circolo vizioso in cui la “scienza scadente” si perpetua.

Pratiche comuni, come il p-hacking (manipolazione statistica per ottenere risultati significativi) o la selezione selettiva dei dati, vengono adottate inconsciamente o intenzionalmente per massimizzare le probabilità di pubblicazione. Questo meccanismo, descritto come una forma di “selezione naturale della scienza scadente”, premia approcci che facilitano la produzione di risultati spettacolari, ma non necessariamente veritieri.

Verso una soluzione: cambiare la cultura scientifica

Superare la crisi della replicabilità richiede un profondo cambiamento culturale all’interno dell’ecosistema scientifico. La mera correzione di errori metodologici, sebbene necessaria, non è sufficiente; è essenziale ristrutturare radicalmente i sistemi di incentivazione, premiando esplicitamente la qualità, la trasparenza e la robustezza della ricerca. Tale trasformazione può essere perseguita attraverso diverse strategie complementari:

  1. Promozione di pratiche scientifiche rigorose:
    • Implementare sistematicamente protocolli di ricerca trasparenti, includendo la preregistrazione dei disegni di studio, la condivisione aperta di dati, codici e materiali.
    • Potenziare le procedure di peer review, rendendole più severe e trasparenti, e promuovere attivamente la revisione post-pubblicazione.
  2. Valorizzazione istituzionale della replicazione:
    • Attribuire riconoscimento accademico e visibilità agli studi di replicazione, equiparandone il valore a quello delle scoperte originali.
    • Sostenere la creazione e lo sviluppo di riviste scientifiche e piattaforme dedicate specificamente alla verifica e alla riproducibilità dei risultati.
  3. Riforma strutturale dei criteri di valutazione:
    • Spostare l’enfasi dalla quantità delle pubblicazioni verso una valutazione multidimensionale della loro qualità, rigore e impatto scientifico a lungo termine.
    • Integrare metriche alternative che valorizzino l’impatto sociale, la trasparenza metodologica e il contributo al consolidamento delle conoscenze.

Nuovi approcci metodologici

Parallelamente al cambiamento culturale, la comunità scientifica sta sviluppando e adottando proposte metodologiche innovative, mirate a potenziare la robustezza delle analisi statistiche e a contenere il rischio di falsi positivi. In questo panorama, l’inferenza bayesiana si distingue per una serie di vantaggi sostanziali rispetto ai metodi frequentisti tradizionali: offre maggiore flessibilità nella gestione di dati complessi o campioni di ridotte dimensioni, riduce strutturalmente la propensione agli errori di tipo I e consente di integrare in modo formalizzato e trasparente le conoscenze pregresse all’interno del processo inferenziale.

Tuttavia, è fondamentale sottolineare che l’adozione dell’inferenza bayesiana non costituisce di per sé una panacea. Per esprimere appieno la sua efficacia, essa deve essere accompagnata da un ripensamento delle cause strutturali alla base della crisi, a cominciare da un sistema di valutazione accademico che, ancora troppo spesso, premia la produttività quantitativa a scapito della qualità della ricerca.

Una prospettiva particolarmente feconda è quella avanzata da Richard McElreath, il quale invita a superare un approccio puramente descrittivo a favore della modellizzazione esplicita dei meccanismi generativi dei dati. Ciò implica formulare ipotesi precise sui processi latenti che danno origine ai fenomeni osservati, per poi sottoporle a verifica empirica mediante confronti quantitativi tra modelli alternativi. Tecniche come la validazione incrociata bayesiana “Leave-One-Out” (LOO) permettono di valutare la robustezza dei modelli e la loro capacità predittiva in contesti non osservati.

A questa si affianca la cosiddetta “rivoluzione causale”, un insieme di framework metodologici mirati a identificare relazioni di causalità in setting osservazionali, superando i limiti applicativi degli esperimenti controllati randomizzati. Questo approccio richiede ai ricercatori di esplicitare le ipotesi causali e di confrontarle sistematicamente con modelli alternativi, favorendo una comprensione più profonda e meccanicistica dei fenomeni.

Tuttavia, il solo ricorso al metodo bayesiano non è sufficiente. Per dispiegare appieno le sue potenzialità, è necessario integrarlo all’interno di un workflow analitico coerente e strutturato, che coniughi modellazione generativa, verifica predittiva e confronto sistematico tra alternative. Tale prospettiva si articola in diverse componenti operative:

  • Modelli generativi e confronto predittivo: formulare ipotesi esplicite sui meccanismi generatori dei dati e valutare i modelli mediante tecniche come il confronto LOO/ELPD, adottando una prospettiva di machine learning quando l’obiettivo primario è la generalizzazione predittiva.
  • Verifiche predittive a priori e a posteriori: trattare le distribuzioni a priori come ipotesi empiricamente verificabili (attraverso prior predictive checks) e valutare l’adeguatezza del modello anche dopo l’analisi dei dati, mediante posterior predictive checks.
  • Compromessi computazionali espliciti: in contesti esplorativi, ricorrere ad approssimazioni computazionali (quali riduzioni dimensionali o variational inference – ADVI) a patto che queste siano fedeli alle caratteristiche rilevanti della distribuzione a posteriori per il specifico obiettivo inferenziale (Gelman et al., 2020).

Prospettiva di workflow: l’arte di iterare consapevolmente

Un simile approccio integrato richiede, per essere implementato in modo efficace, un framework operativo strutturato: un workflow* iterativo e riflessivo.* Costruire modelli attraverso successivi cicli di affinamento, piuttosto che in un’unica soluzione, apporta vantaggi multidimensionali. Sul piano cognitivo, permette un apprendimento graduale del fenomeno in esame, avvicinandosi alla sua complessità per step. Sul piano computazionale, semplifica la diagnosi dei problemi, avendo a che fare con meno “parti mobili” in ogni singola fase. Sul piano ingegneristico, consente controlli incrementali sui singoli componenti, riducendo il rischio di confondere errori di codifica, problematiche nella qualità dei dati e limiti intrinseci della struttura del modello.

È cruciale notare che questa necessità di iterazione sussiste persino quando una soluzione analitica è teoricamente nota: l’implementazione pratica di un modello richiede sempre un processo di messa a punto e verifica. Non esiste, in altri termini, un calcolo completamente automatico in grado di fornire risultati perfetti e definitivi in contesti generali. L’iterazione consapevole si configura quindi non come una ammissione di fallimento, ma come una best practice metodologica essenziale per una scienza robusta e cumulativa.

L’integrità scientifica nel workflow iterativo

Il processo di modellazione iterativa, sebbene fondamentale, introduce una sfida epistemologica cruciale: il rischio di forzare i dati per ottenere risultati apparentemente robusti. Questo pericolo, noto come overfitting o sovradattamento, sorge quando un modello viene eccessivamente “sintonizzato” sulle specificità del campione a disposizione, perdendo la sua capacità di generalizzare. In un contesto di ricerca che premia i risultati “puliti” e statisticamente significativi, la tentazione di affinare un modello fino a farlo aderire perfettamente ai dati—una pratica che può sfociare nel double-dipping—è un riflesso delle stesse pressioni che alimentano la crisi della replicabilità.

Affrontare questa sfida richiede non solo strumenti tecnici, ma soprattutto una disposizione mentale che privilegi l’onestà intellettuale sulla perfezione formale. Due principi guida emergono come antidoto a queste distorsioni:

  • Superare la tirannia del modello unico. La ricerca di un unico modello “vincitore” è spesso una chimera che può condurre a conclusioni fragili. Una scienza più matura e cauta abbraccia l’incertezza, incorporando diverse ipotesi plausibili all’interno di strutture modellistiche più ampie o ricorrendo a medie predittive. Questo approccio riconosce esplicitamente che la scelta del modello è essa stessa una fonte di incertezza, che deve essere gestita e comunicata, non nascosta.

  • Valorizzare la severità dei controlli sulla mera novità. L’affidabilità di un modello non si misura dalla sua eleganza formale o dal suo aderire a un protocollo preregistrato, ma dalla sua capacità di resistere a un esame critico e severo. Un modello che sopravvive a una batteria di test diagnostici rigorosi—che ne stressano le assunzioni e ne verificano la performance predittiva—acquisisce una credibilità più solida e sostanziale di uno semplicemente “confermato” da un valore-p.

In questa luce, come suggerito da Gelman et al. (2020), la questione fondamentale non è scegliere tra inferenza e predizione, ma definire quanta fiducia possiamo riporre razionalmente nelle nostre conclusioni. Il workflow di ricerca diventa così un processo di costruzione della credibilità, dove la trasparenza sulle scelte, sui compromessi computazionali e sulle verifiche effettuate è parte integrante del risultato scientifico, ponendo le basi per una conoscenza più cumulativa e robusta.

Implicazioni sociali e educative

La crisi della replicabilità ha implicazioni concrete al di là del mondo accademico. Interventi clinici, politiche pubbliche e decisioni basate su ricerche non replicabili rischiano di essere inefficaci o dannose. Pertanto, garantire la replicabilità e l’affidabilità delle scoperte scientifiche è essenziale non solo per preservare l’integrità accademica, ma anche per assumersi responsabilità sociali.

Una revisione dei metodi didattici e dei programmi accademici è altrettanto cruciale. Gli studenti devono essere formati per comprendere e applicare inferenze basate su dati empirici. Studiosi come Mine Dogucu hanno sottolineato l’importanza di integrare approcci bayesiani e causalità nei corsi di formazione, e la presente dispensa si inserisce in questo sforzo (Dogucu & Çetinkaya-Rundel, 2021; Dogucu & Hu, 2022; Johnson et al., 2022; Rosenberg et al., 2022).

Conclusioni

Affrontare e superare la crisi della replicabilità rappresenta una sfida fondamentale per la comunità scientifica, richiedendo un impegno collettivo per riformare profondamente la cultura della ricerca. Modificare gli incentivi che favoriscono quantità piuttosto che qualità, promuovere pratiche metodologiche rigorose e valorizzare la replicazione sono passi essenziali per costruire una scienza più affidabile. Solo attraverso un approccio multidimensionale sarà possibile ripristinare la fiducia nella psicologia scientifica e garantire che le sue applicazioni pratiche siano fondate su basi solide e verificabili.

In questo contesto, l’inferenza bayesiana emerge come uno strumento di grande valore per l’analisi dei dati psicologici. Offrendo metodi avanzati per gestire l’incertezza, integrare conoscenze pregresse e adattarsi a modelli complessi, essa si dimostra particolarmente utile per esplorare i fenomeni legati alla mente umana e al comportamento. La sua capacità di fornire previsioni robuste e di aggiornare le ipotesi in base a nuovi dati la rende un approccio ideale per affrontare le sfide poste dalla natura intrinsecamente dinamica del campo psicologico.

Tuttavia, è importante sottolineare che l’adozione di metodi bayesiani non costituisce da sola una soluzione completa alla crisi della replicabilità. Per migliorare realmente la qualità della ricerca, è necessario integrare queste tecniche con pratiche metodologiche rigorose. Tra queste, spiccano la formalizzazione di modelli generativi, che consentono di descrivere esplicitamente i processi sottostanti ai dati osservati, e il confronto tra modelli alternativi, fondamentale per valutare l’adeguatezza delle teorie proposte. Inoltre, l’adozione di una prospettiva causale esplicita è cruciale per identificare correttamente le relazioni di causa-effetto, superando i limiti degli studi correlazionali o degli esperimenti tradizionali.

In conclusione, solo un approccio integrato, che combini l’inferenza bayesiana con pratiche metodologiche avanzate e una riflessione critica sui sistemi di incentivi accademici, permetterà di progredire verso una scienza psicologica più affidabile e riproducibile. Questo sforzo collettivo non solo migliorerà la qualità delle ricerche, ma contribuirà anche a fornire una comprensione più profonda e accurata del comportamento umano, consolidando così la posizione della psicologia come disciplina scientifica solida e credibile.

Bibliografia

Dogucu, M., & Çetinkaya-Rundel, M. (2021). Web scraping in the statistics and data science curriculum: Challenges and opportunities. Journal of Statistics and Data Science Education, 29(sup1), S112–S122.
Dogucu, M., & Hu, J. (2022). The current state of undergraduate Bayesian education and recommendations for the future. The American Statistician, 76(4), 405–413.
Gelman, A., Vehtari, A., Simpson, D., Margossian, C. C., Carpenter, B., Yao, Y., Kennedy, L., Gabry, J., Bürkner, P.-C., & Modrák, M. (2020). Bayesian workflow. arXiv preprint arXiv:2011.01808.
Johnson, A. A., Ott, M., & Dogucu, M. (2022). Bayes Rules! An Introduction to Bayesian Modeling with R. CRC Press.
Loken, E., & Gelman, A. (2017). Measurement Error and the Replication Crisis. Science, 355(6325), 584–585.
Rosenberg, J. M., Kubsch, M., Wagenmakers, E.-J., & Dogucu, M. (2022). Making sense of uncertainty in the science classroom: A Bayesian approach. Science & Education, 31(5), 1239–1262.
Smaldino, P. E., & McElreath, R. (2016). The natural selection of bad science. Royal Society Open Science, 3(9), 160384.