La crisi della generalizzabilità#
Nel contesto di un corso introduttivo sull’analisi dei dati in psicologia, è essenziale affrontare la questione relativa all’importanza dell’utilizzo di metodi statistici in questa disciplina. Perché è così cruciale che la psicologia moderna si avvalga di approcci quantitativi? La risposta convenzionale sostiene che la valutazione di molte affermazioni psicologiche si basa sul calcolo di misure statistiche, le quali sono ritenute rilevanti sia per le teorie che per le applicazioni pratiche di interesse per i psicologi. Di conseguenza, l’analisi quantitativa offre vantaggi che non sono raggiungibili attraverso l’analisi qualitativa da sola.
Tuttavia, la modalità in cui le tecniche statistiche sono comunemente impiegate in psicologia ha generato una serie di dubbi e controversie. In questo contesto, un articolo recente di Yarkoni [Yar22] offre un contributo istruttivo.
Operazionalizzazione#
L’utilizzo di tecniche statistiche avanzate è fondamentale per un’analisi rigorosa dei dati, ma non può sostituire altri aspetti chiave del metodo scientifico, come la validità dei dati [AG22]. Quest’ultima rappresenta il grado in cui i dati effettivamente misurano il concetto teorico che intendono rappresentare.
Nel campo della psicologia, le teorie vengono formulate utilizzando costrutti teorici, che sono entità concettuali non direttamente osservabili. Per rendere questi costrutti accessibili all’analisi empirica, è necessario un processo di «operazionalizzazione». Questo agisce come un collegamento tra la teoria e la pratica di ricerca, traducendo costrutti astratti in variabili empiriche misurabili.
Tuttavia, l’operazionalizzazione è tutt’altro che un processo neutro. La scelta delle variabili empiriche da utilizzare come proxy per i costrutti teorici porta con sé presupposti metodologici e epistemologici che possono influenzare l’interpretazione e la validità dei risultati della ricerca. In altre parole, la qualità dell’operazionalizzazione influenza il valore e la credibilità di un’indagine empirica.
Prendiamo come esempio la teoria dello sviluppo cognitivo di Jean Piaget. Questa teoria postula vari stadi di sviluppo cognitivo definiti da costrutti come «conservazione», «ragionamento ipotetico-deduttivo», eccetera. L’operazionalizzazione di questi costrutti ha portato allo sviluppo di test come il Test delle Operazioni Concrete (TOC), che sono stati utilizzati per misurare tali capacità in contesti specifici. È però emerso che l’uso di diverse operazionalizzazioni dei costrutti della teoria dello sviluppo cognitivo porta a conclusioni divergenti che, in alcuni casi, hanno rivoluzionato le affermazioni originali di Piaget. Ciò dimostra l’importanza delle scelte fatte dal ricercatore nella fase di operazionalizzazione dei costrutti.
La validità del costrutto (ovvero, la misura in cui uno strumento di misurazione è in grado di valutare accuratamente il costrutto che si propone di misurare) si rivela dunque essere un elemento cruciale. Non è sufficiente limitarsi a condurre analisi statistiche meticolose; è fondamentale che queste analisi siano basate su un’operazionalizzazione adeguata del costrutto teorico oggetto di studio. Questa è una questione che riguarda l’integrità del metodo di ricerca e non può essere risolta attraverso l’uso di strumenti statistici. Infatti, la robustezza di un modello statistico è strettamente correlata alla qualità con cui il costrutto è stato operazionalizzato. Se questa operazionalizzazione è deficitaria, i risultati delle analisi statistiche rischiano di essere non solo irrilevanti, ma anche potenzialmente fuorvianti.
In conclusione, l’impiego di tecniche statistiche avanzate, pur essendo indispensabile per un’analisi rigorosa dei dati, non sostituisce la necessità di esaminare con attenzione altri aspetti fondamentali che garantiscono l’integrità della ricerca. Tra questi, spiccano la qualità della misurazione e una operazionalizzazione valida dei costrutti teorici in questione.
La crisi della replicabilità o della generalizzabilità?#
Gli psicologi sono formati a credere che la loro capacità di trarre inferenze «significative» dipenda in gran parte dalla produzione di determinate quantità statistiche (ad esempio, valori-\(p\) inferiori a 0.05, fattori di Bayes superiori a 10, ecc.), quindi si sforzano enormemente per ottenere tali risultati numerici. Quello che sembra non preoccupare molto la maggior parte dei ricercatori è che questi numeri altamente contestualizzati abbiano di solito poco a che fare con le teorie e le ipotesi più ampie che i ricercatori hanno in mente e ritengono di testare. Quello che sembra contare di più è che i valori-\(p\) e i fattori di Bayes superino le soglie prescritte.
Queste pratiche (che mirano più alla pubblicazione dei risultati delle ricerche che alla validità dei risultati delle ricerche) possono essere messe in relazione con la più ampia «crisi della replicabilità» attualmente in corso nella psicologia e in altre discipline scientifiche (Lilienfeld, 2017; Pashler & Wagenmakers, 2012; Shrout & Rodgers, 2018). Tale crisi è da considerarsi reale e di grande serietà, in quanto esistono prove incontrovertibili che pratiche di ricerca discutibili (Gelman & Loken, 2013; John, Loewenstein, & Prelec, 2012; Simmons, Nelson, & Simonsohn, 2011) e forti pressioni selettive (Francis, 2012; Kühberger, Fritz, & Scherndl, 2014; Smaldino & McElreath, 2016) abbiano portato alla pubblicazione di una considerevole quantità di risultati spurii o inflazionati che difficilmente potranno essere replicati (Ioannidis, 2005, 2008; Yarkoni, 2009).
Il recente passaggio a pratiche come la preregistrazione, le checklist di reporting, la condivisione dei dati e altre simili, rappresenta certamente un passo positivo che contribuirà innegabilmente a migliorare la riproducibilità e la replicabilità delle scoperte nel campo della psicologia. Tuttavia, contemporaneamente, l’attuale enfasi sulla riproducibilità e la replicabilità potrebbe rischiare di distogliere l’attenzione da questioni ancora più cruciali e logicamente prioritarie, in particolare quelle legate alla generalizzabilità. Il cuore del problema risiede nel fatto che, quando la manifestazione di un fenomeno varia significativamente tra diversi contesti potenziali di misurazione, il fatto che una singola realizzazione sia o meno replicabile ha scarso rilievo (Gelman, 2015, 2018). In pratica, gli sforzi attuali volti a garantire la riproducibilità e la replicabilità degli effetti, ovvero la capacità di ottenere risultati simili da studi indipendenti, stanno spingendo i ricercatori nel campo della psicologia e in altre discipline a investire risorse considerevoli in studi che, anche quando i risultati possono essere replicati in modo coerente, spesso hanno un valore informativo limitato. Gli «articoli di replicazione registrata» su larga scala, in realtà, rappresentano uno spreco di risorse, quando mirano a replicare paradigmi sperimentali che, sin dall’inizio, presentano carenze in termini di validità.
I ricercatori devono essere pronti a valutare criticamente gli studi precedenti e a respingere, basandosi su ragioni logiche e statistiche, le affermazioni che non sono mai state supportate dai dati fin dall’inizio. A titolo di esempio, un compito di riconoscimento della memoria che si basa su un solo video, un solo volto bersaglio e un solo set di distrattori, semplicemente non è in grado di costituire un test valido per alcun costrutto più ampio. Inoltre, indirizzare risorse considerevoli verso la replicazione di uno studio di questo tipo rappresenta una decisione poco appropriata. La risposta adeguata a uno studio di tale natura consiste nel sottolineare che i risultati ristretti riportati dagli autori non hanno mai sostenuto - e in realtà non avrebbero potuto sostenere, indipendentemente dall’andamento dei dati - le affermazioni più ampie formulate dagli stessi autori. Pertanto, tale studio non merita ulteriori approfondimenti fino a quando gli autori non saranno in grado di presentare prove più solide riguardo all’osservazione di un fenomeno di portata generale.
La stessa preoccupazione si estende a molte altre discussioni attuali in campo statistico e metodologico. È preferibile adottare un approccio frequentista o bayesiano per il test delle ipotesi? Dovremmo spostare la soglia convenzionale per la significatività statistica da 0.05 a 0.005? Molta attenzione continua a essere dedicata a tali questioni, tuttavia, in qualsiasi ambito di ricerca in cui gli effetti sono altamente variabili (cioè, nella maggior parte della psicologia), il contributo netto di tali scelte metodologiche e analitiche all’incertezza inferenziale complessiva è probabilmente oscurato dal bias introdotto dalla generalizzazione implicita su fonti di varianza non modellate nei dati.
Ha poco senso dibattere sui meriti di una soglia di significatività statistica di 0.005 invece di 0.05 in un mondo in cui persino una banale modifica in una variabile non modellata - ad esempio, una scelta tra due compiti cognitivi nominalmente equivalenti o l’utilizzo di un campione di stimoli leggermente diverso - può far passare i risultati da p = 0.5 a p = 0.0005 o viceversa. Un modo per descrivere questo problema è quello di dire che, di fronte alla difficoltà di definire cosa realmente rappresentano gli effetti complessi e multicausali con cui gli psicologi hanno abitualmente a che fare, i ricercatori abbiano collettivamente optato per cercare risposte superficialmente precise a domande che nessun vero psicologo considera di particolare interesse. Il recente movimento volto a replicare studi influenti attraverso l’adozione di metodologie più solide rischia di peggiorare la situazione, poiché nei casi in cui tali sforzi «hanno successo» (nel senso che ottengono un risultato statistico coerente con l’originale), i ricercatori traggono spesso la scorretta conclusione che i nuovi dati confermino la rivendicazione originale, quando in realtà quest’ultima non è mai stata supportata dai dati fin dall’inizio.
In situazioni in cui sorgono dubbi circa la coerenza interna e/o la generalizzabilità di una scoperta, un approccio più adeguato consiste nell’orientarsi principalmente verso una valutazione critica del disegno sperimentale, dell’approccio alla misurazione e delle specifiche del modello. Solo se una revisione attenta suggerisce che questi elementi supportano le affermazioni fatte dagli autori dello studio, i ricercatori dovrebbero iniziare a considerare la possibilità di condurre una replica.