La grandezza dell’effetto#

In questo capitolo esamineremo in dettaglio l’articolo di Funder and Ozer [FO19] sulla stima e interpretazione della grandezza dell’effetto in psicologia.

Funder and Ozer [FO19] evidenziano come, storicamente, la ricerca psicologica abbia dato priorità alla «significatività» statistica dei risultati. Tuttavia, si sta osservando un cambiamento verso un maggiore interesse per l’entità dell’effetto, una misura che esprime la forza dell’associazione tra variabili indipendenti e dipendenti. Questa tendenza sottolinea che la grandezza dell’effetto offre una prospettiva diversa dalla mera significatività statistica: un risultato può essere statisticamente significativo e tuttavia rappresentare un effetto di piccole dimensioni, o viceversa, dipendentemente dalla grandezza del campione analizzato. Nonostante la significatività statistica sia un concetto ben radicato nella formazione degli studenti, meno enfasi viene posta sull’insegnamento di come calcolare e interpretare le dimensioni dell’effetto, e ancor meno su come valutarle adeguatamente.

La letteratura scientifica pubblicata riflette questa lacuna: sebbene sia ormai una prassi richiedere la comunicazione delle dimensioni dell’effetto negli studi, i ricercatori spesso trascurano di esaminare o interpretare queste dimensioni al di fuori dei requisiti minimi richiesti dalle pubblicazioni. Di conseguenza, quando vengono tratte conclusioni basate sull’entità dell’effetto, le analisi tendono ad essere superficiali, poco informative, fuorvianti, o persino errate. Questo scenario evidenzia una sottovalutazione sistematica e una diffusa incomprensione delle dimensioni dell’effetto, un problema che persiste anche tra i professionisti della ricerca.

Misurazione dell’Effetto: Approcci e Applicazioni#

Tra le metriche più adottate per quantificare la dimensione dell’effetto si annoverano il d di Cohen e il r di Pearson. Il d di Cohen è prevalentemente impiegato per descrivere le differenze tra le medie di gruppi sperimentali, quantificando questa differenza in termini di deviazione standard aggregata. Per esemplificare, considerando due campioni indipendenti di dimensione \(n_1\) e \(n_2\), la dimensione dell’effetto relativa alla differenza tra le medie è denotata da \(d\), calcolata mediante:

\[ d = \frac{\bar{y}_1 - \bar{y}_2}{s_p}, \]

dove \(\bar{y}_1\) e \(\bar{y}_2\) rappresentano le medie campionarie dei due gruppi, e \(s_p\) indica la deviazione standard composta, definita come:

\[ s_p = \sqrt{\frac{(n_1-1)s_1^2 + (n_2-1)s_2^2}{n_1 + n_2 - 2}}, \]

con \(s_1\) e \(s_2\) che corrispondono alle deviazioni standard dei rispettivi campioni.

La statistica r di Pearson, d’altro canto, viene utilizzato per esprimere il grado di previsione di una variabile attraverso un’altra, fornendo una misura della correlazione. È interessante notare come queste due misure possano essere convertite l’una nell’altra attraverso la relazione:

\[ d = \frac{2r}{\sqrt{1-r^2}}. \]

Nel loro lavoro, Funder and Ozer [FO19] privilegiano l’uso di \(r\).

Nonostante la pratica di riferire i valori di \(p\) senza menzionare le dimensioni dell’effetto fosse diffusa nella letteratura psicologica passata, recentemente si è assistito a un cambiamento, con le principali riviste che ora richiedono esplicitamente la segnalazione delle dimensioni dell’effetto. Il manuale dell’American Psychological Association del 2010 afferma che indicare la dimensione dell’effetto è quasi sempre indispensabile, portando alla conseguenza che la maggioranza degli articoli pubblicati nelle riviste associati all’APA includano una qualche forma di misura dell’effetto, generalmente in parentesi e accanto al valore di \(p\).

Tuttavia, questa pratica non è sempre accolta con entusiasmo. Funder and Ozer [FO19] riportano il commento di un noto psicologo sociale che sottolinea un approccio differente alla ricerca, dove l’interesse principale è la direzione dell’effetto piuttosto che la sua grandezza. Questo punto di vista, sebbene non insolito, solleva questioni pertinenti. In primo luogo, l’uso di valori di \(p\) per determinare la significatività statistica di un risultato implica implicitamente una soglia minima per la dimensione dell’effetto. In secondo luogo, la letteratura psicologica abbonda di riferimenti, spesso qualitativi e non quantitativi, agli effetti descritti come «grandi» o «sorprendentemente grandi», suggerendo una diffusa, ma spesso non quantificata, percezione dell’importanza delle dimensioni dell’effetto.

Le Due Modalità Più Comuni per Interpretare la Dimensione dell’Effetto#

L’interpretazione delle dimensioni dell’effetto procede tradizionalmente in uno di due modi: il primo è letteralmente privo di senso (nel significato espresso nella definizione che apre questo articolo), mentre l’altro è seriamente fuorviante.

Gli Standard di Cohen#

Funder and Ozer [FO19] affermano che l’interpretazione più ampiamente utilizzata, ma priva di senso, della dimensione dell’effetto richiama i famosi standard stabiliti da Jacob Cohen (1977, 1988), che ha fissato valori di r di .10, .30 e .50 come soglie per effetti piccoli, medi e grandi, rispettivamente.

Cohen (1988) ha utilizzato queste convenzioni nel contesto dell’analisi della potenza «solo quando non era disponibile una base migliore» (p. 25) e in seguito ha confessato di aver rimpianto di averle suggerite (R. Rosenthal, comunicazione personale, Novembre 2018). Funder and Ozer [FO19] affermano che Cohen aveva buone ragioni per questo rammarico: i termini piccolo, medio e grande sono privi di significato in assenza di un quadro di riferimento. Richiedono immediatamente una risposta ad almeno una delle due domande: (a) piccolo, medio o grande rispetto a cosa? e (b) piccolo, medio o grande a quale scopo?

Elevare al quadrato la correlazione#

Secondo Funder and Ozer [FO19], per quanto questi criteri decontestualizzati siano dei cattivi criteri, l’altro modo ampiamente utilizzato per valutare la dimensione dell’effetto è ancora peggiore. Questo metodo consiste nell’elevare al quadrato il valore r riportato. Ad esempio, un r di .30, elevato al quadrato, produce il numero .09 come «proporzione di varianza spiegata», e questa conversione, quando riportata, include spesso la parola «solo», come in «la correlazione di .30 ha spiegato solo il 9% della varianza».

Non è mai stata proposta alcuna giustificazione del perché r2 sia una misura appropriata della dimensione dell’effetto. La statistica r equivale alla pendenza di regressione quando entrambe le variabili sono standardizzate. D’altra parte, r2 è molto meno interpretabile di r perché riflette la proporzione di varianza in una variabile spiegata da un’altra.

Funder and Ozer [FO19] propongono un esempio relativo alla differenza di valore tra nickel (5¢) e dime (10¢). In un esempio introdotto da Darlington (1990), immaginiamo un gioco di lancio di monete in cui si lancia prima un nickel e poi un dime, ricevendo un pagamento di 5¢ o 10¢ (rispettivamente) se la moneta mostra testa. Senza entrare nei dettagli, nell’esempio vengono calcolate le correlazioni tra la colonna del nickel e quella del pagamento (r = .4472) e tra la colonna del dime e quella del pagamento (r = .8944). Se si elevano al quadrato queste correlazioni per calcolare la tradizionale percentuale di varianza spiegata, il risultato è che i nickel spiegano esattamente il 20% della varianza nel pagamento, e i dime spiegano l’80%. Ma se tali valori vengono interpretati dicendo che i dime contano 4 volte tanto quanto i nickel, questi numeri sono fuorvianti. I due r offrono invece un confronto più informativo, poiché .8944 è esattamente il doppio di .4472. Elevare al quadrato r non è solo poco informativo; ai fini della valutazione della dimensione dell’effetto, la pratica è fuorviante.

Approcci Significativi all’Interpretazione delle Dimensioni dell’Effetto#

Interpretare le dimensioni degli effetti in modi che ne arricchiscano il significato è cruciale. Funder and Ozer [FO19] propongono due strategie principali: l’adozione di benchmark (criteri di riferimento) e la valutazione delle implicazioni pratiche dei risultati.

Adozione di Benchmark#

Utilizzare un criterio di riferimento per interpretare la dimensione dell’effetto significa confrontare l’entità di un risultato con quella di risultati ben noti e ampiamente compresi. Simile al modo in cui giudichiamo l’altezza di una persona basandoci su confronti con altri, i ricercatori possono guadagnare una percezione accurata dell’importanza di un risultato confrontandolo con la dimensione di effetti noti, sia quelli tipici del campo di studio sia quelli emersi da ricerche passate.

Analisi di Riferimento su Studi Classici#

Un approccio al benchmarking può includere l’analisi di risultati considerati «classici» nel campo di interesse o la considerazione di dimensioni dell’effetto per risultati che hanno ottenuto un consenso solido nella comunità psicologica.

Confronti con l’Ampiezza degli Studi#

In un’ottica più ampia, alcuni ricercatori hanno proposto benchmark per la dimensione dell’effetto calcolando medie su vasti corpi di letteratura. Per esempio, uno studio di psicologia sociale ha esaminato 708 correlazioni ottenute meta-analiticamente, rivelando che la dimensione media dell’effetto \(r\) era di .19.

Confronti con Relazioni Intuitivamente Comprensibili al di Fuori della Psicologia#

La conoscenza comune o i risultati di ricerche non psicologiche possono offrire benchmark per valutare la forza di una relazione tra variabili. Un esempio è l’efficacia degli antistaminici contro il comune raffreddore, che corrisponde a un \(r\) di .11, mentre l’effetto degli anti-infiammatori non steroidei (come l’ibuprofene) sul dolore è \(r = .14\).

Tali confronti illustrano come l’interpretazione delle dimensioni dell’effetto possa essere notevolmente approfondita e resa più significativa attraverso il riferimento a benchmark consolidati o intuitivamente comprensibili, sia dentro che fuori il campo della psicologia. Questo metodo consente di inserire i risultati di nuove ricerche in un contesto più vasto, favorendo una valutazione più consapevole della loro rilevanza relativa.

Conseguenze e Valutazione dell’Effetto Dimensionale tramite il Display dell’Effetto Binomiale#

Un metodo più diretto per valutare la dimensione di un effetto è considerarne le conseguenze, che in alcuni casi possono essere calcolate numericamente. Il Display dell’Effetto Binomiale (BESD), introdotto da Rosenthal e Rubin nel 1982, è forse il metodo più noto e facile da utilizzare in questo contesto. Il BESD illustra la grandezza di un effetto, espresso in termini di r, utilizzando una tabella 2 × 2 degli esiti.

Supponiamo che un campione di 200 individui sia stato diviso in due gruppi di pari dimensione, uno dei quali ha ricevuto un intervento (ad esempio, un farmaco per una malattia che tutti e 200 hanno) e l’altro no. Si assume poi, a scopo dimostrativo, che per metà degli individui l’intervento sia stato efficace, e per l’altra metà no. Se l’intervento (o il farmaco) non avesse alcun effetto (r = 0), la tabella 2 × 2 si presenterebbe come la Tabella 2.

Tabella 2. Display dell’Effetto Binomiale per una Correlazione di 0

Gruppo

Esito Positivo (n)

Esito Negativo (n)

Totale

Intervento

50

50

100

Nessun intervento

50

50

100

Totale

100

100

200

Nell’esempio ipotetico di Rosenthal e Rubin, l’intervento consiste nel somministrare o meno un farmaco, e l’esito è essere vivi o morti alla fine dello studio, ma il metodo può essere applicato più generalmente in scenari meno drammatici; qualsiasi coppia di predittore dicotomico e esito dicotomico può essere analizzata in questo modo. La dimensione dell’effetto r può essere facilmente incorporata in una tabella BESD moltiplicandola per 100 (per eliminare il decimale), dividendo il risultato per 2, aggiungendo 50, e posizionando il risultato nell’angolo superiore sinistro. Le altre celle possono poi essere determinate per sottrazione (poiché questa tabella ha 1 grado di libertà). Se r è 0.30, il numero nell’angolo superiore sinistro è 65 (30/2 + 50 = 65), e la tabella si presenta come la Tabella 3.

Tabella 3. Display dell’Effetto Binomiale per una Correlazione di .30

Gruppo

Esito Positivo (n)

Esito Negativo (n)

Totale

Intervento

65

35

100

Nessun intervento

35

65

100

Totale

100

100

200

Nonostante la correlazione sia di solo 0.30, un effetto di questa dimensione produrrà quasi il doppio delle previsioni corrette rispetto a quelle sbagliate. Una tabella come questa può essere utilizzata, come nell’esempio di Rosenthal e Rubin (1982), per valutare il numero di vite che potrebbero essere salvate da un intervento sanitario. In un’analisi simile, Rosenthal (1990) calcolò che la correlazione di .03 tra l’assunzione di aspirina dopo un attacco cardiaco e la prevenzione di futuri attacchi cardiaci implicava la prevenzione di 85 attacchi in un campione di 10.845 individui. In modo simile, le tabelle di Taylor-Russell (Taylor & Russell, 1939) sono state a lungo utilizzate dagli psicologi industriali per combinare la validità di uno strumento di selezione con il rapporto di selezione (la proporzione di candidati assunti) per prevedere la percentuale di dipendenti assunti che avranno successo nel lavoro.

Conseguenze a Lungo Termine#

In un’analisi classica sottotitolata «Quando un Po” è Molto», il noto psicologo cognitivo Robert Abelson (1985) calcolò la correlazione tra l’esito di un singolo turno di battuta di un giocatore della Major League di baseball e la sua media in battuta complessiva. Il calcolo di Abelson produsse un r di .056.

prima reazione a questo risultato [fu] di incredulità… La mia intuizione personale fu scossa da questo risultato, che sembra molto troppo piccolo» (p. 131).

Il mistero sembrò approfondirsi quando osservò che quasi tutti i giocatori della Major League rivelarono medie stagionali entro un intervallo limitato, tra circa .200 e .300.

Tuttavia, la soluzione a quello che Abelson caratterizzò come un «paradosso» (p. 131) si rivelò piuttosto semplice. Il tipico giocatore della Major League ha circa 550 turni di battuta in una stagione, e le conseguenze si accumulano. Questa accumulazione è sufficiente, sembra, a determinare l’esito che una squadra composta da giocatori con medie in battuta di .300 è probabilmente in cammino verso i playoff, e una squadra composta da giocatori con medie di .200 è a rischio di arrivare all’ultimo posto. La differenza di stipendio tra un battitore da .200 e uno da .300 si misura in milioni di dollari.

Un altro esempio proviene da un ampio studio che ha tracciato 2 milioni di transazioni finanziarie di oltre 2000 persone. La correlazione tra il punteggio di estroversione di un individuo e l’importo speso per gli acquisti natalizi era di .09 (Weston, Gladstone, Graham, Mroczek, & Condon, 2018). Sebbene questo fatto potrebbe non essere molto significativo per un singolo individuo, moltiplicando l’effetto per il numero di persone in un grande magazzino la settimana prima di Natale, diventa evidente perché i commercianti dovrebbero profondamente interessarsi alle personalità dei loro clienti.

L’implicazione generale, come notato da Abelson (1985), è che effetti apparentemente piccoli possono avere importanza

a lungo termine, sebbene non molto consequenzialmente in un singolo episodio (p. 133).

In particolare, un processo psicologico che influenza il comportamento di un singolo individuo ripetutamente nel tempo, o, analogamente, il comportamento di molti individui simultaneamente in un’occasione singola, può avere implicazioni enormemente importanti.

Rilevanza per la Ricerca Psicologica#

L’esemplificazione di Abelson (1985) su come effetti apparentemente piccoli possano accumularsi ha importanti implicazioni per la psicologia. Ogni incontro sociale, comportamento, reazione ed emozione che una persona sperimenta può essere considerato un «turno di battuta» psicologico. E immaginiamo quanti di questi avvengano in un giorno, una settimana, un anno o una vita – certamente molti più dei circa 550 turni di battuta che un giocatore di baseball ha in un anno. Qualsiasi variabile psicologica che influenzi uno qualsiasi di questi aspetti, ogni volta che si verifica, avrà un effetto che si accumula nel tempo, con conseguenze importanti per numerosi esiti di vita, inclusi (per citarne solo alcuni esempi) popolarità e successo sociale, salute fisica, successo finanziario, relazioni personali e qualità generale della vita.

Ricerca sulle Differenze Individuali#

La rilevanza dell’accumulo di piccoli effetti nel tempo è particolarmente evidente nella ricerca sulle differenze individuali, come le abilità o i tratti di personalità. Se un tratto stabile – come l’estroversione o la coscienziosità – influenza il comportamento anche in modo minimo, le sue conseguenze possono sommarsi nel tempo. Le analisi degli effetti della personalità sugli esiti di vita si sono concentrate su conseguenze a lungo termine come la salute, il successo nelle relazioni, la qualità della vita e la longevità. L’analisi di Abelson suggerisce che potrebbe essere necessario molto meno di una vita per notare le conseguenze dei tratti di personalità stabili. Una correlazione di circa .05 si traduce in grandi conseguenze con 550 turni di battuta. Retoricamente, Funder and Ozer [FO19] si chiedono: quanto tempo ci vuole per una persona per sperimentare, ad esempio, 550 incontri interpersonali?

Ancora più notevolmente, Epstein ha dimostrato che criteri di esito ampi possono essere predetti con sorprendente precisione da variabili predittive aggregate. Ad esempio, ha mostrato che il comportamento medio di una persona in un periodo di 14 giorni poteva essere predetto dal comportamento medio della persona in un periodo precedente di 14 giorni con una correlazione pari a .80-.90. La morale di questa dimostrazione è che un obiettivo appropriato e realistico per la previsione comportamentale non è ciò che una persona fa in un giorno o in una specifica situazione, ma ciò che fa nel medio termine.

Quando gli effetti si accumulano (e quando no)#

La discussione precedente si applica alle circostanze in cui gli effetti misurati in uno studio di ricerca possono essere attesi di accumularsi nel tempo, situazioni o individui. Piccoli effetti si accumulano in grandi in almeno alcune, e probabilmente molte, ma certamente non tutte le circostanze. Questo accumulo può verificarsi nel tempo e in occasioni per un dato individuo, e tra individui in un unico momento o occasione.

Un esempio chiaro di come piccoli cambiamenti nel comportamento possano avere un impatto significativo nel tempo, anche al di fuori del contesto sportivo del baseball, è quello della gentilezza. Se una persona è leggermente più propensa ad essere amichevole rispetto agli altri, nel corso del tempo potrebbe guadagnare una reputazione sociale migliore. Tuttavia, non sempre i risultati sono così lineari. Ci sono situazioni in cui gli effetti accumulati possono non avere l’effetto sperato, crescere in modo imprevedibile o persino invertire la tendenza nel tempo.

Ad esempio, secondo il principio dell’abitudine, le risposte a uno stimolo ripetuto possono alla fine scomparire completamente. Questo principio si applica a molti contesti, ma non è l’unico esempio. Mentre riflettiamo su casi simili, emerge una carenza nella teoria psicologica: spesso non tiene conto di come le differenze individuali, le variabili situazionali e i processi sottostanti possano accumularsi nel tempo per influenzare il comportamento e le conseguenze. Allo stesso modo, non considera quali processi non si accumuleranno nel loro impatto nel tempo.

Stima Affidabile delle Dimensioni dell’Effetto#

Funder and Ozer [FO19] fanno presente che, un’assunzione tacita della discussione precedente, è stata quella per cui la dimensione dell’effetto in questione sia stata stimata in modo affidabile. Questa è un’assunzione forte. La distinzione tra un coefficiente di correlazione (r) di .30 e uno di .40 potrebbe non rivestire grande importanza per la maggior parte degli scopi teorici o applicativi, tuttavia, una differenza tra valori di r di .00 e .10 assume certamente un’importanza notevole.

Funder and Ozer [FO19] propongono che una stima «più solida» della dimensione dell’effetto «reale» possa essere ottenuta attraverso meta-analisi. Sottolineano inoltre come la precisione nella stima delle dimensioni dell’effetto acquisti maggiore rilevanza in presenza di effetti di piccola entità.

Fanno altresì notare che effetti più piccoli sono più a rischio di essere il prodotto di un artefatto. Questa considerazione illustra un’altra sfaccettatura della stima precisa quando gli effetti sono piccoli: Non solo sono desiderabili campioni più grandi e più studi, ma è anche necessaria una grande cura per eliminare potenziali variabili confondenti.

Implicazioni per l’Interpretazione dei Risultati di Ricerca#

Secondo Funder and Ozer [FO19], l’analisi dell’efficacia delle dimensioni dell’effetto porta a tre riflessioni cruciali riguardanti l’interpretazione dei risultati di ricerca.

Gli Ricercatori Non Dovrebbero Automaticamente Ignorare gli Effetti «Piccoli»#

Si è osservato che effetti considerati di piccola entità possono avere impatti significativi a lungo termine. Pertanto, è essenziale non trascurarli automaticamente.

Gli Ricercatori Dovrebbero Essere Più Scettici sugli Effetti «Grandi»#

Viene evidenziata la tendenza a sovrastimare gli effetti di grande entità, specialmente quando derivano da campioni di dimensioni ridotte. Un caso emblematico è lo studio sull’influenza del riordinamento delle parole legate agli stereotipi sugli anziani e la loro velocità di camminata. In due esperimenti separati, ciascuno con un campione di 30 partecipanti, si è osservato un rallentamento nella velocità di camminata, con dimensioni dell’effetto r di .48 e .38 rispettivamente. Questi dati, sebbene non menzionati nell’articolo originale, sono deducibili dalle statistiche t fornite. È ben noto che questi risultati non sono stati replicati in ricerche successive.

I Ricercatori Dovrebbero Essere Più Realistici sugli Obiettivi dei Loro Programmi di Ricerca#

Funder and Ozer [FO19] sollecitano i ricercatori a moderare le aspettative riguardo l’impatto delle variabili studiate sulla cognizione, l’emozione o il comportamento. Quanto è verosimile che un programma di ricerca possa spiegare una porzione significativa della complessità del mondo psicologico? La raccomandazione è di adattare le aspettative alla realtà del contributo che la ricerca può effettivamente apportare alla comprensione dei processi psicologici.

Raccomandazioni per la Pratica di Ricerca#

Funder and Ozer [FO19] concludono il loro articolo con una serie di raccomandazioni.

Riportare sempre e in modo evidente le dimensioni degli effetti#

Le dimensioni degli effetti di ogni studio dovrebbero essere riportate in modo evidente. Questa pratica è routine negli articoli sulle differenze individuali, in cui il r di Pearson è onnipresente, ma anche questi articoli potrebbero enfatizzare maggiormente le dimensioni degli effetti effettivi, oltre all’esistenza delle relazioni riportate. Gli studi sperimentali hanno ancora molta strada da fare; le dimensioni degli effetti che sono obbligatorie da riportare non dovrebbero essere sepolte nelle sezioni dei Risultati, menzionate riluttantemente tra parentesi, ma dovrebbero essere incluse anche negli abstract e nelle sezioni di Discussione. Col tempo, si accumulerà una base di esperienza man mano che i lettori della letteratura—ricercatori e studenti—diventano gradualmente familiari con le dimensioni degli effetti effettivamente trovate nella ricerca ben condotta. Una conseguenza di questa raccomandazione è che la dimensione del campione di ogni studio dovrebbe essere sufficiente affinché la stima della dimensione dell’effetto sia almeno un po” affidabile.

Condurre studi con campioni ampi#

Come abbiamo notato, una complicazione spesso trascurata nell’interpretare le dimensioni degli effetti è che l’intervallo di confidenza di r è molto ampio con campioni piccoli. Studi con campioni ampi sono ideali. Questo non è sempre fattibile con certi tipi di ricerca o popolazioni soggette, ma dovrebbe essere una priorità importante rendere i campioni il più grandi possibile, e forse sarebbe saggio riallocare le risorse da numerosi studi più piccoli a meno studi più grandi.

Riportare le dimensioni degli effetti in termini significativi nel contesto#

Il r di Pearson, enfatizzato in questo articolo, è una misura standardizzata della dimensione dell’effetto, il che significa che non ha riferimento e non fornisce informazioni sulle unità di misura utilizzate nello studio. È necessario utilizzare misure delle dimensioni degli effetti che siano significative nel contesto specifico dello studio, come differenze medie o coefficienti di regressione grezzi, accanto a misure standardizzate, quando possibile.

Smettere di usare terminologia vuota#

È giunto il momento di smettere di elevare al quadrato i r per minimizzare la piccola percentuale di varianza spiegata e di smettere di usare senza riflettere le linee guida di J. Cohen (1977, 1988), che lo stesso Cohen ha finito per disconoscere. Idealmente, parole come piccolo e grande dovrebbero essere eliminate dal vocabolario delle dimensioni degli effetti, poiché sono etichette soggettive e spesso arbitrarie che non aggiungono informazioni ai risultati che possono essere riportati quantitativamente.

Rivedere le linee guida di Cohen#

Questa è la nostra raccomandazione più presuntuosa, e la offriamo in parte scherzosamente, ma non del tutto. È chiaro che le tradizionali linee guida di Cohen sono troppo rigorose. Nuove linee guida potrebbero essere proposte alla luce delle dimensioni medie degli effetti nella letteratura pubblicata di psicologia sociale e di personalità e delle dimensioni di altre relazioni incontrate nell’esperienza quotidiana. Proponiamo quindi le seguenti Nuove Linee Guida: assumendo che le stime siano affidabili, una dimensione dell’effetto r di .05 indica un effetto molto piccolo per la spiegazione di eventi singoli ma potenzialmente conseguente nel non molto lungo periodo, r di .10 indica un effetto ancora piccolo a livello di eventi singoli ma potenzialmente più in definitiva conseguente, r di .20 indica un effetto di dimensione media che è di qualche utilità esplicativa e pratica anche nel breve periodo e quindi ancora più importante, e r di .30 indica un effetto che è grande e potenzialmente potente sia nel breve che nel lungo periodo. Una dimensione dell’effetto molto grande (r = .40 o superiore) nel contesto della ricerca psicologica è, suggeriamo, probabile che sia una sovrastima grossolana che raramente si troverà in un campione ampio o in una replica. Dimensioni dell’effetto più piccole non sono solo degne di essere prese seriamente. Sono anche più credibili.