81  La grandezza dell’effetto

In questo capitolo imparerai a
  • La dimensione dell’effetto quantifica la forza della relazione tra due variabili, standardizzando l’entità di un intervento o trattamento.
  • È fondamentale distinguere tra dimensione dell’effetto e significatività statistica.
  • La corretta valutazione e interpretazione di questa misura è spesso carente nella letteratura psicologica, portando a conclusioni superficiali e fuorvianti.
  • Le interpretazioni più appropriate degli indici della grandezza dell’effetto includono l’uso di benchmark e la valutazione delle implicazioni pratiche.

81.1 Introduzione

La dimensione dell’effetto (effect size) è un concetto chiave nella metodologia della ricerca, utilizzato per quantificare la forza della relazione statistica tra due variabili. Questa misura standardizzata descrive l’entità di un effetto, come quello di un intervento o di un trattamento, fornendo una valutazione quantitativa dell’importanza di un fenomeno osservato.

È essenziale distinguere tra dimensione dell’effetto e significatività statistica. Un risultato può essere “statisticamente significativo” anche se l’effetto è di piccole dimensioni, e viceversa. La conoscenza di uno di questi aspetti non fornisce automaticamente informazioni sull’altro, evidenziando la necessità di considerare entrambi nell’analisi dei dati.

L’importanza della dimensione dell’effetto è ampiamente riconosciuta nel mondo della ricerca scientifica. Il manuale dell’American Psychological Association (APA) del 2010 ne sottolinea la rilevanza, raccomandando di includere questa misura negli studi pubblicati. Di conseguenza, la maggior parte degli articoli nelle riviste associate all’APA riporta la dimensione dell’effetto, solitamente indicata tra parentesi accanto al valore-\(p\).

Nonostante la sua importanza e la prassi di riportarla, la psicologia scientifica spesso mostra una carenza nella corretta valutazione e interpretazione delle dimensioni dell’effetto. Molti ricercatori si limitano a comunicare questi valori senza analizzarli in profondità, portando a conclusioni che possono risultare superficiali, poco informative, fuorvianti o addirittura errate. Questa tendenza riflette una sottovalutazione sistematica e una diffusa incomprensione del concetto di dimensione dell’effetto, persino tra i professionisti della ricerca.

81.2 Misurazione dell’Effetto: Approcci e Applicazioni

Tra le metriche più utilizzate per quantificare l’effetto di un trattamento o di una differenza tra gruppi troviamo il \(d\) di Cohen e l’\(r\) di Pearson. Il \(d\) di Cohen è particolarmente utile per descrivere le differenze tra le medie di due gruppi sperimentali, esprimendo tale differenza in termini di deviazione standard aggregata.

La differenza standardizzata tra le medie di due gruppi può essere calcolata con la seguente formula (equazione 5.1, Glass et al., 1981):

\[ d_p = \frac{M_1 - M_2}{S_p}, \]

dove:

  • \(M_1\) e \(M_2\) sono le medie dei due gruppi,
  • \(S_p\) è la deviazione standard combinata.

Un valore positivo di \(d_p\) indica che la media del gruppo 1 è maggiore di quella del gruppo 2. La deviazione standard combinata \(S_p\) è calcolata come la radice quadrata della varianza media ponderata per i gradi di libertà (\(df = n-1\)) dei due gruppi (pp. 108, Glass et al., 1981):

\[ S_p = \sqrt{\frac{(n_1 - 1) S_1^2 + (n_2 - 1) S_2^2}{n_1 + n_2 - 2}}, \]

dove:

  • \(n_1\) e \(n_2\) sono le dimensioni dei due gruppi,
  • \(S_1^2\) e \(S_2^2\) sono le varianze (quadrato della deviazione standard) dei due gruppi.

Il \(d_p\) di Cohen è strettamente correlato alla statistica \(t\) di un test \(t\) per campioni indipendenti. Infatti, è possibile calcolare \(d_p\) a partire dalla statistica \(t\) utilizzando la seguente formula (equazione 5.3, Glass et al., 1981):

\[ d = t \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}. \]

L’errore standard di \(d_p\) è dato da:

\[ SE_{d_p} = \sqrt{\frac{n_1 + n_2}{n_1 n_2} + \frac{d_p^2}{2(n_1 + n_2)}}. \]

D’altra parte, la statistica \(r\) di Pearson misura il grado di correlazione lineare tra due variabili, indicando quanto una variabile possa predire l’altra. È interessante notare che queste due misure, \(d\) e \(r\), possono essere convertite l’una nell’altra attraverso la relazione:

\[ d = \frac{2r}{\sqrt{1-r^2}}. \]

Questa conversione permette di passare da una misura di differenza tra medie a una misura di correlazione, offrendo una maggiore flessibilità nell’interpretazione dei risultati.

81.3 Interpretazione della Dimensione dell’Effetto

L’interpretazione della dimensione dell’effetto è un aspetto cruciale nell’analisi statistica, ma spesso viene affrontata in modi che possono risultare privi di significato o addirittura fuorvianti. Di seguito, esploriamo due approcci comuni e le loro criticità.

81.3.1 Gli Standard di Cohen

Uno dei metodi più diffusi per interpretare la dimensione dell’effetto si basa sugli standard proposti da Jacob Cohen (1977, 1988). Cohen ha suggerito delle soglie arbitrarie per classificare l’effetto:

  • r = 0.10 → effetto piccolo,
  • r = 0.30 → effetto medio,
  • r = 0.50 → effetto grande.

Tuttavia, come sottolineato da Funder (2019), queste soglie sono spesso utilizzate in modo acritico, senza considerare il contesto specifico. Lo stesso Cohen ha espresso rammarico per aver introdotto queste categorie, precisando che dovrebbero essere adottate solo in assenza di criteri più solidi.

Le etichette “piccolo”, “medio” e “grande” sono prive di significato se non vengono contestualizzate. Per un’interpretazione corretta, è essenziale porsi due domande fondamentali:

  1. Rispetto a cosa? Cosa rappresenta un effetto piccolo, medio o grande nel contesto specifico dello studio?
  2. A quale scopo? Qual è l’impatto pratico o teorico dell’effetto osservato?

Senza rispondere a queste domande, l’uso degli standard di Cohen rischia di essere poco informativo o addirittura ingannevole.

81.3.2 Elevare al Quadrato la Correlazione

Un altro approccio comune, ma altrettanto problematico, consiste nell’elevare al quadrato il coefficiente di correlazione \(r\) per ottenere \(r^2\), interpretato come la “proporzione di varianza spiegata”. Ad esempio, una correlazione \(r = 0.30\) corrisponde a \(r^2 = 0.09\), spesso descritto come “solo il 9% della varianza spiegata”.

Tuttavia, come evidenziato da Funder & Ozer (2019), questa pratica è criticabile per due motivi principali:

  1. Mancanza di interpretabilità: Mentre \(r\) rappresenta la pendenza di una regressione standardizzata, \(r^2\) è molto meno intuitivo, poiché riflette solo la proporzione di varianza condivisa tra due variabili.
  2. Potenziale fuorviante: Elevare al quadrato \(r\) può distorcere la percezione dell’effetto. Ad esempio, una correlazione \(r = 0.30\) (effetto medio secondo Cohen) diventa \(r^2 = 0.09\), che sembra trascurabile, ma in realtà potrebbe avere un impatto significativo nel contesto applicativo.

Un esempio chiaro è fornito da Darlington (1990). Consideriamo un gioco in cui si lanciano due monete: un nickel (5¢) e un dime (10¢). Se esce testa, si vincono rispettivamente 5¢ o 10¢. Le correlazioni tra il valore delle monete e il pagamento sono:

  • Nickel: \(r = 0.4472\) (\(r^2 = 0.20\)),
  • Dime: \(r = 0.8944\) (\(r^2 = 0.80\)).

Se interpretassimo \(r^2\) in modo letterale, potremmo erroneamente concludere che il dime “conta quattro volte più” del nickel. Tuttavia, le correlazioni originali mostrano che \(0.8944\) è esattamente il doppio di \(0.4472\), offrendo un confronto più accurato e informativo.

In sintesi, l’interpretazione della dimensione dell’effetto richiede cautela e contestualizzazione. Gli standard di Cohen, sebbene ampiamente utilizzati, sono arbitrari e possono essere fuorvianti se applicati in modo acritico. Allo stesso modo, elevare al quadrato la correlazione \(r\) per ottenere \(r^2\) rischia di distorcere la percezione dell’effetto, rendendolo meno interpretabile e potenzialmente fuorviante. Per un’analisi robusta, è essenziale considerare il contesto e l’impatto pratico dell’effetto osservato, evitando di affidarsi esclusivamente a metriche standardizzate o trasformazioni matematiche poco informative.

81.3.3 Alternative migliori

È cruciale interpretare le dimensioni degli effetti in modo che ne arricchisca il significato. Funder & Ozer (2019) propongono due strategie principali: l’adozione di benchmark (criteri di riferimento) e la valutazione delle implicazioni pratiche dei risultati.

  • Utilizzare criteri di riferimento significa confrontare l’entità di un risultato con quella di risultati ben noti e ampiamente compresi. Simile al modo in cui giudichiamo l’altezza di una persona basandoci su confronti con altri, i ricercatori possono ottenere una percezione accurata dell’importanza di un risultato confrontandolo con la dimensione di effetti noti, sia quelli tipici del campo di studio sia quelli emersi da ricerche passate.

  • Un approccio al benchmarking può includere l’analisi di risultati considerati “classici” nel campo di interesse o la considerazione di dimensioni dell’effetto per risultati che hanno ottenuto un solido consenso nella comunità psicologica.

  • In un’ottica più ampia, alcuni ricercatori hanno proposto benchmark per la dimensione dell’effetto calcolando medie su vasti corpi di letteratura. Ad esempio, uno studio di psicologia sociale ha esaminato 708 correlazioni ottenute meta-analiticamente, rivelando che la dimensione media dell’effetto \(r\) era di .19.

  • La conoscenza comune o i risultati di ricerche non psicologiche possono offrire benchmark per valutare la forza di una relazione tra variabili. Un esempio è l’efficacia degli antistaminici contro il comune raffreddore, che corrisponde a un \(r\) di .11, mentre l’effetto degli anti-infiammatori non steroidei (come l’ibuprofene) sul dolore è di \(r = .14\).

Tali confronti illustrano come l’interpretazione delle dimensioni dell’effetto possa essere notevolmente approfondita e resa più significativa attraverso il riferimento a benchmark consolidati o intuitivamente comprensibili, sia dentro che fuori il campo della psicologia. Questo metodo consente di inserire i risultati di nuove ricerche in un contesto più vasto, favorendo una valutazione più consapevole della loro rilevanza relativa.

81.3.4 Alternative Migliori per Interpretare la Dimensione dell’Effetto

Per arricchire il significato delle dimensioni dell’effetto, è essenziale adottare approcci che vadano oltre le metriche standardizzate e si basino su criteri di riferimento concreti e contestualizzati. Funder & Ozer (2019) propone due strategie principali: l’uso di benchmark (criteri di riferimento) e la valutazione delle implicazioni pratiche dei risultati.

81.3.4.1 1. Utilizzare Criteri di Riferimento (Benchmark)

Un modo efficace per interpretare la dimensione dell’effetto è confrontarla con risultati ben noti e ampiamente compresi, sia all’interno del campo di studio che in contesti più generali. Questo approccio è simile a come giudichiamo l’altezza di una persona confrontandola con quella di altre persone.

  • Confronto con Risultati Classici: I ricercatori possono ottenere una percezione più accurata dell’importanza di un risultato confrontandolo con dimensioni dell’effetto di studi considerati “classici” nel proprio campo. Ad esempio, in psicologia, è possibile fare riferimento a risultati che hanno ottenuto un solido consenso nella comunità scientifica.

  • Medie da Meta-Analisi: Alcuni ricercatori hanno proposto benchmark calcolando medie su vasti corpi di letteratura. Ad esempio, uno studio di psicologia sociale ha analizzato 708 correlazioni ottenute meta-analiticamente, rilevando che la dimensione media dell’effetto \(r\) era di 0.19. Questo valore può servire come punto di riferimento per valutare l’entità di nuovi risultati.

  • Esempi Trasversali: Anche conoscenze comuni o risultati di ricerche non psicologiche possono offrire benchmark utili. Ad esempio:

    • L’efficacia degli antistaminici contro il comune raffreddore corrisponde a un \(r = 0.11\).
    • L’effetto degli anti-infiammatori non steroidei (come l’ibuprofene) sul dolore è pari a \(r = 0.14\).

Questi confronti mostrano come l’interpretazione della dimensione dell’effetto possa essere notevolmente approfondita e resa più significativa attraverso il riferimento a benchmark consolidati o intuitivamente comprensibili.

81.3.4.2 2. Valutare le Implicazioni Pratiche

Oltre ai benchmark, è fondamentale considerare le implicazioni pratiche dei risultati. Un effetto statisticamente piccolo può avere un impatto significativo se applicato a un contesto reale. Ad esempio:

  • Un \(r = 0.10\) potrebbe sembrare trascurabile, ma se tradotto in un intervento su larga scala (ad esempio, un programma educativo o una politica sanitaria), potrebbe portare a benefici tangibili per un gran numero di persone.

In conclusione, l’interpretazione della dimensione dell’effetto può essere notevolmente migliorata attraverso l’uso di benchmark e la valutazione delle implicazioni pratiche. Confrontare i risultati con studi classici, medie di meta-analisi o esempi tratti da altri campi consente di inserire i nuovi risultati in un contesto più ampio e significativo. Questo approccio non solo arricchisce l’interpretazione, ma favorisce anche una valutazione più consapevole della rilevanza e dell’impatto delle scoperte scientifiche.

81.4 Riflessioni Conclusive

La sovrastima della grandezza degli effetti in psicologia rappresenta un problema diffuso e significativo. Un principio spesso enfatizzato nella psicologia sociale e nell’economia comportamentale, specialmente nei media e nei corsi di business, è che piccoli interventi, o “nudge” (spinte gentili), possano produrre effetti sorprendentemente ampi sul comportamento. Questa idea ha portato a numerose affermazioni sensazionalistiche, come l’ipotesi che le elezioni possano essere influenzate dall’esito di partite di football o che stimoli subliminali, come una faccina sorridente, possano generare cambiamenti drastici negli atteggiamenti verso temi complessi come l’immigrazione.

Alla base di queste affermazioni c’è un modello di mondo che non si limita al concetto di “effetto farfalla” (dove piccoli cambiamenti possono avere conseguenze imprevedibili e amplificate), ma suggerisce che piccoli interventi possano produrre effetti grandi e prevedibili. Questo approccio, talvolta definito “modello a pulsante” delle scienze sociali, presuppone che, facendo X, si possa aspettarsi di osservare Y in modo sistematico. Tuttavia, questa visione presenta diverse criticità:

81.4.1 Problemi del Modello “a Pulsante”

  1. Sovrastima degli effetti: Molti studi riportano effetti esagerati per interventi minimi, che spesso non vengono replicati in ricerche successive. Questo solleva dubbi sulla validità e sull’affidabilità di tali risultati.

  2. Mancanza di considerazione delle interazioni: Se esistessero davvero molti effetti grandi e prevedibili, questi interferirebbero tra loro, rendendo difficile osservare risultati coerenti nei dati reali. La complessità del comportamento umano raramente si presta a relazioni lineari e isolate.

  3. Instabilità del sistema: Un sistema sociale caratterizzato da molti effetti grandi e prevedibili sarebbe intrinsecamente instabile e difficile da studiare, contraddicendo l’osservazione che le società tendono a mostrare una certa stabilità nel tempo.

  4. Generalizzazione eccessiva: Spesso i risultati ottenuti in contesti di laboratorio altamente controllati vengono estesi a situazioni reali molto più complesse, senza considerare le differenze contestuali.

  5. Bias di pubblicazione: Gli studi che riportano effetti grandi e statisticamente significativi hanno maggiori probabilità di essere pubblicati, creando una rappresentazione distorta della realtà e alimentando un ciclo di sovrastima.

81.4.2 Verso un Approccio più Cauto e Sfumato

Nonostante queste criticità, è importante riconoscere che la psicologia ha identificato molti fenomeni robusti, specialmente in aree come la psicologia clinica e la psicologia della percezione. Tuttavia, è fondamentale adottare un approccio più cauto e riflessivo nell’interpretazione e nella comunicazione dei risultati della ricerca.

La consapevolezza di questi problemi ha portato a una serie di miglioramenti metodologici, tra cui:

  • Enfasi sulla replicabilità: Maggiore attenzione alla riproducibilità degli studi per garantire che i risultati siano affidabili.
  • Uso di campioni più ampi: Studi condotti su campioni più grandi e diversificati per aumentare la validità esterna.
  • Metodi statistici più robusti: Adozione di tecniche statistiche avanzate per ridurre il rischio di falsi positivi.
  • Approccio critico e riflessivo: La comunità scientifica sta diventando sempre più consapevole della necessità di evitare semplificazioni eccessive e di riconoscere la complessità dei fenomeni psicologici.

In sintesi, mentre la psicologia offre intuizioni preziose sul comportamento umano, è essenziale mantenere un sano scetticismo verso affermazioni di effetti grandi e facilmente ottenibili. La realtà è spesso più complessa e sfumata di quanto suggerito da titoli sensazionalistici o da singoli studi. Un approccio equilibrato, che combina rigore metodologico, contestualizzazione e umiltà scientifica, è fondamentale per avanzare nella comprensione dei fenomeni psicologici e per evitare di cadere in trappole interpretative che possono distorcere la nostra visione del comportamento umano.

Bibliografia

Funder, D. C., & Ozer, D. J. (2019). Evaluating effect size in psychological research: Sense and nonsense. Advances in Methods and Practices in Psychological Science, 2(2), 156–168.
Glass, G. V., McGaw, B., & Smith, M. L. (1981). Meta-analysis in Social Research. Sage Publications.