54. Errori di tipo m e s#
Lo studio condotto da Loken and Gelman [LG17] evidenzia una relazione tra la crisi della replicabilità dei risultati della ricerca e la procedura di decisione statistica dell’approccio frequentista. Uno dei problemi principali che hanno individuato è legato al fatto che, in contesti di ricerca rumorosi, la significatività statistica fornisce prove molto deboli per il segno o la grandezza di qualsiasi effetto sottostante.
Per capire meglio questo problema, i ricercatori hanno utilizzato una simulazione. In particolare, hanno simulato un’ipotetica ricerca in cui un effetto reale è presente, ma è molto debole e quindi difficilmente individuabile senza una grande quantità di dati. In questa simulazione, i ricercatori hanno cercato di individuare l’effetto utilizzando l’approccio frequentista e valutando la significatività statistica.
I risultati della simulazione hanno mostrato che, anche in presenza di un effetto reale ma molto debole, l’approccio frequentista tende a individuare un effetto significativo solo una piccola percentuale delle volte. Inoltre, anche quando viene individuato un effetto significativo, la sua stima di grandezza tende a essere molto imprecisa e instabile.
In altre parole, la significatività statistica fornisce solo un’indicazione molto generale sulla presenza o meno di un effetto, ma non fornisce informazioni precise sulla sua grandezza o sulla sua replicabilità. Questo problema diventa ancora più evidente quando si considera che molte ricerche in psicologia e nelle scienze sociali utilizzano campioni di dimensioni relativamente ridotte e che gli effetti osservati in queste ricerche tendono ad essere molto piccoli. In questi contesti, l’approccio frequentista rischia di fornire prove molto deboli e instabili per la presenza o l’assenza di un effetto, compromettendo la replicabilità e l’affidabilità dei risultati della ricerca.
54.1. Simulazione#
La conclusione di Loken and Gelman [LG17] è chiarita dalla seguente simulazione.
Iniziamo ad importare le librerie necessarie.
import numpy as np
import scipy.stats as stats
import matplotlib.pyplot as plt
import seaborn as sns
import arviz as az
from scipy.constants import golden
# Initialize random number generator
RANDOM_SEED = 8927
rng = np.random.default_rng(RANDOM_SEED)
plt.style.use("bmh")
plt.rcParams["figure.figsize"] = [10, 6]
plt.rcParams["figure.dpi"] = 100
plt.rcParams["figure.facecolor"] = "white"
sns.set_theme(palette="colorblind")
%load_ext autoreload
%autoreload 2
%matplotlib inline
%config InlineBackend.figure_format = 'retina'
%config InlineBackend.figure_format = "svg"
Supponiamo di selezionare due campioni casuali indipendenti di ampiezza \(n_1\) = 20 e \(n_2\) = 25 dalle distribuzioni \(\mathcal{N}(102, 10)\) e \(\mathcal{N}(100, 10)\). La vera grandezza dell’effetto per la differenza tra le medie delle due campioni è dunque uguale a
dove
Nel caso presente, il valore effettivo dell’effetto è molto piccolo, corrispondente a una differenza che non è significativa in termini pratici. Ma vediamo quali sarebbero, in queste circostanze, le conclusioni della procedura statistica di decisione statistica basata sull’approccio frequentista.
Consideriamo una simulazione in cui si estrae un campione di 20 osservazioni dalla prima popolazione e un campione di 25 osservazioni dalla seconda popolazione, e si esegue il test \(t\) di Student. Secondo l’approccio frequentista, se il valore-\(p\) risulta maggiore di 0.05, i risultati vengono scartati, mentre se il valore-\(p\) è inferiore a 0.05, il risultato è considerato “pubblicabile”.
Per comprendere le conclusioni raggiunte dalla procedura frequentista in questo caso, è necessario eseguire la procedura sopra descritta per 50,000 volte. In altre parole, si ripete il processo di estrazione del campione e di calcolo del valore-\(p\) numerose volte.
n_samples = 50000
mu_1 = 102
mu_2 = 100
sigma = 10
n1 = 20
n2 = 25
res = []
for i in range(n_samples):
# Get random samples
y1 = np.random.normal(loc=mu_1, scale=sigma, size=n1)
y2 = np.random.normal(loc=mu_2, scale=sigma, size=n2)
# Compute effect size
y1bar = y1.mean()
y2bar = y2.mean()
v1 = np.var(y1, ddof=1)
v2 = np.var(y2, ddof=1)
s = np.sqrt(((n1-1)*v1 + (n2-1)*v2) / (n1 + n2 - 2))
efsize = (y1bar - y2bar) / s
# Compute p-value
out = stats.ttest_ind(a=y1, b=y2, equal_var=True)
# Save effect size only for 'statistically significant' results
if out.pvalue < 0.05:
res.append(efsize)
Esaminiamo un istogramma dei casi nei quali il valore-\(p\) è stato < 0.05.
plt.hist(res)
plt.show()
Come evidenziato da Loken and Gelman [LG17], ci sono due tipi di errori che si verificano utilizzando l’approccio frequentista nella procedura di decisione statistica. Il primo tipo di errore, chiamato “magnitude”, si riferisce al fatto che i risultati pubblicati tendono a sovrastimare la vera grandezza dell’effetto. Nella simulazione descritta, la vera grandezza dell’effetto è stata considerata trascurabile (0.2), ma la media della grandezza dell’effetto dei risultati dichiarati “statisticamente significativi” era circa 0.8, che indica una grandezza dell’effetto “grande”.
Il secondo tipo di errore, chiamato “segno”, si verifica in un numero limitato di casi in cui, a causa della variabilità campionaria, il segno dell’effetto viene sbagliato. In tali casi, il ricercatore può concludere erroneamente che \(\mu_2>\mu_1\), quando in realtà non è così. È importante notare che, anche in questi casi, la grandezza dell’effetto viene sovrastimata in termini assoluti.
È interessante notare che le conclusioni sarebbero le stesse anche se avessimo considerato l’intervallo di confidenza per la differenza tra le medie. In sostanza, l’approccio frequentista introduce un errore sistematico nella stima della grandezza dell’effetto, che è la quantità più importante che il ricercatore deve stimare. In alcuni casi, può anche produrre errori nella stima della direzione dell’effetto.
54.2. Considerazioni conclusive#
In definitiva, come affermano Loken and Gelman [LG17], l’approccio frequentista non sembra essere un metodo affidabile per decidere a quali risultati della ricerca possiamo dare credito e quali invece dobbiamo rifiutare. Questo perché l’approccio frequentista introduce errori sistematici nella stima dell’effetto e in alcuni casi produce anche errori nella direzione dell’effetto. Per questi motivi, non sembra esserci alcun motivo per continuare ad utilizzare questo approccio.
54.3. Watermark#
%load_ext watermark
%watermark -n -u -v -iv -w
Last updated: Sat Jun 17 2023
Python implementation: CPython
Python version : 3.11.3
IPython version : 8.12.0
numpy : 1.24.3
matplotlib: 3.7.1
scipy : 1.10.1
seaborn : 0.12.2
arviz : 0.15.1
Watermark: 2.3.1