here::here("code", "_common.R") |>
source()
# Load packages
if (!requireNamespace("pacman")) install.packages("pacman")
pacman::p_load(mice)
77 Significatività statistica
- eseguire un test di ipotesi basato sull’ipotesi nulla.
- Leggere il capitolo Hypothesis Testing di Statistical Inference via Data Science: A ModernDive into R and the Tidyverse (Second Edition).
- Leggere il capitolo Testing Hypotheses (Schervish & DeGroot, 2014).
77.1 Introduzione
Il test di ipotesi è un metodo fondamentale della ricerca scientifica, utilizzato per fare inferenze sui parametri della popolazione a partire dai dati campionari. Nel contesto della psicologia, questo approccio viene frequentemente impiegato per valutare l’efficacia di interventi psicologici, confrontare teorie o approcci, analizzare l’influenza di variabili psicologiche su comportamenti e processi cognitivi, e approfondire i meccanismi alla base di fenomeni complessi come apprendimento, memoria ed emozioni.
In questo capitolo ci focalizzeremo sul test di ipotesi frequentista, un metodo largamente utilizzato ma non privo di limiti. È importante sottolineare che la comunità statistica sconsiglia di affidarsi esclusivamente a questo approccio come criterio decisionale per valutare la validità di un risultato sperimentale.
77.2 Test del Chi-Quadrato
Per introdurre il concetto di test di ipotesi nel contesto frequentista, iniziamo presentando uno dei test più semplici e utilizzati: il test del Chi-Quadrato. Questo test è particolarmente utile per valutare l’ipotesi di indipendenza tra due variabili categoriali organizzate in una tabella di contingenza (per ulteriori dettagli sulla struttura delle tabelle di contingenza, si veda il Capitolo 16).
Una tabella di contingenza è una rappresentazione tabellare che mostra la distribuzione congiunta di due variabili categoriali. Ogni cella della tabella contiene la frequenza osservata delle combinazioni delle categorie delle due variabili. Inoltre, la tabella include i totali marginali, che rappresentano le somme delle frequenze per ciascuna riga e ciascuna colonna.
Il test del Chi-Quadrato si pone una domanda fondamentale: “Come apparirebbe la tabella di contingenza se le due variabili fossero indipendenti?”. In altre parole, il test verifica se esiste una relazione significativa tra le due variabili o se, al contrario, le variabili sono indipendenti l’una dall’altra.
Come già visto in precedenza analizzando la distribuzione di probabilità congiunta, si ha indipendenza quando le probabilità congiunte sono uguali al prodotto delle probabilità marginali. Partendo dalle proporzioni marginali, possiamo quindi calcolare i valori teorici attesi in ciascuna cella della tabella di contingenza, assumendo che le due variabili siano indipendenti.
Va sottolineato che l’indipendenza è una proprietà della popolazione, non del campione. Pertanto, nei dati campionari, ci aspettiamo che i valori osservati nelle celle della tabella differiscano leggermente dai valori teorici attesi, anche se nella popolazione le variabili sono realmente indipendenti. La discrepanza complessiva tra i valori osservati e quelli attesi, calcolati sotto l’ipotesi di indipendenza, può essere misurata utilizzando una statistica chiamata Chi-Quadrato (\(\chi^2\)).
La formula della statistica Chi-Quadrato è:
\[ \chi^2 = \sum \frac{(O_i - E_i)^2}{E_i} , \]
dove:
-
\(O_i\) rappresenta i valori osservati nelle celle della tabella,
-
\(E_i\) rappresenta i valori attesi nelle celle, calcolati sotto l’ipotesi di indipendenza,
- La somma (\(\sum\)) viene effettuata su tutte le celle della tabella.
77.2.1 Interpretazione della Statistica Chi-Quadrato
La statistica Chi-Quadrato misura la discrepanza complessiva tra i valori osservati e quelli attesi. Se non ci fosse differenza tra i valori congiunti osservati e quelli teorici, la statistica Chi-Quadrato sarebbe pari a zero. All’aumentare della discrepanza tra valori osservati e attesi, il valore della statistica Chi-Quadrato aumenta.
Per valutare l’importanza della discrepanza osservata, utilizziamo la distribuzione campionaria della statistica Chi-Quadrato. Questa distribuzione descrive la probabilità di ottenere valori della statistica Chi-Quadrato sotto l’ipotesi nulla (indipendenza tra le variabili). La forma della distribuzione dipende dai gradi di libertà (\(\nu\)), che si calcolano come:
\[ \nu = (n_{\text{righe}} - 1)(n_{\text{colonne}} - 1) , \]
dove \(n_{\text{righe}}\) e \(n_{\text{colonne}}\) rappresentano rispettivamente il numero di righe e colonne della tabella di contingenza.
77.2.2 Valutazione dell’Ipotesi di Indipendenza
La probabilità associata a una data discrepanza (\(\chi^2\)) tra valori osservati e attesi, assumendo che l’ipotesi nulla sia vera, corrisponde all’area sotto la coda destra della distribuzione Chi-Quadrato, nell’intervallo [\(C\), \(+\infty\)]. Questa probabilità è indicata come \(p\)-value.
Se il \(p\)-value è molto piccolo (tipicamente inferiore a una soglia predefinita, come 0.05), possiamo rifiutare l’ipotesi nulla e concludere che è improbabile che le due variabili siano indipendenti nella popolazione.
77.2.3 Riepilogo dei Passaggi del Test Chi-Quadrato
-
Calcolo dei Valori Attesi: Per ogni cella, calcola \(E_i\) utilizzando la formula:
\[ E_i = \frac{\text{Totale della Riga} \times \text{Totale della Colonna}}{\text{Totale Complessivo}} \]
-
Calcolo della Statistica Chi-Quadrato: Usa la formula:
\[ \chi^2 = \sum \frac{(O_i - E_i)^2}{E_i} \]
Determinazione dei Gradi di Libertà: Calcola \(\nu\) come \((n_{\text{righe}} - 1)(n_{\text{colonne}} - 1)\).
Confronto con la Distribuzione Chi-Quadrato: Determina il \(p\)-value associato al valore di \(\chi^2\) calcolato e valuta l’ipotesi nulla.
In conclusione, il Test Chi-Quadrato rappresenta uno strumento per verificare l’indipendenza tra due variabili categoriali. Grazie alla sua semplicità di applicazione e interpretazione, costituisce un metodo di analisi largamente utilizzato in ambito psicologico, sociale e statistico. Tuttavia, è importante prestare attenzione ai presupposti del test, come la sufficienza dei dati in ogni cella, per garantire risultati affidabili e interpretabili.
# Creare la tabella di contingenza
observed <- matrix(c(44, 0, 119,
55, 68, 0,
47, 0, 0),
nrow = 3, byrow = TRUE)
# Aggiungere i nomi di righe e colonne
rownames(observed) <- c("Biscoe", "Dream", "Torgersen")
colnames(observed) <- c("Adelie", "Chinstrap", "Gentoo")
# Visualizzare la tabella
print(observed)
#> Adelie Chinstrap Gentoo
#> Biscoe 44 0 119
#> Dream 55 68 0
#> Torgersen 47 0 0
chi_square_result <- chisq.test(observed)
chi_square_result
#>
#> Pearson's Chi-squared test
#>
#> data: observed
#> X-squared = 285, df = 4, p-value <2e-16
Svolgiamo i calcoli “a mano” usando R. Per calcolare la statistica del test del Chi-Quadrato “a mano” in R, segui questi passaggi:
Calcoliamo i totali per righe e colonne e il totale complessivo.
# Totali marginali
row_totals <- rowSums(observed)
col_totals <- colSums(observed)
grand_total <- sum(observed)
# Visualizzare i totali
print("Totali marginali per righe:")
#> [1] "Totali marginali per righe:"
print(row_totals)
#> Biscoe Dream Torgersen
#> 163 123 47
print("Totali marginali per colonne:")
#> [1] "Totali marginali per colonne:"
print(col_totals)
#> Adelie Chinstrap Gentoo
#> 146 68 119
print(paste("Totale complessivo:", grand_total))
#> [1] "Totale complessivo: 333"
I valori attesi si calcolano come:
\[ E_{ij} = \frac{\text{Totale riga} \times \text{Totale colonna}}{\text{Totale complessivo}} . \]
La statistica Chi-Quadrato si calcola con:
\[ \chi^2 = \sum \frac{(O_{ij} - E_{ij})^2}{E_{ij}} . \]
I gradi di libertà si calcolano come:
\[ dof = (\text{n. righe} - 1) \times (\text{n. colonne} - 1) . \]
Confrontiamo la statistica Chi-Quadrato con la distribuzione teorica per ottenere il p-value.
Interpretazione:
Il valore-\(p\) risulta molto piccolo, indicando che, se le variabili Isola e Specie fossero realmente indipendenti, sarebbe estremamente improbabile osservare una distribuzione delle specie di pinguini sulle tre isole così diversa da quella teoricamente attesa. In altre parole, il valore-\(p\) rappresenta la probabilità di ottenere, per puro caso, una discrepanza tra i valori osservati e quelli attesi pari o superiore a quella riscontrata nei dati.
Poiché il valore-\(p\) è estremamente basso, possiamo concludere che l’ipotesi di indipendenza tra le variabili Isola e Specie non è plausibile. Questo indica che la distribuzione delle specie di pinguini varia in relazione all’isola, ovvero che conoscendo l’isola è possibile prevedere la distribuzione delle specie. In altre parole, le variabili Isola e Specie sono associate.
77.2.4 Significatività Statistica: Un Concetto da Riconsiderare
Come discusso nell’esempio precedente, un risultato è considerato “statisticamente significativo” se la probabilità che sia dovuto al caso è bassa, il che suggerisce che il risultato sia stabile o reale. Al contrario, risultati “non significativi” vengono spesso etichettati come privi di valore e ignorati. Questa semplificazione, però, può portare a gravi fraintendimenti. Ad esempio:
- Dipendenza dal campione: La significatività statistica è fortemente influenzata dalla dimensione del campione; risultati apparentemente “significativi” possono emergere anche da effetti molto piccoli in campioni ampi.
- Risultati non significativi: Un risultato non significativo non implica che l’effetto sia nullo o irrilevante.
- Scelte soggettive: Livelli di confidenza e test statistici differenti possono influenzare l’esito dell’analisi, portando a interpretazioni arbitrarie.
77.2.5 Limiti e Applicazioni del Metodo Frequentista
Il problema più grave dell’approccio frequentista è che esso non sempre mantiene la “promessa” di fornire una base oggettiva per la decisione statistica. Infatti, il ricorso esclusivo alla significatività statistica conduce a risultati opposti a quelli desiderati, aumentando il rischio di pubblicare risultati non replicabili o di trascurare evidenze importanti si veda il 82.
In alternativa, è più utile considerare il risultato osservato nel contesto scientifico più ampio, integrandolo con altre analisi. Questo approccio critico e completo consente di superare i limiti della significatività statistica e di interpretare i risultati con maggiore rigore.
77.2.6 Un Caso Specifico: La Media del Campione
Torniamo ora a esaminare il test di ipotesi all’interno del quadro frequentista, focalizzandoci sul caso di una variabile continua, diversamente dal contesto qualitativo trattato nel test del Chi-Quadrato. Per approfondire la comprensione della significatività statistica, analizzeremo in dettaglio l’utilizzo della media campionaria come stimatore della media della popolazione. Questa riflessione ci consentirà di esplorare sia i limiti che le applicazioni pratiche di tale strumento all’interno della statistica inferenziale frequentista. Attraverso questo esempio, potremo mettere in luce aspetti teorici e operativi dei test di ipotesi, nonché fornire indicazioni su come migliorare l’interpretazione dei risultati, con particolare riferimento al campo della ricerca psicologica.
77.3 Il Test di Ipotesi
Il test di ipotesi è un metodo statistico utilizzato per valutare se i dati sono coerenti con l’ipotesi nulla (\(H_0\)). L’ipotesi nulla solitamente afferma che non vi è alcun effetto o differenza significativa, mentre l’ipotesi alternativa (\(H_1\)) rappresenta l’affermazione che si desidera testare. I dati del campione vengono analizzati per determinare se forniscono prove sufficienti per rifiutare l’ipotesi nulla. Un passaggio cruciale consiste nel calcolare il value-p.
77.3.1 La procedura di Test di Ipotesi
Esaminiamo in dettaglio le varie fasi della procedura del test di ipotesi di stampo frequentista.
Passo 1: Formulare l’ipotesi nulla (\(H_0\)) e l’ipotesi alternativa (\(H_1\)) basandosi sulla domanda di ricerca.
Passo 2: Stabilire un livello di significatività, α (solitamente 0.05).
Passo 3: Selezionare il Test Statistico appropriato, verificare eventuali assunzioni e calcolare il test statistico.
Passo 4: Decidere se il risultato è “statisticamente significativo” secondo (a) la regione di rifiuto o (b) il valore-p.
L’approccio della regione di rifiuto. Basandosi sulla distribuzione campionaria nota del test statistico, la regione di rifiuto è un insieme di valori per il test statistico per i quali l’ipotesi nulla viene rifiutata. Se il valore osservato del test statistico rientra nella regione di rifiuto, allora si rifiuta l’ipotesi nulla.
L’approccio del valore-p. Il valore-p è la probabilità di ottenere i risultati osservati, o risultati ancora più estremi, se l’ipotesi nulla è vera.
Confrontiamo il valore-p calcolato con il livello di significatività α:
- Se il valore-p < α, si rifiuta l’ipotesi nulla (\(H_0\)).
- Se il valore-p ≥ α, non si rifiuta l’ipotesi nulla (\(H_0\)).
77.4 Il Test di Ipotesi nel Contesto Frequentista
Si noti che i metodi bayesiani e frequentisti non sono semplicemente due approcci diversi per rispondere alla stessa domanda, ma formulano domande fondamentalmente diverse. Pertanto, per comprendere il test di ipotesi frequentista, è essenziale chiarire cosa si intende per valore-p.
L’American Statistical Association (ASA) definisce il valore-p come:
the probability under a specified statistical model that a statistical summary of the data (e.g., the sample mean difference between two compared groups) would be equal to or more extreme than its observed value (Wasserstein e Lazar 2016).
Questa definizione può risultare difficile da comprendere perché contiene concetti complessi come “probabilità” e “modello statistico specificato”. Per capire meglio cosa rappresenta un valore-p, è necessario esaminare attentamente entrambi questi concetti. Questo ci porterà anche a una comprensione più profonda di altri concetti fondamentali per l’inferenza frequentista e ci aiuterà a distinguere tra inferenza frequentista e inferenza bayesiana.
Una distinzione fondamentale tra l’approccio frequentista e quello bayesiano riguarda l’interpretazione della probabilità: il primo si basa sulla frequenza relativa degli eventi nel lungo periodo, mentre il secondo si basa sulla “certezza soggettiva” o sul grado di fiducia che un individuo attribuisce a un evento specifico.
Chiarito che la probabilità assume significati diversi nei contesti frequentista e bayesiano, possiamo chiederci quale nozione di probabilità sia implicita nella definizione del valore-p fornita dall’ASA. La visione comune suggerisce che si riferisca alle frequenze relative. Ma frequenze relative di cosa e ripetizioni di cosa?
Possiamo riformulare la definizione dell’ASA in questo modo:
Il valore-p si riferisce alla frequenza relativa di ottenere un riassunto statistico dei dati grande quanto o più grande del valore osservato in ripetizioni ipotetiche di un esperimento descritto da un modello statistico specificato.
Quindi, l’approccio frequentista può essere descritto come un metodo per stimare il valore di un parametro attraverso esperimenti ipotetici, confrontando i nostri dati con i risultati di tali esperimenti per giudicare se i nostri dati sono sorprendenti o meno.
77.5 Applicazione alla Media Campionaria
In questo capitolo ci concentreremo sull’applicazione del processo di test di ipotesi frequentista alla media campionaria. Vedremo come la media di un campione possa essere impiegata per trarre inferenze sulla media di una popolazione, analizzandone limiti e possibili utilizzi nell’ambito dell’inferenza statistica frequentista.
I test su uno o due campioni (one-sample e two-sample tests) hanno rappresentato le prime fondamenta dell’analisi statistica dei dati. Al giorno d’oggi, tuttavia, i nostri disegni sperimentali tendono a essere più complessi di quanto questi semplici test possano gestire. Nonostante ciò, tali test – in particolare il celebre t-test di Student – costituiscono ancora un’ottima porta d’ingresso alla modellazione statistica, poiché i principi su cui si basano sono relativamente intuitivi e consentono di familiarizzare con il processo di verifica dell’ipotesi.
Per comprendere meglio i valori-p e la verifica del test di ipotesi, può essere molto utile ricorrere a simulazioni. Attraverso queste ultime è possibile ricreare condizioni sperimentali ipotetiche e osservare la variabilità dei risultati, fornendo così una prospettiva più chiara sulle implicazioni della statistica frequentista.
77.5.1 La Distribuzione della Media Campionaria
Quando consideriamo la media campionaria come stima della media di una popolazione, assumiamo che questa popolazione segua una distribuzione normale. Vogliamo quindi esplorare la distribuzione della media campionaria (\(\bar{X}\)), che descrive la variazione di \(\bar{X}\) attraverso infiniti campioni di dimensione \(n\). Abbiamo già dimostrato che, se la popolazione è normalmente distribuita, anche la distribuzione campionaria di \(\bar{X}\) seguirà una distribuzione normale, con media \(\mu\) (la media della popolazione) e deviazione standard \(\frac{\sigma}{\sqrt{n}}\) (dove \(\sigma\) è la deviazione standard della popolazione e \(n\) è la dimensione del campione).
77.5.2 Test di Ipotesi sulla Media Campionaria
Supponendo di conoscere \(\sigma\) ma non \(\mu\), utilizziamo i test di ipotesi per indagare quanto la media campionaria osservata si discosti da un valore ipotetico \(\mu_0\), specificato dall’ipotesi nulla. Questo processo ci permette di valutare la plausibilità di \(\mu_0\) come vera media della popolazione.
77.5.3 Calcolo della Statistica del Test
Per valutare quanto la media campionaria osservata si discosti dall’ipotesi nulla che propone \(\mu = \mu_0\), standardizziamo \(\bar{X}\) usando la formula:
\[ Z = \frac{\bar{X} - \mu_0}{\sigma/\sqrt{n}} \]
Questa trasformazione produce una variabile \(Z\) che segue una distribuzione normale standard \(\mathcal{N}(0, 1)\). Valori estremi di \(Z\) (sia molto grandi che molto piccoli) suggeriscono che la media campionaria osservata è incompatibile con \(\mu_0\), portando al rigetto dell’ipotesi nulla.
77.5.3.1 Simulazione
Per illustrare quanto espresso sopra attraverso una simulazione, consideriamo un esempio numerico. Supponiamo che \(\mu_0 = 100\), \(\sigma = 15\) e \(n = 30\). Vogliamo calcolare il valore-p per l’evento \(\bar{X} > 105\).
La simulazione può essere eseguita come segue:
# To make the simulation reproducible
set.seed(123)
mu_0 <- 100
sigma <- 15
n <- 30
n_sim <- 10000 # Number of simulations
# Generate n_sim sample means from a N(mu_0, sigma/sqrt(n))
sample_means <- rnorm(n_sim, mean = mu_0, sd = sigma / sqrt(n))
# Calculate the p-value as the proportion of sample means > 105
p_value <- mean(sample_means > 105)
# Print the p-value
print(p_value)
#> [1] 0.0339
Questo script simula la distribuzione campionaria di \(\bar{X}\) sotto l’ipotesi nulla che \(\mu = \mu_0\) e calcola il valore-p per l’evento \(\bar{X} > 105\). Il valore-p indica la probabilità di osservare un valore di \(\bar{X}\) così estremo (o più estremo) se l’ipotesi nulla fosse vera.
Il risultato della simulazione può essere confrontato con il calcolo teorico del valore-p usando la distribuzione normale standard. Il valore \(Z\) per \(\bar{X} = 120\) è calcolato come:
\[ Z = \frac{105 - 100}{15/\sqrt{30}} \]
Possiamo usare la funzione stats.norm.sf()
per trovare l’area sotto la curva normale standard a destra di questo valore \(Z\), che corrisponde al valore-p teorico.
Oppure, in maniera equivalente
Il calcolo teorico mostra che il valore \(Z\) per una media campionaria di 105 è 1.82. Questo valore indica una deviazione sostanziale dalla media ipotizzata sotto l’ipotesi nulla (\(\mu_0 = 100\)). Tale deviazione può essere quantificata dalla “sorpresa” indicata dal valore-p, dove valori-p piccoli rappresentano una maggiore sorpresa. Il valore-p ottenuto, pari a 0.0339, indica un elevato grado di sorpresa: come mostrato dalla simulazione, un valore di 105 o superiore si verifica solo nel 3.4% dei casi se l’esperimento viene ripetuto numerose volte sotto l’ipotesi nulla. Questo suggerisce che un risultato del genere è altamente improbabile se l’ipotesi nulla fosse vera.
77.6 Applicazioni pratiche
Nella precedente discussione, abbiamo supposto \(\sigma\) nota. Tuttavia, poiché di solito non conosciamo il valore di \(\sigma\) nella pratica, dobbiamo stimarlo utilizzando la deviazione standard campionaria \(s\). Pertanto, al posto di \(\sigma\), possiamo utilizzare \(s\), ottenendo così la statistica:
\[ T = \frac{\bar{X} - \mu_0}{\frac{s}{\sqrt{n}}}. \]
Si può dimostrare che la statistica \(T\) segue una distribuzione \(t\) di Student con \(n-1\) gradi di libertà se il campione casuale è stato estratto da una popolazione normale.
A questo punto, possiamo applicare la stessa logica descritta in precedenza e possiamom basarci sulla statistica \(T\) per testare un’ipotesi sulla media della popolazione. Utilizzando il valore critico appropriato dalla distribuzione \(t\) di Student con \(n-1\) gradi di libertà e un livello di significatività predefinito, possiamo determinare se i dati osservati supportano o respingono l’ipotesi nulla sulla media della popolazione.
77.7 Ipotesi statistiche
Esaminiamo in maggior dettaglio la procedura di test di ipotesi statistiche nel contesto frequentista. Definiamo innanzitutto l’ipotesi statistica come una dichiarazione riguardante la distribuzione di probabilità di una variabile casuale. Tale ipotesi può riguardare la forma funzionale della distribuzione o i parametri che la caratterizzano.
In particolare, l’ipotesi che riguarda i parametri di una o più popolazioni viene denominata ipotesi nulla e viene rappresentata come \(H_0\). Per un parametro sconosciuto \(\theta\), l’ipotesi nulla viene formulata come:
\[ H_0: \theta \in \Theta_0 \subset \Theta, \]
dove \(\Theta_0\) è un sottoinsieme del dominio \(\Theta\), che rappresenta tutti i possibili valori del parametro \(\theta\) coerenti con il modello statistico adottato. L’ipotesi nulla può essere semplice se \(\Theta_0\) contiene un unico elemento, oppure composta se contiene più di un elemento.
77.8 I passi di un test di ipotesi
Per prendere una decisione tra accettare o respingere l’ipotesi nulla, i frequentisti utilizzano un test statistico. Un test statistico frequentista ci permette di valutare se i dati osservati forniscono prove sufficienti per respingere o accettare un’ipotesi riguardante una proprietà di una popolazione di interesse e si può descrivere nel modo seguente.
Iniziamo formulando l’ipotesi nulla \(H_0\), che rappresenta un’affermazione specifica sulla popolazione. L’ipotesi alternativa \(H_1\) viene formulata come l’evento complementare rispetto all’evento specificato dall’ipotesi nulla. Successivamente, definiamo una statistica campionaria \(\mathcal{G}_n(X_1, \dots, X_n)\) che viene calcolata a partire dai dati campionari e che ha una distribuzione nota quando l’ipotesi nulla è vera.
Successivamente, suddividiamo l’insieme di tutte le possibili realizzazioni della statistica \(\mathcal{G}_n\) in due insiemi disgiunti: la “regione di accettazione” \(\mathcal{A}\) e la sua regione complementare, la “regione di rifiuto” \(\mathcal{R}\). La regione di accettazione rappresenta l’insieme dei valori che la statistica può assumere sotto l’ipotesi nulla, mentre la regione di rifiuto rappresenta l’insieme dei valori che la statistica può assumere se l’ipotesi nulla è falsa.
Infine, selezioniamo un livello di significatività \(\alpha\), che rappresenta la massima probabilità di respingere erroneamente l’ipotesi nulla quando questa è vera. Se l’osservazione della statistica \(\mathcal{G}_n\) rientra nella regione di accettazione, allora l’ipotesi nulla non viene respinta; altrimenti, viene respinta a favore dell’ipotesi alternativa.
In sintesi, il test statistico ci consente di stabilire se i dati osservati forniscono sufficienti evidenze per rifiutare l’ipotesi nulla a favore dell’ipotesi alternativa.
77.9 Ipotesi alternativa
Durante un test di ipotesi, dopo aver definito l’ipotesi nulla \(H_0\), possono essere considerate diverse ipotesi alternative \(H_1\). Le ipotesi alternative più comuni si suddividono in tre tipi:
- \(H_1: \theta \neq \theta_0\),
- \(H_1: \theta > \theta_0\),
- \(H_1: \theta < \theta_0\).
Queste corrispondono rispettivamente a un test bidirezionale, un test unilaterale superiore (o destro) e un test unilaterale inferiore (o sinistro).
La scelta dell’ipotesi alternativa determina la definizione della regione di rifiuto \(\mathcal{R}\) dell’ipotesi nulla \(H_0\). La regione di rifiuto rappresenta i valori estremi della distribuzione, nella direzione dell’ipotesi alternativa \(H_1\). Nel caso di un test unilaterale inferiore, \(\mathcal{R}\) si trova nella coda sinistra della distribuzione, nell’intervallo [\(-\infty\), \(\theta_0\)]. Nel caso di un test unilaterale superiore, \(\mathcal{R}\) si trova nella coda destra della distribuzione, nell’intervallo [\(\theta_0\), \(\infty\)].
I valori critici sono i valori che delimitano la regione di rifiuto \(\mathcal{R}\) in un test unilaterale e i valori che delimitano le regioni di rifiuto \(\mathcal{R}\) in un test bidirezionale. Il risultato di un test viene considerato statisticamente significativo se il valore della statistica del test si trova nella regione di rifiuto \(\mathcal{R}\).
77.10 Valore-p
Il valore-p è definito come la probabilità che la statistica del test assuma un valore uguale o più estremo di quello osservato, considerando la distribuzione campionaria costruita assumendo come vera l’ipotesi nulla. La significatività statistica viene convenzionalmente definita come un valore-p inferiore a 0.05, indicando che l’evidenza osservata è improbabile da ottenere se l’ipotesi nulla è vera. Se il risultato osservato non raggiunge la significatività statistica, significa che la stima non è statisticamente significativa e che il valore osservato può essere spiegato da una semplice variazione casuale.
77.11 Un esempio motivante
Per esplorare il concetto di significatività statistica, possiamo prendere in considerazione uno studio svolto da Mehr et al. (2016) sul ruolo della musica nella trasmissione di messaggi sociali ai bambini. La musica è una forma d’arte presente in molte attività quotidiane e può trasmettere informazioni relative alla cultura e all’appartenenza sociale. Gli autori dello studio hanno voluto indagare se i bambini di soli 5 mesi avessero una preferenza per individui sconosciuti che cantavano loro una canzone familiare rispetto ad altri individui sconosciuti che cantavano una canzone simile, ma con una diversa melodia.
Dalle analisi condotte da Mehr et al. (2016) è emerso che la preferenza dei bambini si manifestava solo quando la canzone veniva cantata dai loro genitori durante la fase di familiarizzazione, ma non quando la stessa canzone veniva cantata da un estraneo. Secondo gli autori, questo dimostra che il significato sociale è un elemento chiave nella preferenza dei bambini, oltre alla familiarità con la canzone.
77.11.1 Domanda della ricerca e ipotesi statistiche
La ricerca condotta da Mehr et al. (2016) si è concentrata sullo studio dell’influenza della musica sui messaggi sociali trasmessi ai bambini molto piccoli. Tuttavia, come molte altre ipotesi psicologiche, l’ipotesi principale non può essere valutata direttamente in termini quantitativi. Pertanto, i ricercatori devono formulare ipotesi statistiche, che, sebbene non coincidano con l’ipotesi della ricerca, possono essere esaminate in termini probabilistici.
Per chiarire questo punto, consideriamo l’esperimento condotto sui bambini da Mehr et al. (2016). Dopo la fase di familiarizzazione con la canzone di prova, i bambini partecipanti sono stati sottoposti a un test in laboratorio, durante il quale sono stati mostrati due video. Nel primo video, un estraneo cantava la canzone di prova, mentre nel secondo video, un altro individuo cantava una canzone simile ma non familiare ai bambini. I ricercatori hanno misurato il tempo in cui i bambini fissavano ciascun video. Nel primo esperimento, la variabile dipendente era la media delle proporzioni di tempo che i bambini fissavano il video “familiare” rispetto al tempo di fissazione totale. Poiché l’ipotesi principale non può essere valutata direttamente, i ricercatori hanno formulato ipotesi statistiche che possono essere esaminate in termini probabilistici.
Poiché nei tipici esperimenti psicologici, come nel caso della ricerca di Mehr et al. (2016), l’ipotesi della ricerca non può essere valutata direttamente, è necessario stabilire una connessione tra l’ipotesi della ricerca e l’ipotesi statistica. Nel caso specifico, ci sono tre possibili scenari da considerare:
- Nel caso in cui i bambini non mostrino alcuna preferenza tra i due tipi di video-registrazione, la media delle proporzioni di tempo di fissazione per la popolazione sarà uguale a \(\mu = 0.5\), in quanto i tempi di fissazione saranno uguali in media per le due video-registrazioni.
- Se invece gli autori della ricerca hanno ragione, i bambini mostreranno una preferenza per il video con la canzone familiare rispetto a quello con la canzone non familiare. In questo caso, l’ipotesi statistica sarà \(\mu > 0.5\), dove \(\mu = 0.5\) rappresenta il livello di probabilità casuale.
- Infine, una terza possibilità è che i bambini siano maggiormente attratti da una melodia non familiare, contrariamente a quanto suggerito dagli autori della ricerca. In tal caso, l’ipotesi statistica diventa \(\mu < 0.5\).
Le tre ipotesi precedenti sono esempi di ipotesi statistiche, che sono delle affermazioni riguardanti i valori di un parametro di un modello statistico. Nel caso dell’esperimento di Mehr et al. (2016), il modello statistico riguarda la distribuzione delle proporzioni dei tempi di fissazione di una popolazione virtuale di infiniti bambini di sei mesi di età. Ogni bambino avrà una proporzione di tempi di fissazione diversa dagli altri bambini. Il modello statistico descritto dai ricercatori rappresenta la distribuzione dei possibili valori della proporzione del tempo di fissazione nei confronti del video “familiare”. I dati raccolti dagli sperimentatori corrispondono alla media della proporzione del tempo di fissazione del video “familiare” e possono essere messi in relazione con il modello statistico.
77.11.2 Domanda della ricerca e ipotesi statistiche
La distinzione tra l’ipotesi della ricerca e l’ipotesi statistica è cruciale durante il test delle ipotesi. L’ipotesi della ricerca riguarda l’affermazione che si intende testare sulla natura dei fenomeni psicologici, mentre l’ipotesi statistica riguarda il modello generativo dei dati, ovvero le proprietà della popolazione. Nel caso dell’esperimento condotto da Mehr e colleghi, l’ipotesi della ricerca afferma che la preferenza sociale dei bambini è influenzata dalla musica e, in particolare, dalla familiarità con i materiali musicali. L’ipotesi statistica, invece, sostiene che la media della proporzione del tempo di fissazione dei bambini sul video “familiare” sia maggiore di 0.5.
I test di ipotesi vengono applicati alle ipotesi statistiche, non alle ipotesi della ricerca. Ciò significa che se l’esperimento non viene condotto nella maniera appropriata, il collegamento tra l’ipotesi statistica e la domanda della ricerca può essere spezzato. Ad esempio, se l’attore che canta la melodia familiare assomiglia ad uno dei genitori del bambino, mentre l’altro attore ha un aspetto molto diverso, allora potrebbe essere facile trovare evidenze a supporto dell’ipotesi statistica secondo cui la proporzione media del tempo di fissazione dei bambini nei confronti del video “familiare” è maggiore di 0.5, ma ciò non avrebbe nulla a che fare con la domanda della ricerca.
77.12 Ipotesi nulla e ipotesi alternativa
Fino a qui il ragionamento è stato semplice: il ricercatore ha un’ipotesi a proposito dei fenomeni psicologici e a tale ipotesi di ricerca corrisponde un’ipotesi statistica che riguarda il meccanismo generativo dei dati. Se il fenomeno psicologico possiede le proprietà suggerite dall’ipotesi della ricerca, allora il ricercatore può aspettarsi che i dati osservati abbiano alcune specifiche caratteristiche. A questo punto, però, il ragionamento diventa contro-intuitivo perché non è possibile verificare direttamente l’ipotesi statistica che corrisponde alla domanda della ricerca.
77.12.1 Apagogia
In linea di principio, non è mai possibile dimostrare direttamente la verità di una proposizione. Tuttavia, possiamo dimostrare la sua verità in modo indiretto, ovvero provando la falsità della sua proposizione complementare.
L’esempio classico è il seguente. Consideriamo la seguente proposizione: “Tutti i cigni sono bianchi” (questo è l’esempio ornitologico preferito da Popper). L’osservazione di un numero qualsiasi di cigni bianchi non è sufficiente a dimostrare la verità di questa proposizione – infatti, ci potrebbe essere da qualche parte un cigno non bianco che non abbiamo osservato (e infatti c’è). D’altra parte, invece, l’osservazione di un solo cigno che non sia bianco (ovvero, per esempio, l’osservazione di un cigno nero proveniente dall’Australia) può falsificare la proposizione considerata. Questa è la logica del falsificazionismo di Popper.
Questo modo di pensare è stato trasferito nella procedura di test di ipotesi di stampo frequentista. Dato che non possiamo dimostrare vera l’ipotesi statistica associata alla domanda della ricerca, seguiamo il percorso opposto. Ovvero, ci poniamo l’obiettivo di dimostrare falso l’evento complementare a quello specificato dall’ipotesi statistica associata alla domanda della ricerca. L’ipotesi statistica che vorremmo falsificare si chiama “ipotesi nulla” e viene denotata con \(H_0\). Nel caso dell’esempio che stiamo discutendo, l’ipotesi nulla è: \(\mu \leq 0.5\). Si noti che l’ipotesi nulla include tutte le possibili ipotesi statistiche che si possono formulare (ovvero, \(\mu = 0.5\) e \(\mu < 0.5\)), ad eccezione di quella che è associata all’ipotesi della ricerca (ovvero, \(\mu > 0.5\)). Questo definisce, nel caso presente, un test unilaterale.
In pratica, ciò che stiamo facendo è dividere tutti i possibili valori di \(\mu\) in due gruppi: quei valori che sono coerenti con l’ipotesi della ricerca (ovvero, i valori che specificano l’ipotesi alternativa, denotata con \(H_1\)) e quei valori che non sono coerenti con l’ipotesi della ricerca (ovvero, i valori che specificano l’ipotesi nulla).
Avendo detto questo, la cosa importante da riconoscere è che l’obiettivo di un test di ipotesi frequentista non è quello di dimostrare che l’ipotesi alternativa è (probabilmente) vera; l’obiettivo è mostrare che l’ipotesi nulla è (probabilmente) falsa. La maggior parte delle persone ritiene che questo modo di ragionare sia piuttosto strano.
77.12.2 La similitudine del processo penale
Un test di ipotesi è spesso comparato ad un processo penale, dove l’ipotesi nulla rappresenta l’imputato, il ricercatore il pubblico ministero, e il test statistico il giudice. Così come in un processo penale, anche in un test di ipotesi c’è una presunzione di innocenza, dove l’ipotesi nulla viene considerata vera a meno che il ricercatore non dimostri, con evidenza al di là di ogni ragionevole dubbio, che è falsa. Il ricercatore progetta l’esperimento in modo da massimizzare la possibilità che i dati producano una condanna dell’ipotesi nulla. Il test statistico, rappresentato dal giudice in questa metafora, stabilisce le regole che devono essere seguite per giungere al verdetto e tali regole sono pensate per proteggere l’ipotesi nulla. In particolare, sono studiate per garantire che la probabilità di una condanna sia bassa se l’ipotesi nulla è effettivamente vera. È importante sottolineare che l’ipotesi nulla deve essere protetta, poiché il ricercatore sta cercando di dimostrare che essa è falsa.
77.13 Due tipi di errori
Prima di entrare nei dettagli su come viene costruito un test statistico è utile capire la logica su cui esso è basato. In precedenza abbiamo paragonato il test di ipotesi nulla ad un processo penale, ma ora dobbiamo essere più espliciti. Idealmente, vorremmo costruire il nostro test in modo da non commettere errori. Sfortunatamente, però, questo non è possibile: a volte il ricercatore è sfortunato e finisce per prendere la decisione sbagliata, anche se adotta un processo decisionale razionale. Ad esempio, può succedere che una moneta venga lanciata 10 volte di fila e produca testa tutte le 10 volte. Ciò sembra fornire una prova molto forte del fatto che la moneta è sbilanciata, ma c’è una possibilità su 1024 che ciò accada anche se la moneta è equilibrata. In altre parole, nella vita reale dobbiamo sempre accettare la possibilità che le nostre scelte siano sbagliate, anche quando sembrano ragionevoli. Di conseguenza, l’obiettivo dei test delle ipotesi statistiche non è quello di eliminare completamente gli errori (questo è impossibile), ma di ridurre gli errori al minimo.
A questo punto, dobbiamo precisare meglio cosa intendiamo per “errori”. Iniziamo con il rendere esplicito quello che è ovvio: l’ipotesi nulla può essere vera o falsa, e il nostro test ci può condurre a rifiutare l’ipotesi nulla o a non rifiutarla. La decisione di rigettare o non rigettare l’ipotesi nulla ci espone dunque al rischio di commettere uno di due tipi di errore, come indicato nella figura seguente. L’errore di I tipo, denotato con \(\alpha\), è quello che commettiamo se rigettiamo l’ipotesi nulla quando essa è vera; l’errore di II tipo, denotato con \(\beta\), è quello che commettiamo se accettiamo l’ipotesi nulla mentre invece è vera l’ipotesi alternativa.
77.13.1 Errore di I tipo: la protezione dei diritti dell’imputato
In precedenza abbiamo paragonato il test statistico ad un processo penale. Infatti, un processo penale richiede che si stabilisca la colpevolezza dell’imputato “oltre ogni ragionevole dubbio”. Le regole del processo penale sono state progettate per garantire che non ci sia (quasi) nessuna possibilità di condannare ingiustamente un imputato innocente: il processo penale è progettato (almeno in teoria) per proteggere i diritti dell’imputato. Detto in altri termini, il processo penale non mette sullo stesso piano i due tipi di errore che si possono commettere: punire un innocente o assolvere un colpevole. L’errore che consiste nel punire un innocente viene considerato assai più grave di quello che porta ad assolvere un colpevole.
Un test statistico fa praticamente la stessa cosa: i test di ipotesi statistiche sono costruiti in modo tale da controllare la probabilità di un errore di I tipo, con l’obiettivo di mantenerla al di sotto di una certa soglia prefissata. Questa probabilità, denotata con \(\alpha\), viene chiamata “livello di significatività del test”. Usando parole diverse, possiamo dire che un test di ipotesi ha un livello di significatività \(\alpha\) se il tasso di errore di I tipo non è più grande di \(\alpha\). Per convenzione, i ricercatori fanno uso di tre diversi livelli \(\alpha\): 0.05, 0.01 e 0.001.
77.13.2 Errore di II tipo: l’asimmetria del giudizio
Che dire del tasso di errore di II tipo? In realtà, vorremmo tenere anche quello sotto controllo e denotiamo la probabilità di un errore di II tipo con \(\beta\). Il livello d’errore \(\beta\) viene raramente discusso ed è molto più comune fare riferimento alla potenza del test, che è la probabilità dell’evento complementare, ovvero la probabilità con cui rifiutiamo l’ipotesi nulla quando è realmente falsa, ovvero \(1-\beta\). Un test viene detto “potente” quando è caratterizzato da un piccolo valore \(\beta\) pur mantenendo il livello \(\alpha\) sotto una piccola soglia di probabilità prefissata.
Si noti l’asimmetria qui rivelata: i test di ipotesi sono progettati per garantire che il livello \(\alpha\) sia mantenuto sotto la soglia prefissata, ma non esiste alcuna corrispondente garanzia a proposito di \(\beta\). Sicuramente è preferibile che il tasso di errore di II tipo sia piccolo, e in generale i ricercatori cercano di progettare i loro esperimenti in maniera tale da avere una ragionevole potenza del test (\(1 - \beta\)) – questo si ottiene utilizzando un campione sufficientemente grande – ma nella logica della costruzione del test di ipotesi questo aspetto è secondario rispetto alla necessità di controllare il tasso di errore di I tipo.
77.14 Come si costruisce un test di ipotesi?
Ritorniamo all’esempio relativo allo studio di Mehr et al. (2016). In questo caso, sulla base all’ipotesi della ricerca, l’ipotesi nulla può essere formulata come \(H_0: \mu \leq 0.5\). Esaminando un campione di 32 bambini di età media pari a 5.6 mesi, Mehr et al. (2016) hanno scoperto che, in media, i bambini dirigevano lo sguardo verso il video “familiare” nel 56% del tempo totale di fissazione. Dunque, la media campionaria è \(\bar{X} = 0.56\) Questo è il valore campionario rilevante per il test dell’ipotesi nulla.
Ingenuamente, potremmo pensare che, per decidere se \(H_0\) sia falsa o meno, sia sufficiente confrontare la proporzione calcolata nel campione con il valore \(\pi\) specificato dall’ipotesi nulla. Nel caso presente, l’ipotesi nulla non specifica un unico valore \(\mu\) ma bensì un intervallo di valori: \([0, 0.5]\). I dati campionari specificano un valore \(\bar{X} = 0.56\), ovvero un valore che non è incluso nell’intervallo specificato da \(H_0\). Questo è incoraggiante. Se invece avessimo osservato \(\bar{X} = 0.41\), per esempio, allora non ci sarebbe stato nient’altro da dire: se i dati osservati sono compatibili con \(H_0\) non c’è bisogno di eseguire alcun test statistico – abbiamo già trovato la risposta alla domanda della ricerca.
77.14.1 La variabilità campionaria
Nel caso dell’esperimento di Mehr et al. (2016) che stiamo discutendo, \(\bar{X}\) non cade nell’intervallo specificato da \(H_0\). Sulla base del valore osservato \(\bar{X} = 0.56\) possiamo dunque concludere che \(H_0\) è falsa? Non così presto. Non è sufficiente trovare una differenza \(\bar{X} - \mu\) nella direzione giusta (cioè positiva, nel nostro caso). È anche necessario tenere in considerazione il fenomeno della variabilità campionaria.
Infatti, la media \(\bar{X}\) osservata in ogni singolo campione di ampiezza \(n=32\) è una variabile aleatoria: in ciascun possibile campione di ampiezza 32 i bambini si comportano in maniera diversa e, di conseguenza, \(\bar{X}\) assumerà un valore diverso da campione a campione. Le statistiche campionarie – nel nostro caso la media \(\bar{X}\) – sono di necessità diverse dai parametri. Ciò a cui noi siamo interessati è la media della popolazione, ovvero \(\mu\), ma sfortunatamente conosciamo solo una sua realizzazione campionaria, ovvero \(\bar{X}\).
Risulta dunque chiaro che la nostra decisione rispetto ad \(H_0\) non può essere unicamente basata sulla differenza tra \(\bar{X} - \mu\). Infatti, è ragionevole pensare che, indipendentemente dal fatto che l’ipotesi nulla sia vera o meno, in alcuni campioni la differenza \(\bar{X} - \mu\) sarà positive mentre in altri campioni sarà negativa. Dobbiamo dunque trovare una procedura che riduca la possibilità di rifiutare \(H_0\) per effetto del caso soltanto. Possiamo (e dobbiamo) fare di meglio che considerare unicamente la differenza \(\bar{X} - \mu\).
77.14.2 Le distribuzioni delle statistiche test
Il metodo seguito dall’approccio frequentista per affrontare questo problema è quello di costruire la distribuzione della statistica test \(\mathcal{G}_n\), rilevante per il test di \(H_0\), assumendo come vera l’ipotesi nulla. Questo è il concetto più contro-intuitivo di tutta la procedura di test di ipotesi dell’approccio frequentista. Esaminiamolo più in dettaglio.
Lo scopo della procedura di test statistici dell’approccio frequentista non è quello di verificare l’ipotesi alternativa: questo non è logicamente possibile. Invece, come suggerito dalla similitudine del processo penale all’ipotesi nulla, l’approccio frequentista si pone l’obiettivo di determinare se ci siano indizi sufficienti per “condannare” l’ipotesi nulla, ovvero, per rigettarla. In questa reductio ad absurdum, la “presunzione di innocenza” di \(H_0\) corrisponde all’idea che dobbiamo assumere come vera l’ipotesi nulla fino a prova contraria.
Nell’esempio che stiamo discutendo, assumere come vera l’ipotesi nulla significa assumere che il parametro \(\mu\) (la media della popolazione) sia uguale a 0.5. Sulla base di questa assunzione, per i dati dell’esempio presente, è possibile costruire la distribuzione delle medie dei campioni di ampiezza 32. Standardizzando poi la media del campione, è possibile stabilire quanto sia “distante” dal valore atteso della distribuzione campionaria costruita assumento come vera \(H_0\).
La standardizzazione di \(\bar{X}\) si effettua mediante il rapporto
\[ T = \frac{\bar{X} - \mu}{\frac{s}{\sqrt{n}}}, \]
dove \(\bar{X}\) è la media del campione (nel nostro caso, 0.56), \(s\) è la deviazione standard del campione (gli autori riportano \(s\) = 0.179) e \(n\) è l’ampiezza del campione (ovvero, \(n\) = 32). Per il caso presente otteniamo:
77.14.3 Regioni di rifiuto e regioni di non rifiuto
Conoscendo la distribuzione dei valori della statistica test (distribuzione determinata assumendo come vera \(H_0\)) diventa poi possibile dividere l’insieme dei valori possibili di \(\mathcal{G}_n\) (il nome che abbiamo assegnato ad una generica statistica test) in due regioni: i valori che ci portano a rigettare \(H_0\) (regione di rifiuto) e quelli che non ci consentono di rigettare \(H_0\) (regione di non rifiuto).
Per decidere quanto deve essere grande la regione di rifiuto di \(H_0\) è sufficiente collocare nella regione di rifiuto i valori estremi della statistica test \(\mathcal{G}_n\), ovvero quelli che sarebbe molto improbabile osservare se \(H_0\) fosse vera.
77.14.4 Quando rifiutare l’ipotesi nulla
Supponiamo che la figura seguente rappresenti la distribuzione campionaria della statistica test \(\mathcal{G}_n\).
Se i dati producono la statistica test \(\mathcal{G}_n^1\), non possiamo rifiutare l’ipotesi nulla \(H_0\). Se invece i dati producono \(\mathcal{G}_n^2\) allora possiamo rifiutare l’ipotesi nulla in favore dell’ipotesi alternativa. Ci sono varie cose da notare.
- La regione di rifiuto è costituita da valori lontani dal centro della distribuzione campionaria della statistica test, la quale è stata costruita assumendo come vera \(H_0\).
- La regione di rifiuto è situata nelle code della distribuzione. Vedremo in seguito anche degli esempi di regioni di rifiuto unilaterali.
- In questa discussione, l’ipotesi alternativa non è menzionata. Rifiutiamo o non rifiutiamo \(H_0\) basandoci unicamente sulla distribuzione campionaria \(f(\mathcal{G}_n \mid H_0)\), cioè sulla probabilità della statistica test condizionata all’ipotesi nulla \(H_0\). L’ipotesi alternativa \(H_1\) viene presa in considerazione quando si sceglie dove posizionare la regione di rifiuto di \(H_0\), ma formalmente non gioca alcun ruolo nel rigettare o meno \(H_0\).
77.14.5 Specificazione delle regioni di rifiuto
L’ipotesi alternativa \(H_1\) può assumere forme diverse e ciò conduce a specificazioni diverse della regione di rifiuto \(\mathcal{R}\) di \(H_0\). La regione di rifiuto \(\mathcal{R}\) dell’ipotesi nulla corrisponde ai valori collocati agli estremi della distribuzione secondo la direzione dell’ipotesi alternativa \(H_1\).
- Se l’ipotesi alternativa è \(H_1: \theta \neq \theta_0\) (dove \(\theta\) è un generico parametro e \(\theta_0\) è uno specifico valore del parametro), allora le evidenze coerenti con l’ipotesi alternativa (e che portano al rigetto di \(H_0\)) sono contenute negli intervalli \([-\infty, \theta_0]\) e \([\theta_0, +\infty]\).
- Se l’ipotesi alternativa è \(H_1: \theta < \theta_0\), allora le evidenze coerenti con l’ipotesi alternativa (e che portano al rigetto di \(H_0\)) sono contenute nell’intervallo \([-\infty, \theta_0]\) e l’intera regione di rifiuto \(\mathcal{R}\) è collocata nella coda di sinistra della distribuzione.
- Se l’ipotesi alternativa è \(H_1: \theta > \theta_0\), allora le evidenze coerenti con l’ipotesi alternativa (e che portano al rigetto di \(H_0\)) sono contenute nell’intervallo \([\theta_0, \infty]\) e l’intera regione di rifiuto \(\mathcal{R}\) è collocata nella coda di destra della distribuzione.
Si chiamano valori critici i valori che delimitano la regione di rifiuto \(\mathcal{R}\) in un test unilaterale e i valori che delimitano le regioni di rifiuto \(\mathcal{R}\) in un test bilaterale. In un test bidirezionale, i valori critici lasciano in ciascuna delle due code della distribuzione della statistica test una probabilità pari a \(\alpha/2\); in un test unidirezionale lasciano una probabilità pari ad \(\alpha\) in una sola coda. Il risultato di un test si dice statisticamente significativo quando il valore della statistica test ricade nella regione di rifiuto \(\mathcal{R}\).
77.14.6 La decisione statistica
Il processo di decisione statistica viene descritto da von Mises (1964) nel modo seguente:
Controllare (checking) o saggiare (testing) ha la forma seguente: se il “risultato osservato” ha una ‘piccola’ probabilità subordinatamente all’ipotesi assunta, respingiamo l’ipotesi. (p. 441)
Ovviamente l’ipotesi a cui von Mises fa riferimento è l’ipotesi nulla.
In pratica, possiamo decidere se rigettare o meno l’ipotesi nulla in due modi: determinando se la statistica test \(\mathcal{G}_n\) cade o meno nella regione di rifiuto (come abbiamo descritto sopra) o confrontando il valore-\(p\) con \(\alpha\) – i due metodi sono equivalenti.
Il valore-p rappresenta la probabilità di osservare un valore della statistica test \(\mathcal{G}_n\) pari a quello effettivamente osservato, o maggiore, quanto l’ipotesi nulla è vera. Se il valore-\(p\) è minore del livello di significatività \(\alpha\), allora la statistica test cade nella regione di rifiuto di \(H_0\) e ciò conduce al rifiuto dell’ipotesi nulla. Tali concetti sono riassunti nella tabella seguente.
Per l’esempio in discussione, la statistica \(T\) calcolata sopra si distribuisce come \(t\) di Student con \(\nu = 31\) gradi di libertà. Il valore-p corrisponde dunque all’area sottesa ad una \(t_{31}\) nell’intervallo \([1.896, +\infty]\) (test unidirezionale destro), ovvero
Dato che il valore-p è minore di \(\alpha = 0.05\), Mehr et al. (2016) rifiutano \(H_0\) (cioè che la proporzione media del tempo di fissazione dei bambini nei confronti del video “familiare” sia 0.5, o minore) e concludono che i bambini mostrano una preferenza per il video familiare.
77.15 Potenza del test
Ritorniamo ora al concetto di potenza del test. Il livello di significatività e la potenza del test vengono usati per quantificare la qualità dell’inferenza statistica. Idealmente, la procedura di test di ipotesi non dovrebbe giungere alla conclusione sbagliata. Ovvero, non dovrebbe respingere \(H_0\) quando essa è vera e dovrebbe respingere \(H_0\) in favore dell’alternativa quando \(H_1\) è vera. Ma questi sono solo due dei quattro esiti che, in principio, sono possibili, e corrispondono alle probabilità indicate di seguito.
Possiamo pensare a \(H_0\) come all’ipotesi che descrive l’evento “nulla di interessante sta succedendo” – ad esempio, “la moneta è bilanciata”, “il trattamento non è migliore del placebo”, ecc. – e pensare ad \(H_1\) come al caso contrario, ovvero: “sta accadendo qualcosa di interessante”. Quindi la potenza del test, ovvero la probabilità \(1 - \beta\) di rigettare \(H_0\) quando essa è falsa, corrisponde alla probabilità di rilevare qualcosa di interessante, quando qualcosa di interessante è effettivamente successo, mentre il livello di significatività corrisponde alla probabilità di affermare che qualcosa di interessante si è verificato, quando in realtà non è successo nulla di interessante.
Il calcolo della potenza di un test è spesso difficile, perché richiede la conoscenza della distribuzione campionaria di \(\mathcal{G}_n\) quando è vera l’ipotesi alternativa \(H_1\). Tipicamente possiamo aumentare la potenza di un test aumentando la numerosità del campione in maniera tale da diminuire la varianza delle distribuzioni della statistica test condizionate a \(H_0\) e ad \(H_1\). In un disegno sperimentale è importante determinare in anticipo il numero di prove o dei soggetti necessari per raggiungere la potenza desiderata.
77.15.1 Neyman e Fisher
La procedura di test di ipotesi statistiche descritta sopra combina due approcci teorici diversi, proposti da Sir Ronald Fisher e Jerzy Neyman. La storia di questi due approcci non è lineare, poiché Fisher e Neyman hanno modificato le loro opinioni nel tempo, senza mai fornire una “verità definitiva” su come interpretare il loro lavoro.
In sintesi, Fisher considerava che il ricercatore avesse un’unica ipotesi (quella nulla) e che lo scopo fosse verificare se i dati fossero coerenti o meno con essa. In questo senso, il valore-\(p\) rappresenta la probabilità di osservare, sotto l’ipotesi nulla, il risultato ottenuto o uno ancora più estremo. Se il valore-\(p\) è piccolo, Fisher rifiutava l’ipotesi nulla. Tuttavia, poiché non venivano formulate altre ipotesi, non c’era modo di “accettare l’alternativa”.
Al contrario, Neyman adottava un approccio più formale rispetto a Fisher e pensava che lo scopo della verifica delle ipotesi fosse quello di prendere decisioni. Secondo Neyman, il problema era decidere se accettare l’ipotesi nulla o l’alternativa e il test serviva a stabilire quale supporto venisse fornito alle due alternative. Per questo motivo, era fondamentale specificare in modo preciso l’ipotesi alternativa. Nel suo approccio, il valore-\(p\) non misurava la probabilità del risultato del test o di uno più estremo sotto l’ipotesi nulla, ma forniva una descrizione astratta dei “possibili test” che portavano all’accettazione dell’ipotesi nulla o dell’alternativa.
Attualmente ci troviamo in una situazione strana e ambigua, dove sono presenti elementi di entrambi gli approcci. La procedura di verifica di ipotesi statistiche distingue tra un’ipotesi nulla e un’ipotesi alternativa, seguendo la visione di Neyman, ma definisce il valore-\(p\) in termini di dati estremi, come avrebbe fatto Fisher, in confronto con un livello \(\alpha\) stabilito da Neyman. Alcuni test statistici specificano in modo chiaro l’ipotesi alternativa, mentre altri sono più vaghi in merito, adottando l’approccio di Fisher. Inoltre, c’è disaccordo tra i ricercatori riguardo alla possibilità di “accettare l’alternativa”, a seconda che si segua Neyman o Fisher. Questa confusione costituisce il “peccato originale” della procedura di verifica di ipotesi statistiche. Tuttavia, ci sono motivi più specifici per cui questo approccio, noto come significatività statistica, viene criticato da molti ricercatori come una delle cause principali della crisi della replicabilità dei risultati della ricerca in psicologia e in altri campi. Nel capitolo ?sec-errors-s-m esploreremo queste ragioni in dettaglio.
77.16 La Storia del Test dell’Ipotesi Nulla di Fisher e le Sue Contraddizioni
Concludiamo l’analisi della procedura dei test di ipotesi statistici esaminando l’evento che ha ispirato Ronald A. Fisher a sviluppare la sua teoria dell’inferenza statistica, focalizzata sul test dell’ipotesi nulla. Questo episodio è descritto dettagliatamente da Etz et al. (2018). L’aneddoto riguarda un tè che Fisher aveva offerto alla sua collega, la Dott.ssa Muriel Bristol. Durante la preparazione della bevanda, la Dr.ssa Bristol contestò il metodo adottato da Fisher, asserendo che il tè avrebbe avuto un gusto migliore se il latte fosse stato versato prima dell’acqua bollente. Per verificare l’affermazione della Dr.ssa Bristol, Fisher ideò un esperimento di discriminazione sensoriale. Nei test condotti, la Dr.ssa Bristol fu in grado di individuare correttamente il processo di preparazione del tè in cinque occasioni su sei.
Questo risultato pose Fisher di fronte a un interrogativo: la sua collega stava semplicemente facendo una supposizione fortunata, oppure era effettivamente in grado di discernere tra le due diverse modalità di preparazione? Per risolvere questa questione, Fisher elaborò la sua metodologia per il test dell’ipotesi nulla. Utilizzò un valore-\(p\) calcolato sulla base della probabilità dell’evento osservato, nonché di qualsiasi altro evento più estremo che potrebbe verificarsi sotto l’ipotesi nulla.
Tuttavia, è stato fatto notare che l’approccio di Fisher al test dell’ipotesi nulla può essere insufficiente e portare a conclusioni errate (Etz et al., 2018). Una delle questioni fondamentali riguarda la definizione di un evento “più estremo” rispetto a quello osservato.
Supponiamo che lo scopo dell’esperimento casuale sia di determinare l’accuratezza delle riposte della Dr.ssa Bristol in esattamente sei tentativi (e non di più). In tale caso, con 5 risposte corrette, il valore-\(p\) è pari a 0.109, che non è statisticamente significativo. In questo scenario, secondo la logica di Fisher, non si dovrebbe respingere l’ipotesi nulla che la Dr. Bristol stesse semplicemente indovinando.
Supponiamo ora che lo scopo dell’esperimento casuale sia di continuare a servire tè fino a quando la Dr.ssa Bristol non abbia raggiunto cinque risposte corrette (un risultato che, per coincidenza, si è verificato dopo sei tentativi). Se analizziamo i dati in questo secondo scenario, il valore-\(p\) diventa pari a 0.031, che è statisticamente significativo. In quest’ultimo caso, l’ipotesi nulla verrebbe respinta.
Quello che emerge è che, nonostante i dati osservati nei due scenari siano identici, giungiamo a conclusioni opposte come conseguenza delle diverse modalità di campionamento impiegate. Questa variabilità è problematica poiché il valore-\(p\), e quindi la nostra valutazione delle capacità discriminative della Dr.ssa Bristol, dipendono non solo dai dati effettivamente raccolti, ma anche dal disegno sperimentale adottato. Questa constatazione mette in discussione la robustezza del test dell’ipotesi nulla come strumento fondamentale per l’inferenza scientifica.
Per illustrare il problema, svolgiamo i calcoli utilizzando le distribuzioni statistiche richieste per i due tipi di campionamento: la distribuzione binomiale e la distribuzione geometrica negativa.
77.16.1 Distribuzione Binomiale
La distribuzione binomiale è la distribuzione da utilizzare quando il numero di tentativi è prefissato e conosciuto a priori. Nel contesto dell’esempio del tè, assumiamo che siano state servite esattamente sei tazze. La formula per determinare la probabilità di registrare esattamente \(k\) successi in \(n\) tentativi è la seguente:
\[ P(X = k) = \binom{n}{k} \times p^k \times (1-p)^{(n-k)} \]
Qui, \(\binom{n}{k}\) rappresenta il coefficiente binomiale, \(p\) è la probabilità di un singolo successo (ossia di indovinare correttamente la preparazione del tè), e \((1-p)\) è la probabilità di un singolo fallimento.
Per calcolare il valore-\(p\) in questo specifico contesto, dobbiamo sommare le probabilità di ottenere un risultato di 5 o più estremo su un totale di 6 tentativi.
# Parameters
n_binomial <- 6 # Number of fixed trials for the binomial distribution
n_success <- 5 # Desired number of successes
p <- 0.5 # Probability of success
# Calculate the p-value for the binomial distribution
p_value_binomial <- 1 - pbinom(n_success - 1, size = n_binomial, prob = p)
p_value_binomial
#> [1] 0.1094
77.16.2 Distribuzione Geometrica Negativa
Nel contesto dell’esperimento del tè, quando il test continua fino al raggiungimento di un numero prefissato di successi (nel nostro caso, cinque identificazioni corrette), la distribuzione di riferimento appropriata è la distribuzione geometrica negativa.
La distribuzione geometrica negativa modella il numero di fallimenti \(k\) che si verificano prima di ottenere un numero prefissato \(r\) di successi in una sequenza di prove indipendenti di Bernoulli, dove ogni prova ha probabilità di successo \(p\).
La probabilità di osservare esattamente \(k\) fallimenti prima di ottenere \(r\) successi è data da:
\[ P(X = k) = \binom{k+r-1}{k} p^r (1-p)^k, \]
dove:
- \(k\) è il numero di fallimenti,
- \(r\) è il numero di successi desiderato,
- \(p\) è la probabilità di successo in ogni prova,
- \(\binom{k+r-1}{k}\) è il coefficiente binomiale che rappresenta il numero di modi possibili in cui \(k\) fallimenti e \(r\) successi possono essere ordinati.
Nel nostro caso specifico:
- \(r = 5\) (successi desiderati),
- \(p = 0.5\) (probabilità di indovinare correttamente sotto l’ipotesi nulla),
- \(k\) varia da 0 a 1 (possibili fallimenti prima del quinto successo).
Il valore-p si calcola sommando le probabilità per tutti i casi “più estremi” di quello osservato:
\[ \text{valore-p} = \sum_{k=0}^{1} \binom{k+5-1}{k} (0.5)^5 (0.5)^k. \]
Implementazione:
# Parameters
n_binomial <- 6 # Number of fixed trials for the binomial distribution
n_success <- 5 # Desired number of successes
p <- 0.5 # Probability of success (guessing the tea cup)
# Calculate the p-value for the negative binomial distribution
p_value_geom_corrected <- 0
for (k in 0:(n_binomial - n_success - 1)) { # Number of failures before the 5th success
p_value_geom_corrected <- p_value_geom_corrected +
choose(k + n_success - 1, k) * ((1 - p)^k) * (p^n_success)
}
p_value_geom_corrected
#> [1] 0.03125
In conclusione,
per la distribuzione binomiale, il p-value è \(0.109\), che non è statisticamente significativo (dato che è maggiore di 0.05); quindi, secondo Fisher, in questo caso non dovremmo rigettare l’ipotesi nulla che Dr. Bristol stia indovinando.
per la distribuzione geometrica negativa, il p-value è \(0.031\), che è statisticamente significativo (dato che è minore di 0.05); in questo caso, dovremmo rigettare l’ipotesi nulla, suggerendo che Dr. Bristol non sta semplicemente indovinando.
La presente discussione mostra che, in base alla procedura del test dell’ipotesi nulla, la stessa sequenza di eventi (5 successi su 6 tentativi) può portare a conclusioni opposte a seconda delle ipotesi sul processo di campionamento. Questo paradosso è uno dei motivi (per ulteriori critiche, si veda Wasserstein & Lazar (2016); Benjamin et al. (2018)) per cui l’inferenza bayesiana è diventata più popolare negli ultimi anni come quadro alternativo per il test delle ipotesi e la stima dei parametri.
77.16.3 Approccio Bayesiano
Nel loro lavoro, Etz et al. (2018) propongono un’alternativa bayesiana per risolvere il problema esaminato da Fisher. Questa soluzione bayesiana evita le contraddizioni che emergono quando si cercano di definire “risultati più estremi” che non sono stati osservati. L’approccio bayesiano si focalizza esclusivamente sui dati effettivamente raccolti e utilizza queste osservazioni per aggiornare le probabilità iniziali (o “a priori”) associate a diverse ipotesi. Il processo si basa sulla regola di Bayes e si sviluppa in tre fasi principali:
Stabilire Probabilità a Priori: Iniziamo assegnando una distribuzione di probabilità a priori a tutti i possibili tassi di successo che la Dr. Bristol potrebbe avere. Questo include una probabilità specifica per l’ipotesi nulla, che suggerisce che la Dr. Bristol stia semplicemente indovinando (con un tasso di successo del 50%).
Aggiornare le Probabilità con Dati Osservati: Utilizziamo i dati raccolti nell’esperimento per aggiornare le nostre probabilità a priori. Questo aggiornamento è fatto utilizzando la regola di Bayes.
Calcolare il Fattore di Bayes: Questa metrica ci dice quanto i dati osservati influenzano le probabilità delle diverse ipotesi. Un Fattore di Bayes molto maggiore di 1 indicherebbe un forte supporto per l’ipotesi alternativa rispetto all’ipotesi nulla.
Nel caso specifico, il Fattore di Bayes calcolato è risultato essere circa 147.33, un valore notevolmente alto. Questo suggerisce che i dati osservati sono molto più compatibili con l’ipotesi che la Dr.ssa Bristol possa effettivamente distinguere tra le diverse preparazioni del tè, piuttosto che con l’ipotesi che stia indovinando.
Etz et al. (2018) concludono che l’approccio bayesiano offre un quadro più robusto e coerente per il test delle ipotesi. A differenza del metodo frequentista, esso non dipende dalla definizione di “risultati più estremi” non osservati e si concentra invece esclusivamente sui dati effettivamente raccolti. Questa focalizzazione, in generale, rende l’approccio bayesiano una soluzione più solida per valutare le ipotesi scientifiche. Per una rivisitazione bayesiana dell’esperimento “The Lady Tasting Tea”, si veda anche la discussione di Doorn et al. (2020).
77.17 Malintesi sul valore-p
Sono diffusi molti malintesi sul valore-p. Ne esaminiamo qui quelli più comuni.
Malinteso 1: Un valore p non significativo significa che l’ipotesi nulla è vera.
Il malinteso che un valore p non significativo (p > 0.05) implichi l’assenza di effetto o la verità dell’ipotesi nulla è diffuso e porta a conclusioni errate. La chiave per evitare questo errore sta nel comprendere che i valori p riflettono la probabilità dei dati osservati sotto l’ipotesi nulla, e non la probabilità dell’ipotesi stessa. Un valore p elevato non dimostra che l’ipotesi nulla sia vera, ma indica semplicemente che i dati osservati non sono sufficientemente insoliti da rifiutare l’ipotesi nulla con un livello di confidenza predefinito.
Risultati non significativi possono verificarsi anche quando esiste un effetto reale, ma i dati non sono abbastanza estremi da superare la soglia di significatività statistica.
Invece di concludere affrettatamente l’assenza di effetto da un valore p non significativo, dovremmo riconoscere l’ambiguità e considerare altre possibilità. Dichiarazioni come “non c’era differenza” dovrebbero essere riformulate in termini di assenza di differenza statisticamente significativa, lasciando aperta la questione dell’esistenza di un effetto reale.
L’approccio bayesiano offre una prospettiva diversa che può essere particolarmente utile per interpretare risultati non significativi. A differenza dei valori p, che si limitano a valutare la probabilità dei dati sotto l’ipotesi nulla, l’inferenza bayesiana permette di calcolare direttamente la probabilità delle ipotesi date i dati.
L’approccio bayesiano, quindi, non si limita a rifiutare o non rifiutare l’ipotesi nulla, ma quantifica la forza dell’evidenza a favore di un’ipotesi rispetto all’altra, fornendo una conclusione più informativa rispetto al semplice “non posso rifiutare l’ipotesi nulla”.
Malintesto 2: Un valore p significativo significa che l’ipotesi nulla è falsa.
Come spiegato in precedenza, il valore-p quantifica la “sorpresa” suscitata dai dati, alla luce dell’ipotesi nulla. Non ci dice niente sull’ipotesi che abbiamo assunto per quantificare la “sorpresa”.
Malinteso 3: Un valore p significativo significa che è stato scoperto un effetto importante.
La distinzione tra “significatività statistica” e “rilevanza pratica” è fondamentale: mentre la prima indica semplicemente che un risultato è improbabile sotto l’ipotesi nulla, la seconda valuta l’effetto nel contesto di applicazioni reali e le sue implicazioni.
Un effetto statisticamente significativo non garantisce che l’effetto abbia un impatto pratico notevole o utile.
Inoltre, al di là della significatività pratica, l’abitudine di molti psicologi di escludere i predittori che non risultano “statisticamente significativi” è un grossolano errore: la significatività statistica non può essere usata come un metodo per la selezione di variabili in un modello statistico.
Un p < 0.05 indica che, se l’ipotesi nulla è vera, abbiamo osservato dati che dovrebbero essere considerati sorprendenti. Tuttavia, solo perché i dati sono sorprendenti, non significa che dobbiamo preoccuparcene. È principalmente l’etichetta verbale “significativo” che causa confusione qui: in un contesto frequentista, un effetto “significativo” è un effetto “sorprendente” alla luce di \(H_0\), non è necessariamente un effetto “importante”.
Malinteso 4: Se avete osservato un risultato significativo, la probabilità che abbiate commesso un errore di Tipo 1 (un falso positivo) è del 5%.
Il malinteso che la presenza di un risultato significativo (per esempio, p < 0.05) indichi una probabilità del 5% di aver commesso un errore di Tipo 1 (falso positivo) riflette una comprensione errata della statistica frequentista. La probabilità del 5% si riferisce al tasso di errore di Tipo 1, che è la proporzione di volte che potremmo aspettarci di rifiutare erroneamente l’ipotesi nulla se questa fosse vera, su molteplici ripetizioni dell’esperimento sotto le stesse condizioni. In altre parole, se potessimo ripetere lo stesso studio infinite volte, osserveremmo risultati falsamente positivi nel 5% di questi studi, assumendo che l’ipotesi nulla sia effettivamente vera in ogni caso.
Tuttavia, una volta che abbiamo raccolto i dati e ottenuto un risultato significativo in un unico studio, non possiamo dire che “la probabilità che questo particolare risultato sia un errore di Tipo 1 è del 5%”. In realtà, in quel momento specifico, l’evento (commettere un errore di Tipo 1) è già accaduto o non è accaduto; la probabilità associata a quel singolo risultato non è più applicabile nel modo in cui potremmo aspettarci intuitivamente. Il risultato è, per così dire, una realtà fissa: o abbiamo rilevato un effetto che in realtà non esiste (errore di Tipo 1), oppure abbiamo correttamente identificato un effetto reale. Senza ulteriori esperimenti o dati, non possiamo determinare con certezza in quale di queste categorie cade il nostro risultato.
In breve, il tasso del 5% di errore di Tipo 1 non si applica retroattivamente a un singolo risultato ottenuto, ma piuttosto descrive il comportamento a lungo termine di un test statistico sotto ripetute campionature. Questa distinzione è cruciale per una corretta interpretazione dei risultati degli esperimenti e sottolinea l’importanza di non sovrastimare la certezza di un singolo risultato statistico significativo.
Malinteso 5: Uno meno il valore p è la probabilità che l’effetto si replichi quando ripetuto.
Il concetto che 1 meno il valore p rappresenti la probabilità di replicazione di un effetto è un malinteso diffuso. In realtà, la probabilità di replicazione di un effetto non può essere direttamente calcolata dal valore p di un singolo studio a causa della complessità dei fattori coinvolti, tra cui la vera differenza media tra i gruppi. La potenza statistica di un test, che dipende dalla dimensione dell’effetto, dalla dimensione del campione e dal livello di significatività α, fornisce una stima della probabilità di rilevare un effetto significativo se questo effetto esiste davvero. Tuttavia, osservare un effetto significativo in un unico studio (ad esempio, p = 0.03) non significa che vi sia una probabilità del 97% che tale effetto si replichi in studi futuri. La possibilità di replicare un risultato dipende dalla presenza di un vero effetto e dalla potenza statistica del test originale.
In sintesi, la replicabilità di un effetto è influenzata da molti fattori e non può essere inferita semplicemente dal valore p di un singolo risultato. La comprensione e l’interpretazione corrette della replicabilità richiedono un’analisi dettagliata della potenza statistica e della dimensione dell’effetto, oltre che della consistenza dei risultati attraverso studi multipli.
77.18 Riflessioni Conclusive
Il presente capitolo ha messo in evidenza le numerose limitazioni e i potenziali pericoli dell’approccio frequentista al test dell’ipotesi nulla, portando alla luce una serie di paradossi e malintesi che minano la sua validità come strumento primario per l’inferenza scientifica. In particolare, abbiamo visto come il valore-p, spesso utilizzato come metro di giudizio assoluto per decidere se un risultato è significativo o meno, possa condurre a conclusioni fuorvianti, dipendendo non solo dai dati osservati ma anche dal contesto sperimentale e dalle scelte soggettive del ricercatore. Questo approccio, che si basa su una logica binaria di “accettare” o “rifiutare” l’ipotesi nulla, sembra incapace di cogliere la complessità delle relazioni causali e degli effetti reali presenti nei fenomeni psicologici e sociali. Più profondamente, emerge con chiarezza che il metodo frequentista, lungi dall’essere un sistema oggettivo per la decisione statistica, è invece intriso di convenzioni arbitrarie (come il livello di significatività α = 0.05) e di una visione riduzionistica della probabilità, concepita come frequenza relativa di eventi ripetibili nel tempo piuttosto che come misura della nostra incertezza riguardo a un evento specifico.
Tuttavia, al di là delle critiche tecniche, il problema più grave risiede nella tendenza a considerare il test dell’ipotesi nulla come uno strumento definitivo per valutare la veridicità di ipotesi scientifiche, anziché come un semplice punto di partenza per ulteriori indagini. La cultura prevalente nella comunità scientifica, che premia i risultati “statisticamente significativi”, ha contribuito a creare un ambiente in cui gli studi replicabili sono rari e dove molti risultati pubblicati sono fragili e difficilmente generalizzabili. È qui che l’approccio bayesiano entra in gioco, offrendo una soluzione coerente e robusta che supera molte delle carenze del frequentismo. Al contrario del metodo frequentista, che si concentra su ipotesi nulle arbitrariamente definite e sulle distribuzioni campionarie di statistiche teoriche, il bayesianesimo ci permette di incorporare informazioni pregresse (prior) e di aggiornare queste conoscenze in base ai dati osservati, fornendo una stima diretta della probabilità delle ipotesi di interesse. Questo approccio, che mette al centro la nozione di evidenza, permette di quantificare la forza delle prove a favore di diverse ipotesi, evitando così le dicotomie rigide tra “significativo” e “non significativo” e promuovendo una visione più sfumata e matematicamente fondata dell’inferenza statistica.
In conclusione, il test dell’ipotesi nulla frequentista, pur essendo ampiamente utilizzato, rappresenta uno degli aspetti più controversi e problematici dell’approccio tradizionale. La sua rigidità metodologica e la dipendenza da concetti come il valore p e la significatività statistica lo rendono non solo impreciso, ma anche inadeguato a cogliere la complessità dei fenomeni che la ricerca psicologica si propone di esplorare. Abbandonare questo paradigma non è solo una questione di precisione tecnica, ma di superare una mentalità riduzionista che limita la nostra capacità di interpretare i dati in modo sfumato e contestuale.
L’adozione di metodologie bayesiane, al contrario, offre un quadro più dinamico e flessibile, in cui le ipotesi non sono semplicemente accettate o rifiutate, ma valutate in termini probabilistici. Questo approccio incoraggia un confronto diretto tra modelli e ipotesi contrapposte, permettendo di aggiornare le nostre credenze alla luce dei nuovi dati. Non si tratta solo di un miglioramento tecnico nelle inferenze scientifiche, ma di un invito a ripensare il modo in cui concepiamo la conoscenza e il processo di scoperta. La prospettiva bayesiana, infatti, enfatizza l’incertezza come parte intrinseca della ricerca, trasformandola in uno strumento per affinare le nostre comprensioni piuttosto che un ostacolo da superare.
In un contesto psicologico intrinsecamente complesso e caratterizzato da incertezza, l’approccio bayesiano rappresenta un’opportunità per adottare un’epistemologia più flessibile e razionale. La sua forza risiede nella capacità di adattarsi alla natura multifattoriale dei fenomeni psicologici, integrando in modo coerente e trasparente sia le conoscenze pregresse sia le nuove evidenze. In questo senso, l’adozione del paradigma bayesiano non è soltanto un avanzamento metodologico, ma anche un passo verso una scienza più consapevole, critica e adatta alle sfide della psicologia contemporanea.
Esercizi
- L’Idea di Base del Test di Ipotesi
Spiega il principio generale del test di ipotesi nulla in ambito frequentista. In che modo la logica dell’“assumere come vera l’ipotesi nulla fino a prova contraria” è paragonabile al concetto di “presunzione di innocenza” in un processo penale? Quali vantaggi e svantaggi comporta questa impostazione?
- Ipotesi di Ricerca vs. Ipotesi Statistica
Spiega in che modo l’ipotesi di ricerca (ad esempio, “esiste un effetto della musica sul comportamento dei bambini”) differisce dall’ipotesi statistica che si testa formalmente (ad esempio, “la media di un indice di preferenza è maggiore di 0.5”). Perché spesso la ricerca psicologica non può testare direttamente l’ipotesi di ricerca?
- Significatività Statistica e Rilevanza Pratica
Che differenza c’è tra “risultato statisticamente significativo” e “risultato rilevante (o importante) dal punto di vista pratico o teorico”? Porta un esempio in cui un test frequenzista possa dare un valore-\(p\) molto basso senza che l’effetto sia considerato rilevante nel contesto.
- Malinteso: Un Risultato non Significativo Implica Che \(H_0\) Sia Vera?
Perché è errato concludere che l’ipotesi nulla sia vera quando il test non risulta significativo (cioè quando \(p \ge 0.05\))? Quali altre spiegazioni potrebbero esserci se un esperimento produce un valore-\(p\) alto?
- Il Ruolo della Variabilità Campionaria
In che modo la variabilità campionaria (cioè il fatto che stime come la media campionaria varino da campione a campione) influisce sulla necessità di un test di ipotesi? Perché non è sufficiente confrontare la media osservata con il valore ipotizzato per concludere se \(H_0\) è falsa?
- Errori di I e II Tipo e Potenza del Test
Descrivi i concetti di errore di I tipo (falso positivo) e errore di II tipo (falso negativo). Perché i test sono progettati primariamente per controllare l’errore di I tipo? Che cos’è la potenza (\(1-\beta\)) di un test?
- Il Valore-\(p\): Che Cosa (non) Indica?
Spiega la definizione di valore-\(p\) secondo l’approccio frequentista. Quali sono due malintesi comuni su ciò che il valore-\(p\) non rappresenta?
- Critica: Dipendenza dai “Risultati più Estremi Non Osservati”
Nell’esempio dell’episodio “The Lady Tasting Tea”, come mai il test di ipotesi frequentista può portare a conclusioni diverse pur avendo gli stessi dati osservati, a seconda di come è definito il “processo di campionamento”? Perché questa è una limitazione?
- Controllo dell’Errore di I Tipo, ma Non dell’Errore di II Tipo
Perché nel test di ipotesi frequentista esiste un’asimmetria per cui si controlla rigorosamente l’errore di I tipo (fissando \(\alpha\)), ma non esiste un analogo vincolo obbligatorio sull’errore di II tipo (\(\beta\))? Quali conseguenze pratiche ne derivano per la pianificazione di uno studio?
- Limiti dell’Approccio Frequentista e Alternative
Riassumi in che senso il test di ipotesi nulla frequentista è ritenuto da alcuni ricercatori insufficiente o fuorviante (es. “dichotomania” del significato, p-value dipendente dal disegno, ecc.). Quali alternative o integrazioni sono state proposte in letteratura per superare questi limiti?
- L’Idea di Base del Test di Ipotesi
- L’ipotesi nulla (\(H_0\)) è considerata “innocente” fino a che l’evidenza non la “condanna”.
- Il test statistico stabilisce la probabilità di osservare dati così (o più) estremi assumendo che \(H_0\) sia vera.
- Vantaggio: stabilire un controllo sul rischio di un falso positivo (errore di I tipo).
- Svantaggio: non si dimostra direttamente l’ipotesi di ricerca (\(H_1\)), ma si prova a “falsificare” \(H_0\).
- Ipotesi di Ricerca vs. Ipotesi Statistica
- L’ipotesi statistica è una versione quantificabile (e falsificabile) dell’ipotesi di ricerca.
- Le ipotesi di ricerca in psicologia sono spesso complesse (costrutti non sempre direttamente misurabili).
- I ricercatori formulano un modello statistico semplificato per rendere l’ipotesi testabile.
- Significatività Statistica e Rilevanza Pratica
- “Significativo” in senso frequentista significa “dati improbabili se \(H_0\) è vera”.
- Non implica necessariamente un effetto ampio o di importanza pratica.
- Con campioni molto grandi, si possono rilevare anche differenze piccolissime, magari prive di valore applicativo.
- Malinteso: Un Risultato non Significativo Implica Che \(H_0\) Sia Vera?
- Un valore-\(p\) “alto” segnala che i dati non forniscono sufficiente evidenza per rifiutare \(H_0\), non che \(H_0\) è vera.
- Possibile mancanza di potenza statistica (campione troppo piccolo) o presenza di effetti molto ridotti.
- L’approccio frequentista non quantifica la probabilità che \(H_0\) sia vera, ma la probabilità di osservare certi dati assumendo che \(H_0\) lo sia.
- Il Ruolo della Variabilità Campionaria
- Anche se la media campionaria si discosta da \(H_0\), potremmo aver ottenuto quella differenza per puro caso.
- Occorre stabilire quanto discostamento sia “raro” secondo la distribuzione campionaria ipotizzata da \(H_0\).
- Il test calcola quante volte, nel lungo periodo, si osservano dati così estremi casualmente.
- Errori di I e II Tipo e Potenza del Test
- Errore di I tipo: rigettare \(H_0\) quando è vera.
- Errore di II tipo: non rigettare \(H_0\) quando è falsa.
- Il test frequenzista fissa una soglia \(\alpha\) (livello di significatività) per controllare l’errore di I tipo.
- La potenza quantifica la probabilità di individuare realmente un effetto quando esso esiste.
- Il Valore-\(p\): Che Cosa (non) Indica?
- Il valore-\(p\) è la probabilità di ottenere un risultato almeno così estremo se \(H_0\) è vera.
- Malinteso 1: pensare che indichi la probabilità che \(H_0\) sia vera o falsa.
- Malinteso 2: confondere “\(p < 0.05\) => probabilità 95% che l’effetto sia vero” (non è così!).
- Critica: Dipendenza dai “Risultati più Estremi Non Osservati”
- Il valore-\(p\) frequenzista include la probabilità di osservare anche “risultati più estremi” non avvenuti nell’esperimento.
- Se l’esperimento era “fissare a priori 6 tazze” vs. “continuare finché non ottiene 5 successi”, può cambiare la distribuzione usata (binomiale vs. geometrica negativa).
- Questo mostra che il valore-\(p\) dipende dal contesto sperimentale, non solo dai dati effettivi.
- Controllo dell’Errore di I Tipo, ma Non dell’Errore di II Tipo
- Si vuole evitare di “condannare” un’ipotesi nulla “innocente”.
- L’errore di II tipo spesso viene trascurato e può essere molto alto se il campione è piccolo.
- Conseguenze: molti studi hanno potenza insufficiente; i “falsi negativi” rimangono frequenti.
- Limiti dell’Approccio Frequentista e Alternative
- Critiche: inflazione di falsi positivi, dipendenza arbitraria da \(\alpha=0.05\), scarsa attenzione alla dimensione dell’effetto, interpretazioni errate del p-value.
- Alternative:
-
Approccio bayesiano (fattori di Bayes, posteriori, credibilità).
-
Confidence intervals ampliati da riflessioni su potenza e dimensione dell’effetto.
- Misure dell’effetto e analisi approfondite invece di un giudizio binario su “p<0.05”.
-
Approccio bayesiano (fattori di Bayes, posteriori, credibilità).
Esercizi “A Mano”
Questi esercizi si possono affrontare con le formule del test di ipotesi (z-test o t-test per la media, test di proporzioni, ecc.), senza ricorrere a software.
Esercizio 1: One-sample t-test sulla SWLS
-
Hai un piccolo campione di \(n=9\) studenti, con punteggi SWLS (ipotetici) riportati di seguito:
\[ 21, \ 18, \ 26, \ 20, \ 23, \ 16, \ 22, \ 19, \ 25 \]
Supponi che, in letteratura, la media teorica su popolazioni simili sia di circa \(\mu_0 = 20\).
Ipotesi nulla \((H_0)\): la media del campione non differisce da 20 (cioè \(\mu = 20\)).
Ipotesi alternativa \((H_1)\): la media del campione differisce da 20 (two-sided test).-
Richiesta:
- Calcola la media campionaria \(\bar{X}\) e la deviazione standard campionaria \(s\).
- Esegui un t-test a mano (con formula \(t = \frac{\bar{X} - \mu_0}{s/\sqrt{n}}\)).
- Stabilisci se, con \(\alpha=0.05\) (test a due code), si rifiuta o meno \(H_0\).
- Calcola la media campionaria \(\bar{X}\) e la deviazione standard campionaria \(s\).
Suggerimento: Usa la tabella della distribuzione t (o ricorri a tavole semplificate) per trovare il valore critico a \(df = n-1 = 8\). Solo per questo step, usa R.
Esercizio 22: One-sample t-test sulla LSNS-6
-
Hai un campione di \(n=8\) persone anziane, con punteggi LSNS-6 (Scala della Rete Sociale di Lubben) ipotetici (in realtà userai i dati raccolti):
\[ 10,\ 14,\ 8,\ 13,\ 12,\ 7,\ 15,\ 9 \]
In letteratura si suppone che un punteggio medio su popolazioni simili sia \(\mu_0 = 12\).
Ipotesi nulla: \(\mu = 12\).
Ipotesi alternativa: \(\mu \neq 12\).-
Richiesta:
- Calcola media e deviazione standard.
- Calcola la statistica \(t\) e confrontala con il valore critico per \(\alpha=0.05\), two-sided, con \(df = 7\).
- Concludi se rifiuti l’ipotesi nulla o meno.
- Calcola media e deviazione standard.
Esercizio 3: Due campioni indipendenti (SWLS)
-
Considera i dati raccolti dal tuo gruppo e quelli di un altro gruppo TPV (es., Gruppo A = 6 persone, Gruppo B = 5 persone) che hanno compilato la SWLS. Riporta per ipotesi i seguenti punteggi medi e DS (usa i dati reali):
- Gruppo A: \(\bar{X}_A = 24,\ s_A=4,\ n_A=6\)
- Gruppo B: \(\bar{X}_B = 19,\ s_B=3,\ n_B=5\)
- Gruppo A: \(\bar{X}_A = 24,\ s_A=4,\ n_A=6\)
Vuoi testare se le due medie differiscono in modo significativo (\(\alpha=0.05\), due code).
Ipotesi nulla: \(\mu_A = \mu_B\).
Ipotesi alternativa: \(\mu_A \neq \mu_B\).-
Richiesta:
- Calcola la statistica \(t\) di un two-sample t-test (varianze incognite, assunte uguali).
- Usa la formula con la “varianza pooled”.
- Calcola i \(df\) approssimati come \(n_A + n_B - 2\).
- Concludi se rifiuti \(H_0\).
- Calcola la statistica \(t\) di un two-sample t-test (varianze incognite, assunte uguali).
Esercizio 4: Test su una proporzione (SWLS recodificata)
A volte si trasforma la SWLS in una variabile binaria es. “\(\mathrm{SWLS} \ge 24\) = soddisfatto, \(\mathrm{SWLS}<24\) = non soddisfatto”.
Considera i dati raccolti e i corrispondenti risultati binari (Sì/No) siano 4 “soddisfatti” e 6 “non soddisfatti”.
Ipotesi nulla: la proporzione di “soddisfatti” è \(p_0 = 0.50\) (ipotizzi che metà dei partecipanti sia soddisfatta).
Ipotesi alternativa: la proporzione \(\neq 0.50\).Calcola la statistica \(Z\) per una proporzione (usando la formula della normal approx. se \(\hat{p}=4/10\)).
Confronta \(|Z|\) con il valore critico a \(\alpha=0.05\) (due code), \(z_{0.025}\approx 1.96\). Concludi.
Esercizio 5: Confronto fra due proporzioni (LSNS-6 recodificata)
- Considerai dati di due gruppi TPV (Gruppo A, Gruppo B).
- Supponi che, per Gruppo A (\(n_A=8\)), 3 persone abbiano un punteggio \(\ge 12\) (considerato “buon supporto”). Per Gruppo B (\(n_B=10\)), 7 persone siano \(\ge 12\) – usa i dati reali.
-
Ipotesi nulla: \(\,p_A = p_B\).
Ipotesi alternativa: \(\,p_A \neq p_B\).
- Calcola \(\hat{p}_A = 3/8\) e \(\hat{p}_B = 7/10\).
- Fai il test per il confronto di due proporzioni (con la formula per la “pooled proportion”). Decidi se c’è differenza significativa al 5%.
Esercizi “Con R”
Ora proponiamo 5 esercizi da svolgere con il software R. Naturalmente, dovrete caricare il vostro dataset reale (ad esempio in formato CSV o XLS) e adattare i comandi di R.
Esercizio 1: Calcolo e t-test di una sola media per la SWLS
-
Caricate in R i vostri dati SWLS in un vettore, es.:
swls_data <- c(...) # I vostri punteggi
-
Stampate la media e la deviazione standard:
Test se la media differisce da 24, usando
t.test(swls_data, mu = 24)
.Osservate il p-value e concludete se rifiutate \(H_0\): \(\mu=24\) vs \(H_1\): \(\mu \neq 24\).
Esercizio 2: Calcolo e t-test di una sola media per la LSNS-6
-
Fate lo stesso per la LSNS:
lsns_data <- c(...) # I vostri punteggi
Calcolate
mean(lsns_data)
,sd(lsns_data)
.Eseguite un test con
t.test(lsns_data, mu = X)
dove \(X\) è un valore teorico (ad es. 12 o 10, a seconda delle informazioni di letteratura).Interpretate l’output, guardando
estimate
,conf.int
,p-value
.
Esercizio 3: Confronto di due medie (SWLS) con due gruppi
-
Considerate i dati di due gruppi TPV. Avete due vettori in R:
Calcolate
mean(groupA)
,mean(groupB)
.-
Eseguite:
t.test(groupA, groupB, var.equal = FALSE) # Welch Two Sample t-test
Confrontate la differenza delle medie riportata con l’intervallo di confidenza. Il p-value indica se la differenza è significativa (ipotesi nulla: medie uguali).
Esercizio 4: Test su una proporzione (ricodifica SWLS)
-
Ricodificate i vostri punteggi SWLS in “1 = soddisfatto” / “0 = non soddisfatto”. Ad esempio:
satisfied <- ifelse(swls_data >= 24, 1, 0)
-
Contate la proporzione di “1”:
mean(satisfied)
Effettuate il test con
prop.test(sum(satisfied), length(satisfied), p = 0.5)
(se ipotizzate \(p_0=0.5\)).Guardate l’output e interpretate: l’intervallo di confidenza e il p-value.
Esercizio 5: Confronto di due proporzioni (ricodifica LSNS)
-
Fate una ricodifica binaria sul vostro vettore LSNS, ad esempio “1 se \(\ge12\), 0 se <12”:
good_support <- ifelse(lsns_data >= 12, 1, 0)
-
Separate i partecipanti in due gruppi (ad esempio, un gruppo “A” e un gruppo “B”):
<- (some condition) # righe che corrispondono a Gruppo A groupA_inds <- (some other condition) groupB_inds
Calcolate
sum(good_support[groupA_inds])
,length(groupA_inds)
e idem per groupB.Usate
prop.test(x = c(...), n = c(...))
per confrontare le due proporzioni.Concludete: se p-value < 0.05, potete rifiutare \(H_0\) (le due proporzioni sono uguali).
Esercizio 1 – P-value e Interpretazione Probabilistica
Spiega perché il valore-\(p\) del test di ipotesi nulla (frequentista) non può essere interpretato come “probabilità che l’ipotesi nulla sia vera” e in che modo l’approccio bayesiano fornisce invece una “probabilità a posteriori” sull’ipotesi. Descrivi due possibili conseguenze pratiche di questa differenza di interpretazione.
Esercizio 2 – Ruolo dei “Risultati più Estremi Non Osservati”
Nel test frequentista, il valore-\(p\) si basa anche sulla probabilità di risultati più estremi di quelli effettivamente osservati, ma che non si sono verificati. Perché questo è considerato un limite (o un paradosso) e in che modo un’analisi bayesiana eviterebbe (o ridurrebbe) questo problema?
Esercizio 3 – Dipendenza dal Disegno Sperimentale e Optional Stopping
Nel test di ipotesi frequenzista, il valore-\(p\) può cambiare se il ricercatore modifica il piano di raccolta dati (ad es. fermare la raccolta quando si ottiene un certo risultato). Perché si parla di “problema dell’optional stopping”? Come gestisce invece l’approccio bayesiano la decisione di proseguire o fermare un esperimento sulla base dei dati via via raccolti?
Esercizio 4 – Significatività Statistica vs. Dimensione dell’Effetto
Uno dei limiti dell’approccio frequentista è la confusione tra “significatività statistica” (p<0.05) e “importanza/ampiezza dell’effetto”. Spiega in che modo l’approccio bayesiano può incorporare in modo più diretto la dimensione dell’effetto e l’incertezza a riguardo (tramite le “distribuzioni a posteriori” o “intervalli di credibilità”).
Esercizio 5 – Problemi di Replicabilità: Come Confrontare Modelli?
Si osserva spesso che i risultati frequentisti (p<0.05) non si replicano bene in studi successivi. Descrivi come un’analisi bayesiana (con i “fattori di Bayes” o i “posterior odds”) possa dare un quadro più flessibile per confrontare ipotesi alternative, riducendo il rischio di eccessive conclusioni basate su un singolo p-value.
Soluzione 1 – P-value e Probabilità dell’Ipotesi
-
Punto chiave: Il valore-\(p\) è la probabilità di ottenere dati “uguali o più estremi” dando per vera l’ipotesi nulla. Invece, “probabilità che \(H_0\) sia vera” sarebbe un concetto diverso: è la probabilità dell’ipotesi data i dati osservati (interpretazione inversa).
-
Conseguenze pratiche:
- Un p-value “basso” non dice “quanto è probabile che \(H_0\) sia falsa”, ma solo che quei dati sarebbero rari sotto \(H_0\).
- I ricercatori spesso sovrastimano la “conferma” contro \(H_0\) o interpretano male un p>0.05 come “ipotesi nulla vera”.
- Un p-value “basso” non dice “quanto è probabile che \(H_0\) sia falsa”, ma solo che quei dati sarebbero rari sotto \(H_0\).
- Approccio bayesiano: Consente di calcolare una posterior probability di \(H_0\) (o di \(H_1\)) grazie alla regola di Bayes, purché si disponga di una prior e di un modello.
Soluzione 2 – Risultati più Estremi Non Osservati
-
Problema: Nel frequentismo, il valore-\(p\) integra la probabilità di dati che non si sono verificati (“what if scenario”). Ciò porta a dipendere da un insieme di risultati ipotetici e a potenziali paradossi (e.g. “Lady Tasting Tea”).
-
Limite: Può capitare che stessi dati osservati, ma piani di raccolta diversi, generino p-value diversi.
- Bayesian: Calcola la verosimiglianza solo sui dati effettivi e aggiorna la prior → “focus su ciò che è effettivamente avvenuto”. Non serve considerare a posteriori “risultati più estremi” che non si sono verificati, se non in misura minima (attraverso l’integrazione sulle possibili distribuzioni posteriori, ma con un meccanismo diverso dal p-value).
Soluzione 3 – Optional Stopping e Disegno Sperimentale
-
Optional Stopping: In un test frequentista, se continuiamo ad analizzare i dati e fermiamo la raccolta non appena otteniamo p<0.05, si gonfia il rischio di errore di I tipo.
-
Limite: Il p-value frequentista dipende dall’idea di un “protocollo fisso” a priori. Se si viola questo piano (aggiungendo dati finché non si ottiene “significatività”), il test non è più valido.
- Bayesiano: L’approccio consente un monitoraggio sequenziale (monitoring) dei dati: si aggiorna la distribuzione a posteriori man mano che arrivano nuove osservazioni, e fermarsi quando la posterior probability (o il fattore di Bayes) supera (o non supera) una certa soglia. Questo non invalida formalmente l’inferenza perché si sta accumulando evidenza in modo coerente con Bayes.
Soluzione 4 – Ampiezza dell’Effetto e Intervalli di Credibilità
-
Frequenza: Un p-value significativo non dice quanto è grande l’effetto, solo che non si spiega “facilmente” con \(H_0=0\).
-
Limite: Spesso si confonde “p<0.05” con “effetto grande/impact significativo”: in realtà, la dimensione potrebbe essere piccola.
- Bayesiano: Offre una distribuzione a posteriori sull’effetto (\(\theta\)), da cui si può ricavare un intervallo di credibilità (dove, ad esempio, c’è il 95% di probabilità che \(\theta\) si trovi in quell’intervallo). Consente di valutare se l’effetto è davvero grande o molto stretto attorno allo 0.
Soluzione 5 – Replicabilità e Confronto di Ipotesi
-
Problema di replicabilità: Molti studi con p<0.05 non vengono replicati (forse per effetti piccoli, scarsa potenza, pubblicazione selettiva, etc.).
-
Limite: Un singolo p-value non dà informazioni su “quanto credere a \(H_1\) rispetto a \(H_0\)” e non aiuta a cumulare evidenze in analisi meta-analitiche in modo flessibile.
- Bayesiano: Utilizza fattori di Bayes (Bayes Factor) o “posterior odds”, confrontando due modelli (es. \(H_0\) vs \(H_1\)). Se i dati futuri confermano una delle ipotesi, la posterior si rafforza. È un sistema più graduale e cumulativo di aggiornamento della credenza, riducendo la tendenza a “collezionare p<0.05”.
Informazioni sull’Ambiente di Sviluppo
sessionInfo()
#> R version 4.4.2 (2024-10-31)
#> Platform: aarch64-apple-darwin20
#> Running under: macOS Sequoia 15.3.1
#>
#> Matrix products: default
#> BLAS: /Library/Frameworks/R.framework/Versions/4.4-arm64/Resources/lib/libRblas.0.dylib
#> LAPACK: /Library/Frameworks/R.framework/Versions/4.4-arm64/Resources/lib/libRlapack.dylib; LAPACK version 3.12.0
#>
#> locale:
#> [1] C/UTF-8/C/C/C/C
#>
#> time zone: Europe/Rome
#> tzcode source: internal
#>
#> attached base packages:
#> [1] stats graphics grDevices utils datasets methods base
#>
#> other attached packages:
#> [1] mice_3.17.0 thematic_0.1.6 MetBrewer_0.2.0 ggokabeito_0.1.0
#> [5] see_0.10.0 gridExtra_2.3 patchwork_1.3.0 bayesplot_1.11.1
#> [9] psych_2.4.12 scales_1.3.0 markdown_1.13 knitr_1.49
#> [13] lubridate_1.9.4 forcats_1.0.0 stringr_1.5.1 dplyr_1.1.4
#> [17] purrr_1.0.4 readr_2.1.5 tidyr_1.3.1 tibble_3.2.1
#> [21] ggplot2_3.5.1 tidyverse_2.0.0 rio_1.2.3 here_1.0.1
#>
#> loaded via a namespace (and not attached):
#> [1] gtable_0.3.6 shape_1.4.6.1 xfun_0.51 htmlwidgets_1.6.4
#> [5] lattice_0.22-6 tzdb_0.4.0 Rdpack_2.6.2 vctrs_0.6.5
#> [9] tools_4.4.2 generics_0.1.3 parallel_4.4.2 pan_1.9
#> [13] pacman_0.5.1 jomo_2.7-6 pkgconfig_2.0.3 Matrix_1.7-2
#> [17] lifecycle_1.0.4 compiler_4.4.2 farver_2.1.2 munsell_0.5.1
#> [21] mnormt_2.1.1 codetools_0.2-20 htmltools_0.5.8.1 glmnet_4.1-8
#> [25] nloptr_2.1.1 pillar_1.10.1 MASS_7.3-65 reformulas_0.4.0
#> [29] iterators_1.0.14 rpart_4.1.24 boot_1.3-31 mitml_0.4-5
#> [33] foreach_1.5.2 nlme_3.1-167 tidyselect_1.2.1 digest_0.6.37
#> [37] stringi_1.8.4 splines_4.4.2 rprojroot_2.0.4 fastmap_1.2.0
#> [41] grid_4.4.2 colorspace_2.1-1 cli_3.6.4 magrittr_2.0.3
#> [45] survival_3.8-3 broom_1.0.7 withr_3.0.2 backports_1.5.0
#> [49] timechange_0.3.0 rmarkdown_2.29 nnet_7.3-20 lme4_1.1-36
#> [53] hms_1.1.3 evaluate_1.0.3 rbibutils_2.3 rlang_1.1.5
#> [57] Rcpp_1.0.14 glue_1.8.0 minqa_1.2.8 rstudioapi_0.17.1
#> [61] jsonlite_1.9.1 R6_2.6.1