Introduzione

Come discusso nel capitolo dedicato all’interpretazione delle probabilità (25  Interpretazione della probabilità), esistono due principali approcci nell’inferenza statistica: la statistica frequentista e la statistica bayesiana. Entrambi i metodi consentono di trarre conclusioni sulla popolazione di interesse attraverso l’analisi dei dati e vengono utilizzati per stimare quantità sconosciute, formulare previsioni e testare ipotesi. Tuttavia, differiscono nell’interpretazione della probabilità e nel modo in cui integrano le conoscenze pregresse e le evidenze disponibili.

Differenze fondamentali tra i due approcci

Statistica frequentista

Nella statistica frequentista, la probabilità è interpretata come la frequenza relativa di un evento in un numero infinito di prove. Questo approccio assume che il valore vero di un parametro della popolazione sia fisso ma sconosciuto e che debba essere stimato esclusivamente dai dati osservati. Le inferenze statistiche vengono effettuate attraverso metodi quali:

  • Stima puntuale: fornisce un singolo valore come miglior stima del parametro.
  • Intervalli di confidenza: definiscono un intervallo in cui il parametro si trova con una data probabilità, sotto ripetute campionature.
  • Test di ipotesi: valutano la compatibilità dei dati con un’ipotesi nulla, attraverso il calcolo di p-value e statistiche test.

Questo approccio si basa su assunzioni riguardanti il processo che genera i dati e sull’idea che la verità statistica emerga dal comportamento asintotico di esperimenti ripetuti.

Statistica bayesiana

Nella statistica bayesiana, la probabilità rappresenta un grado di credenza in un evento, soggetto ad aggiornamento alla luce di nuove evidenze (Jaynes, 2003). Questo approccio si fonda sull’applicazione del teorema di Bayes, che consente di aggiornare la conoscenza su un parametro in base ai dati osservati.

  • Il valore del parametro è trattato come una variabile casuale con una distribuzione di probabilità.
  • L’analisi parte da una distribuzione a priori, che rappresenta la conoscenza precedente.
  • I nuovi dati vengono combinati con la distribuzione a priori tramite la verosimiglianza (likelihood).
  • Il risultato è la distribuzione a posteriori, che sintetizza l’incertezza aggiornata sul parametro.

Questo approccio permette di incorporare informazioni pregresse ed è particolarmente utile in contesti con dati limitati o conoscenze precedenti rilevanti.

Il problema dell’induzione di Hume

Una prospettiva utile per comprendere la differenza tra questi due approcci è il problema dell’induzione, formulato da David Hume nel 1739 nel suo A Treatise of Human Nature (Hacking, 2006). Hume solleva un dubbio fondamentale: come possiamo giustificare le inferenze dal passato al futuro? Nessuna quantità di osservazioni passate garantisce che il futuro seguirà lo stesso schema.

  • L’approccio frequentista presuppone implicitamente che il mondo segua regolarità statistiche costanti. Tuttavia, questo assunto è vulnerabile alle critiche di Hume, poiché non offre una giustificazione epistemica all’estrapolazione del passato.
  • L’approccio bayesiano integra l’incertezza nell’inferenza: la probabilità di un evento futuro è un riflesso delle nostre credenze attuali e viene aggiornata alla luce di nuove osservazioni. Questo approccio si adatta meglio a situazioni in cui il mondo potrebbe non seguire regolarità fisse.

Un esempio pratico: il lancio di una moneta

Consideriamo il classico esempio del lancio di una moneta per illustrare le differenze tra i due approcci:

  • Frequentista: definisce la probabilità di ottenere testa come la proporzione di teste osservate in un numero infinito di lanci. La probabilità è una proprietà intrinseca della moneta, indipendente dalle credenze dell’osservatore.
  • Bayesiano: parte da una distribuzione a priori sulla probabilità della moneta di cadere su testa. Dopo ogni lancio, aggiorna la credenza utilizzando la verosimiglianza, ottenendo una nuova distribuzione a posteriori. Questo metodo riflette un aggiornamento razionale delle credenze alla luce di nuove osservazioni.

L’approccio bayesiano è quindi più flessibile e coerente con la prospettiva di Hume: accetta l’incertezza del futuro e la gestisce attraverso un meccanismo di aggiornamento continuo.

Obiettivo di questa sezione

In questa sezione della dispensa, esamineremo in dettaglio i metodi della statistica frequentista, tra cui la stima puntuale, gli intervalli di confidenza e il test di ipotesi. Questi strumenti costituiscono il nucleo dell’inferenza statistica tradizionale e offrono un quadro solido per analizzare i dati in assenza di informazioni pregresse. Tuttavia, come evidenziato dal problema di Hume, ogni approccio ha i suoi limiti e presupposti. La scelta tra frequentismo e bayesianesimo dipende dal contesto e dagli obiettivi dell’analisi.

Bibliografia

Hacking, I. (2006). The emergence of probability: A philosophical study of early ideas about probability, induction and statistical inference. Cambridge University Press.
Jaynes, E. T. (2003). Probability theory: The logic of science. Cambridge University Press.