45  La quantificazione dell’incertezza

In questo capitolo approfondirai i seguenti concetti fondamentali:
  • Distribuzioni a priori e a posteriori: comprensione delle basi teoriche e del loro ruolo nel ragionamento bayesiano.
  • Aggiornamento bayesiano: il processo di integrazione delle nuove evidenze con le conoscenze preesistenti.
  • Incertezza epistemica e aleatoria: differenziazione tra le due tipologie di incertezza e il loro significato nell’analisi dei dati.
Prerequisiti
Preparazione del Notebook
here::here("code", "_common.R") |> 
  source()

45.1 Introduzione

“Quindi non avete una sola risposta alle vostre domande?”
“Adson, se l’avessi insegnerei teologia a Parigi.”
“A Parigi hanno sempre la risposta vera?”
“Mai,” disse Guglielmo, “ma sono molto sicuri dei loro errori.”
(Umberto Eco: Il Nome della Rosa)

L’approccio bayesiano non si limita all’applicazione del Teorema di Bayes, ma si distingue per una gestione esplicita dell’incertezza (si veda il Capitolo 44) e per l’uso delle distribuzioni di probabilità per rappresentare stime e soluzioni. Il processo di modellazione bayesiana, noto come workflow bayesiano (Baribault & Collins, 2023), comprende più fasi iterative: dalla costruzione del modello, all’applicazione del Teorema di Bayes, fino all’analisi critica dei risultati. Questo approccio permette un continuo affinamento delle stime, adattandole alle nuove evidenze.

L’obiettivo dell’approccio bayesiano non è scoprire una “verità assoluta”, ma aggiornare razionalmente le credenze riguardo a un’ipotesi integrando nuove informazioni. In psicologia, dove le misurazioni sono soggette a incertezza e i fenomeni complessi, questa capacità è cruciale.

45.2 Il Valore dell’Incertezza

In psicologia e nelle scienze sociali, l’incertezza è una componente fondamentale: spesso lavoriamo con informazioni incomplete o imperfette e con variabili latenti che non possono essere osservate direttamente, come l’ansia, la motivazione o l’autostima. La probabilità offre un linguaggio matematico per rappresentare questa incertezza in modo rigoroso e sistematico.

In particolare, la probabilità consente di esprimere il grado di fiducia o di conoscenza che abbiamo riguardo a un evento o a un parametro. L’inferenza bayesiana integra la probabilità come strumento per gestire l’incertezza, rappresentandola sotto forma di distribuzioni probabilistiche che possono essere aggiornate man mano che emergono nuove informazioni (Jaynes, 2003).

A differenza dei modelli deterministici, che assumono la possibilità di prevedere i risultati con certezza, i modelli probabilistici – e in particolare quelli bayesiani – abbracciano l’incertezza come parte integrante della comprensione dei fenomeni. Questo approccio si rivela particolarmente potente in psicologia, dove l’incertezza è intrinseca e i dati spesso offrono una visione parziale della realtà.

45.3 Interpretazione Frequentista vs. Bayesiana dell’Incertezza

45.3.1 Interpretazione Frequentista

L’approccio frequentista definisce la probabilità come la frequenza relativa con cui un evento si verifica nel lungo periodo, in un gran numero di prove simili. Per esempio, se si vuole stimare la probabilità che un individuo superi una certa soglia di ansia, si osserverebbe un ampio numero di individui simili e si calcolerebbe la proporzione di successi (\(E\)) rispetto al totale delle prove (\(N\)):

\[ \text{Pr}(E) = \lim_{N \to \infty} \frac{\text{numero di volte in cui } E \text{ si verifica}}{N}. \]

Nel frequentismo, l’incertezza non è rappresentata direttamente, ma emerge dall’impossibilità pratica di osservare un numero infinito di eventi in condizioni identiche. Questo approccio presenta due limiti principali:

  1. Osservazioni infinite: Non è realistico osservare un evento infinite volte.
  2. Definizione del gruppo di riferimento: È spesso difficile identificare con precisione le condizioni rilevanti che caratterizzano il fenomeno (la reference class).

Questi limiti rendono l’approccio frequentista meno applicabile in psicologia, dove le condizioni sperimentali sono spesso uniche e non ripetibili.

45.3.2 Interpretazione Bayesiana

L’approccio bayesiano interpreta la probabilità come una misura soggettiva del grado di fiducia in un evento, un’ipotesi o un parametro. La probabilità riflette quindi la nostra incertezza riguardo a un fenomeno, tenendo conto sia delle conoscenze precedenti (priori) sia delle nuove evidenze (dati). Questo legame diretto tra probabilità e incertezza consente di aggiornare le credenze man mano che emergono nuove informazioni.

Il teorema di Bayes formalizza questo processo:

\[ p(\theta \mid D) = \frac{p(D \mid \theta) \cdot p(\theta)}{p(D)}, \]

dove:

  • \(p(\theta \mid D)\): probabilità a posteriori di \(\theta\), aggiornata in base ai dati \(D\),
  • \(p(\theta)\): probabilità a priori di \(\theta\),
  • \(p(D \mid \theta)\): verosimiglianza dei dati dato \(\theta\),
  • \(p(D)\): probabilità totale dei dati.

L’approccio bayesiano rappresenta esplicitamente l’incertezza attraverso distribuzioni probabilistiche. Ogni stima incorpora la variabilità intrinseca dei dati e il grado di fiducia associato.

Caratteristica Frequentismo Bayesiano
Probabilità Frequenza relativa nel lungo periodo Grado di credenza soggettiva
Incertezza Non rappresentata esplicitamente Modello centrale delle distribuzioni
Aggiornamento Non dinamico Continuo, basato sul Teorema di Bayes
Applicabilità in Psicologia Limitata: richiede condizioni ripetibili Flessibile: integra dati e conoscenze

In conclusione, l’inferenza bayesiana offre un collegamento diretto tra incertezza e probabilità, rappresentando quest’ultima come una misura della conoscenza attuale su un fenomeno. Questa flessibilità rende l’approccio particolarmente potente per affrontare i problemi complessi della psicologia, dove variabili latenti e incertezza sono elementi centrali. Integrando dati empirici e conoscenze pregresse, l’inferenza bayesiana non solo migliora la precisione delle stime, ma fornisce anche un quadro intuitivo e rigoroso per la comprensione e la modellazione dell’incertezza.

Esempio 45.1 Quando si misura l’ansia tramite questionari, l’incertezza può derivare da:

  • Soggettività delle risposte: L’interpretazione delle domande varia tra individui.
  • Incompletezza delle misure: Il questionario può non cogliere tutte le sfumature dell’ansia.
  • Rumore nei dati: Errori minori possono influenzare i risultati.

L’inferenza bayesiana consente di rappresentare queste fonti di incertezza con una distribuzione a priori basata su studi precedenti. Man mano che si raccolgono nuovi dati, la distribuzione a posteriori fornisce stime aggiornate e più affidabili.

Esempio 45.2 In uno studio sull’effetto del rinforzo negativo sulla motivazione, la “motivazione interna” è una variabile latente non osservabile direttamente. Possiamo inferirla attraverso:

  • Misure indirette: Tempo speso sul compito, velocità di risposta.
  • Modelli bayesiani: Collegano queste variabili osservabili alla motivazione latente, rappresentando l’incertezza individuale e il contributo del rinforzo.

Ad esempio, se un modello bayesiano stima che un individuo ha l’80% di probabilità di rispondere positivamente al rinforzo negativo, questa probabilità può essere aggiornata con nuovi dati sperimentali, affinando la comprensione del fenomeno.

45.4 Inferenza Bayesiana e Incertezza nelle Stime

L’inferenza bayesiana utilizza le probabilità per aggiornare le credenze sui parametri di un modello basandosi sui dati osservati. Queste credenze sono rappresentate da distribuzioni di probabilità, e l’ampiezza di queste distribuzioni riflette l’incertezza associata alle stime. In psicologia, dove spesso si lavora con campioni limitati e misurazioni indirette di variabili latenti, questa gestione dell’incertezza è fondamentale per interpretare i risultati in modo robusto e realistico.

45.5 Il Modello Bayesiano

Un modello statistico combina una distribuzione probabilistica con ipotesi sui parametri per descrivere un fenomeno osservato. Ad esempio, possiamo modellare il lancio di una moneta equa con un modello binomiale, in cui la probabilità \(\theta\) è fissata a 0.5, oppure modellare l’altezza degli uomini italiani con un modello normale, in cui \(\mu\) è 183 cm e \(\sigma\) è 5 cm. In termini bayesiani, il modello statistico include tre componenti principali:

  1. Distribuzione a Priori (Prior): Rappresenta le credenze iniziali sui valori dei parametri del modello, informate da ricerche precedenti o da assunzioni neutre.

  2. Verosimiglianza (Likelihood): Descrive la probabilità di osservare i dati dati i parametri del modello, riflettendo il processo che genera i dati.

  3. Distribuzione a Posteriori (Posterior): È la distribuzione aggiornata dei parametri dopo aver osservato i dati, ottenuta combinando la prior e la verosimiglianza mediante il teorema di Bayes. La posterior rappresenta la conoscenza aggiornata dopo aver integrato le informazioni fornite dai dati.

La modellazione bayesiana descrive il processo generativo che ha prodotto i dati osservati, incorporando l’incertezza nei parametri e aggiornando continuamente le stime man mano che emergono nuovi dati. Questo approccio è particolarmente utile in contesti come la psicologia, dove i fenomeni complessi e le variabili latenti rendono necessario modellare l’incertezza in modo esplicito.

45.6 Componenti Chiave della Modellazione Probabilistica

  1. Variabili Aleatorie: Quantità incerte che assumono diversi valori secondo una distribuzione di probabilità. Ad esempio, il livello di depressione di un paziente può essere trattato come una variabile aleatoria.

  2. Distribuzioni di Probabilità: Descrivono come i valori di una variabile aleatoria sono distribuiti. Ad esempio, una distribuzione normale può essere utilizzata per modellare la variabilità dell’ansia in una popolazione.

  3. Inferenza Bayesiana: Aggiorna la distribuzione di probabilità delle variabili di interesse sulla base dei nuovi dati, migliorando progressivamente le stime.

Esempio 45.3 In uno studio clinico sulla depressione, possiamo utilizzare l’inferenza bayesiana per stimare il livello di depressione di un paziente partendo da una distribuzione a priori informata da studi precedenti. Ogni nuovo dato raccolto (come punteggi a questionari o osservazioni) permette di aggiornare questa stima, affinando progressivamente la comprensione del fenomeno.

45.7 Il Potere dell’Aggiornamento Bayesiano

Il vero punto di forza della modellazione bayesiana risiede nella sua capacità di aggiornare continuamente le credenze sui parametri del modello man mano che si raccolgono nuovi dati. Questo processo iterativo, basato sul teorema di Bayes, consente di integrare sia le credenze iniziali (a priori) sia le evidenze empiriche (verosimiglianza) per ottenere stime sempre più precise.

Esempio 45.4 Un esempio intuitivo per spiegare l’aggiornamento bayesiano è quello proposto da McElreath (2020). Supponiamo di voler stimare la proporzione della superficie terrestre coperta d’acqua. L’esperimento consiste nel lanciare un globo terrestre in aria, afferrarlo e osservare se la superficie sotto il dito è acqua o terra. Dopo ogni osservazione, possiamo aggiornare le nostre credenze sulla proporzione d’acqua (p).

Iniziamo con una distribuzione a priori che assegna la stessa probabilità a tutti i valori possibili di \(p\) (proporzione d’acqua). Dopo il primo lancio, in cui osserviamo acqua (“W”), la probabilità che \(p\) sia zero diminuisce, mentre quella che \(p\) sia maggiore aumenta. Man mano che raccogliamo più dati, la distribuzione si aggiorna, riducendo l’incertezza e convergendo verso una stima più precisa di \(p\).

Con l’aumento dei dati osservati, la distribuzione a posteriori si concentra sempre di più attorno ai valori di \(p\) che meglio spiegano i dati. Questo processo rappresenta il continuo affinamento delle stime bayesiane, che diventano più accurate man mano che le evidenze si accumulano.

In sintesi, l’aggiornamento bayesiano fornisce un quadro flessibile e sistematico per trattare l’incertezza e integrare nuove informazioni. È particolarmente utile nelle scienze psicologiche e sociali, dove la complessità e la variabilità dei fenomeni rendono difficile ottenere stime precise. Questo approccio consente di migliorare costantemente la comprensione dei fenomeni, adattando le credenze man mano che emergono nuovi dati.

Il grafico precedente illustra un processo di aggiornamento bayesiano, in cui vengono progressivamente aggiornate le credenze sulla proporzione di superficie coperta d’acqua (\(p\)) del globo terrestre, man mano che vengono raccolti nuovi dati. Dopo ogni lancio, le probabilità sui possibili valori di \(p\) vengono aggiornate sulla base delle osservazioni, utilizzando il teorema di Bayes. Il processo è visualizzato attraverso una serie di grafici, organizzati in una griglia 3x3, con ogni pannello che rappresenta un’osservazione aggiuntiva.

Nota sui grafici.

  • Linea Blu: La distribuzione a posteriori calcolata per il pannello corrente.
  • Linea Grigia: La distribuzione a priori utilizzata, che è il posterior del pannello precedente.
  • Aggiornamento Bayesiano: Ogni volta che vengono osservati nuovi dati, la distribuzione a posteriori diventa il a priori per il passo successivo, consentendo di incorporare progressivamente l’informazione osservata.

A una prima lettura, è sufficiente focalizzarsi sul significato dell’aggiornamento bayesiano e sulle conseguenze che questo produce rispetto alle nostre credenze su \(p\), man mano che vengono osservati nuovi dati. Per il momento, il meccanismo dettagliato attraverso cui l’aggiornamento bayesiano viene realizzato non è ancora stato esplicitato, e quindi gli studenti possono inizialmente tralasciare la spiegazione approfondita contenuta in questo riquadro.

Dopo aver letto il contenuto di Capitolo 50, sarà possibile tornare sull’esempio discusso qui e comprenderne appieno l’aggiornamento bayesiano, interpretandolo alla luce delle proprietà delle famiglie coniugate. Questo consentirà di cogliere non solo il significato generale dell’aggiornamento, ma anche i dettagli tecnici che lo rendono particolarmente efficiente in contesti come quello descritto.

Primo Pannello.

  1. Osservazione iniziale: Abbiamo il primo dato, un successo (“W”).
  2. A priori: La distribuzione a priori iniziale è una distribuzione Beta(1, 1). Questa rappresenta una conoscenza iniziale non informativa, ovvero l’ipotesi che qualsiasi proporzione di successi (\(p\)) sia ugualmente probabile.
  3. A posteriori: Con un successo su una prova: \[ \text{Posterior} \sim \mathcal{Beta}(1 + 1, 1 + 0) = \mathcal{Beta}(2, 1). \] La distribuzione risultante è concentrata verso i valori più alti di \(p\), riflettendo il successo osservato.

Secondo Pannello.

  1. Osservazioni: Ora abbiamo due dati, “W” e “L”, quindi un successo su due prove.
  2. A priori: La distribuzione a priori per questo passo è il posterior del pannello precedente, ovvero \(\mathcal{Beta}(2, 1)\).
  3. A posteriori: Con un successo (\(W = 1\)) e un insuccesso (\(L = 1\)): \[ \text{Posterior} \sim \mathcal{Beta}(2 + 1, 1 + 1) = \mathcal{Beta}(3, 2). \] La nuova distribuzione riflette un aggiornamento che tiene conto sia del successo che dell’insuccesso.

Terzo Pannello.

  1. Osservazioni: Ora abbiamo tre dati, “W”, “L”, “W”, quindi due successi su tre prove.
  2. A priori: La distribuzione a priori è il posterior del pannello precedente, \(\mathcal{Beta}(3, 2)\).
  3. A posteriori: Con due successi (\(W = 2\)) e un insuccesso (\(L = 1\)): \[ \text{Posterior} \sim \mathcal{Beta}(3 + 1, 2 + 0) = \mathcal{Beta}(4, 2). \]

Quarto Pannello.

  1. Osservazioni: Ora abbiamo quattro dati, “W”, “L”, “W”, “W”, quindi tre successi su quattro prove.
  2. A priori: La distribuzione a priori è il posterior del pannello precedente, \(\mathcal{Beta}(4, 2)\).
  3. A posteriori: Con tre successi (\(W = 3\)) e un insuccesso (\(L = 1\)): \[ \text{Posterior} \sim \mathcal{Beta}(4 + 1, 2 + 0) = \mathcal{Beta}(5, 2). \]

Quinto Pannello.

  1. Osservazioni: Ora abbiamo cinque dati, “W”, “L”, “W”, “W”, “L”, quindi tre successi su cinque prove.
  2. A priori: La distribuzione a priori è il posterior del pannello precedente, \(\mathcal{Beta}(5, 2)\).
  3. A posteriori: Con tre successi (\(W = 3\)) e due insuccessi (\(L = 2\)): \[ \text{Posterior} \sim \mathcal{Beta}(5 + 0, 2 + 1) = \mathcal{Beta}(5, 3). \]

Sesto Pannello.

  1. Osservazioni: Ora abbiamo sei dati, “W”, “L”, “W”, “W”, “L”, “W”, quindi quattro successi su sei prove.
  2. A priori: La distribuzione a priori è il posterior del pannello precedente, \(\mathcal{Beta}(5, 3)\).
  3. A posteriori: Con quattro successi (\(W = 4\)) e due insuccessi (\(L = 2\)): \[ \text{Posterior} \sim \mathcal{Beta}(5 + 1, 3 + 0) = \mathcal{Beta}(6, 3). \]

Settimo Pannello.

  1. Osservazioni: Ora abbiamo sette dati, “W”, “L”, “W”, “W”, “L”, “W”, “L”, quindi quattro successi su sette prove.
  2. A priori: La distribuzione a priori è il posterior del pannello precedente, \(\mathcal{Beta}(6, 3)\).
  3. A posteriori: Con quattro successi (\(W = 4\)) e tre insuccessi (\(L = 3\)): \[ \text{Posterior} \sim \mathcal{Beta}(6 + 0, 3 + 1) = \mathcal{Beta}(6, 4). \]

Ottavo Pannello.

  1. Osservazioni: Ora abbiamo otto dati, “W”, “L”, “W”, “W”, “L”, “W”, “L”, “W”, quindi cinque successi su otto prove.
  2. A priori: La distribuzione a priori è il posterior del pannello precedente, \(\mathcal{Beta}(6, 4)\).
  3. A posteriori: Con cinque successi (\(W = 5\)) e tre insuccessi (\(L = 3\)): \[ \text{Posterior} \sim \mathcal{Beta}(6 + 1, 4 + 0) = \mathcal{Beta}(7, 4). \]

Nono Pannello.

  1. Osservazioni: Ora abbiamo nove dati, “W”, “L”, “W”, “W”, “L”, “W”, “L”, “W”, “W”, quindi sei successi su nove prove.
  2. A priori: La distribuzione a priori è il posterior del pannello precedente, \(\mathcal{Beta}(7, 4)\).
  3. A posteriori: Con sei successi (\(W = 6\)) e tre insuccessi (\(L = 3\)): \[ \text{Posterior} \sim \mathcal{Beta}(7 + 1, 4 + 0) = \mathcal{Beta}(8, 4). \]

Questo processo mostra come il modello bayesiano aggiorna continuamente le credenze man mano che i dati vengono osservati. Ogni nuovo pannello segue lo stesso schema: la distribuzione a priori (linea tratteggiata) viene aggiornata con la nuova osservazione (linea continua). Se viene osservata acqua (W), il picco della distribuzione si sposta a destra; se viene osservata terra (L), il picco si sposta a sinistra. In ogni caso, la curva diventa progressivamente più “appuntita”, indicando che l’incertezza sulla vera proporzione di acqua diminuisce con l’aumentare del numero di osservazioni.

L’aspetto fondamentale dell’approccio bayesiano è che ogni distribuzione a posteriori aggiornata (linea continua) diventa la nuova distribuzione a priori per la successiva osservazione. Questo processo iterativo permette di apprendere progressivamente dai dati, integrando ogni nuova informazione per affinare la stima di \(p\). Alla fine, la distribuzione diventa sempre più concentrata intorno al valore più probabile di \(p\), man mano che raccogliamo più dati.

In conclusione, l’esempio illustra come l’aggiornamento bayesiano modifichi le nostre credenze sulla proporzione d’acqua (\(p\)) sulla superficie del globo, basandosi sulle osservazioni raccolte. Ogni curva rappresenta la sintesi delle conoscenze attuali, combinando le osservazioni precedenti con l’ultima evidenza raccolta. Il grafico dimostra visivamente come l’approccio bayesiano consenta di trattare l’incertezza e aggiornare le stime in modo coerente e progressivo.

45.8 Il Processo Generatore dei Dati

L’esempio precedente mette in evidenza come, nel contesto dell’aggiornamento bayesiano, sia cruciale fare un’assunzione sul processo generatore dei dati, ovvero il meccanismo che collega i parametri sconosciuti ai dati osservati. Questo processo è formalizzato attraverso la funzione di verosimiglianza, che esprime la probabilità di osservare i dati disponibili per ogni valore possibile del parametro incognito.

Nel caso degli esperimenti bernoulliani, come il lancio del globo, ogni prova ha due possibili esiti: un successo (acqua) o un fallimento (terra). L’obiettivo è stimare la probabilità di successo, denotata con \(\theta\). Il processo generatore dei dati per questo tipo di esperimento è ben rappresentato dalla distribuzione binomiale, che modella il numero di successi osservati su un certo numero di prove indipendenti, ciascuna con probabilità di successo pari a \(\theta\):

\[ P(W \mid \theta, n) = \binom{n}{W} \theta^W (1 - \theta)^{n-W}, \]

dove \(\binom{n}{W}\) è il coefficiente binomiale che calcola il numero di combinazioni possibili di \(W\) successi in \(n\) prove.

In questo contesto, \(\theta\) rappresenta la proporzione di superficie coperta d’acqua sul globo. L’assunzione fondamentale è che \(\theta\) sia costante durante l’intero esperimento, garantendo che tutte le prove siano indipendenti e identicamente distribuite. Questo implica che ogni osservazione porta informazioni utili per aggiornare le nostre credenze su \(\theta\), che si riflettono nella distribuzione a posteriori ad ogni passo.

Grazie a questa struttura probabilistica, il processo di aggiornamento bayesiano ci consente di:

  1. Iniziare con una distribuzione a priori che riflette le nostre conoscenze o ipotesi iniziali su \(\theta\).
  2. Utilizzare la funzione di verosimiglianza per incorporare i dati osservati.
  3. Calcolare la distribuzione a posteriori, che sintetizza le nostre credenze aggiornate su \(\theta\).

Questo processo iterativo consente di affinare progressivamente la stima del parametro \(\theta\), integrando in modo rigoroso le informazioni provenienti dai dati.

Figura 45.1: Gli stessi dati possono essere coerenti con diverse ipotesi riguardanti il processo che li ha generati (Figura tratta da Freiesleben & Molnar, 2024).

45.9 Interpretazione della Distribuzione a Posteriori

La distribuzione a posteriori rappresenta l’aggiornamento delle nostre credenze su \(\theta\) alla luce dei dati osservati. Questa distribuzione non solo sintetizza le informazioni provenienti dall’esperimento, ma ci permette anche di fare inferenze più robuste e quantitative su \(\theta\).

La distribuzione a posteriori può essere interpretata utilizzando diverse statistiche riassuntive:

  • Moda: È il valore di \(\theta\) con la massima densità di probabilità. Questo rappresenta la stima più plausibile di \(\theta\) dato il modello e i dati osservati.
  • Media e Mediana: La media della distribuzione a posteriori fornisce una stima centrale ponderata da tutta la distribuzione, mentre la mediana individua il valore che divide la distribuzione in due metà uguali. Queste misure possono variare leggermente a seconda della simmetria o asimmetria della distribuzione.

L’incertezza associata alla stima di \(\theta\) è rappresentata dalla larghezza della distribuzione a posteriori:

  • Una distribuzione stretta indica una bassa incertezza: la probabilità si concentra in un intervallo ristretto di valori, riflettendo una maggiore fiducia nella stima di \(\theta\).
  • Una distribuzione ampia suggerisce una maggiore incertezza: i dati osservati non sono sufficienti per restringere l’intervallo delle credenze su \(\theta\).

Con l’aumentare dei dati raccolti, la distribuzione a posteriori diventa progressivamente più concentrata attorno al valore più probabile di \(\theta\), riducendo l’incertezza e migliorando la precisione delle inferenze.

Esempio 45.5 Nel contesto dei lanci del globo, supponiamo che la distribuzione a posteriori abbia un picco vicino a \(\theta = 0.67\). Questo significa che la stima più plausibile della proporzione di superficie coperta d’acqua sul globo è il 67%. Se la distribuzione è stretta, possiamo affermare con maggiore sicurezza che la vera proporzione è vicina a questo valore. Al contrario, una distribuzione più ampia rifletterebbe una maggiore incertezza, indicando che ulteriori osservazioni sono necessarie per affinare la stima.

In conclusione, la distribuzione a posteriori non solo fornisce una stima puntuale di \(\theta\), ma cattura anche l’incertezza associata a questa stima. Attraverso il suo utilizzo, possiamo integrare rigorosamente i dati con le ipotesi iniziali e ottenere inferenze che riflettono sia le informazioni disponibili sia la variabilità residua.

45.10 Influenza delle Distribuzioni a Priori

In questo esempio, abbiamo utilizzato una distribuzione a priori uniforme, che esprime una totale mancanza di conoscenza iniziale su \(\theta\). Tuttavia, in contesti in cui abbiamo informazioni preesistenti, è possibile utilizzare distribuzioni a priori più informative. Ad esempio, se sappiamo da studi precedenti che circa il 70% della superficie terrestre è coperta d’acqua, possiamo utilizzare una distribuzione a priori che rifletta questa conoscenza. Questo tipo di distribuzione a priori informativa può rendere l’aggiornamento bayesiano più efficiente, portando a stime più precise con meno dati.

45.11 Vantaggi dell’Aggiornamento Bayesiano

Uno dei principali vantaggi dell’approccio bayesiano è che ogni nuova osservazione aggiorna automaticamente le credenze preesistenti, integrando le informazioni precedenti con i nuovi dati. Questo processo consente un apprendimento iterativo e progressivo, che diventa più efficiente man mano che si accumulano dati. Inoltre, la flessibilità nella scelta della distribuzione a priori consente al ricercatore di adattare l’inferenza bayesiana al contesto specifico, migliorando ulteriormente la precisione delle stime.

In sintesi, il processo generatore dei dati, modellato tramite la verosimiglianza, gioca un ruolo centrale nell’aggiornamento bayesiano. Nel caso del globo, abbiamo modellato il fenomeno utilizzando una distribuzione binomiale e, attraverso l’applicazione del Teorema di Bayes, abbiamo aggiornato progressivamente le nostre credenze sulla proporzione di acqua osservata. Il risultato è una stima sempre più precisa di \(\theta\), con una distribuzione a posteriori che riflette sia le osservazioni passate sia le nuove evidenze, riducendo progressivamente l’incertezza.

45.12 Riflessioni Conclusive

Negli ultimi anni, i metodi bayesiani stanno acquisendo sempre più importanza nel campo dell’inferenza statistica, anche in discipline come la psicologia. Questa diffusione è favorita dall’accesso a risorse educative e a testi fondamentali, come quelli di Albert & Hu (2019), Johnson et al. (2022), McElreath (2020) e Kruschke (2014), che hanno reso la modellizzazione bayesiana più accessibile, chiarendo i concetti centrali in modo pratico e comprensibile.

L’approccio bayesiano si distingue dalla metodologia frequentista tradizionale per la sua capacità di trattare i parametri di interesse come quantità probabilistiche. Invece di considerare i parametri come valori fissi e sconosciuti (come avviene nel paradigma frequentista), il bayesianesimo assegna ai parametri una distribuzione a priori, che rappresenta le credenze iniziali del ricercatore. Man mano che nuovi dati vengono raccolti, queste credenze vengono aggiornate tramite il teorema di Bayes, portando a una distribuzione a posteriori che riflette sia le informazioni pregresse sia l’evidenza empirica. Questa distribuzione aggiornata consente di esprimere l’incertezza sui parametri in modo più completo e informato.

Uno dei principali vantaggi dell’approccio bayesiano è la sua capacità di combinare conoscenze pregresse con nuove osservazioni in modo fluido e sistematico. Ogni nuova informazione arricchisce e raffina le stime, rendendole più accurate e interpretabili nel contesto del problema specifico. Questo non solo migliora la precisione delle inferenze, ma permette anche una migliore comprensione dell’incertezza che circonda i parametri studiati.

In definitiva, l’inferenza bayesiana non è solo uno strumento analitico, ma un approccio dinamico che incoraggia un’interazione continua tra teoria ed evidenza. Offrendo una flessibilità unica e una gestione esplicita dell’incertezza, il bayesianesimo si rivela un metodo potente per supportare il processo decisionale in contesti complessi, rendendo le sue applicazioni particolarmente rilevanti in campi come la psicologia, dove l’incertezza è una componente inevitabile dell’analisi dei dati.

Informazioni sull’Ambiente di Sviluppo

sessionInfo()
#> R version 4.4.2 (2024-10-31)
#> Platform: aarch64-apple-darwin20
#> Running under: macOS Sequoia 15.3.1
#> 
#> Matrix products: default
#> BLAS:   /Library/Frameworks/R.framework/Versions/4.4-arm64/Resources/lib/libRblas.0.dylib 
#> LAPACK: /Library/Frameworks/R.framework/Versions/4.4-arm64/Resources/lib/libRlapack.dylib;  LAPACK version 3.12.0
#> 
#> locale:
#> [1] C/UTF-8/C/C/C/C
#> 
#> time zone: Europe/Rome
#> tzcode source: internal
#> 
#> attached base packages:
#> [1] stats     graphics  grDevices utils     datasets  methods   base     
#> 
#> other attached packages:
#>  [1] thematic_0.1.6   MetBrewer_0.2.0  ggokabeito_0.1.0 see_0.10.0      
#>  [5] gridExtra_2.3    patchwork_1.3.0  bayesplot_1.11.1 psych_2.4.12    
#>  [9] scales_1.3.0     markdown_1.13    knitr_1.49       lubridate_1.9.4 
#> [13] forcats_1.0.0    stringr_1.5.1    dplyr_1.1.4      purrr_1.0.4     
#> [17] readr_2.1.5      tidyr_1.3.1      tibble_3.2.1     ggplot2_3.5.1   
#> [21] tidyverse_2.0.0  rio_1.2.3        here_1.0.1      
#> 
#> loaded via a namespace (and not attached):
#>  [1] generics_0.1.3    stringi_1.8.4     lattice_0.22-6    hms_1.1.3        
#>  [5] digest_0.6.37     magrittr_2.0.3    evaluate_1.0.3    grid_4.4.2       
#>  [9] timechange_0.3.0  fastmap_1.2.0     rprojroot_2.0.4   jsonlite_1.9.1   
#> [13] mnormt_2.1.1      cli_3.6.4         rlang_1.1.5       munsell_0.5.1    
#> [17] withr_3.0.2       yaml_2.3.10       tools_4.4.2       parallel_4.4.2   
#> [21] tzdb_0.4.0        colorspace_2.1-1  pacman_0.5.1      vctrs_0.6.5      
#> [25] R6_2.6.1          lifecycle_1.0.4   htmlwidgets_1.6.4 pkgconfig_2.0.3  
#> [29] pillar_1.10.1     gtable_0.3.6      glue_1.8.0        xfun_0.51        
#> [33] tidyselect_1.2.1  rstudioapi_0.17.1 farver_2.1.2      htmltools_0.5.8.1
#> [37] nlme_3.1-167      labeling_0.4.3    rmarkdown_2.29    compiler_4.4.2

Bibliografia

Albert, J., & Hu, J. (2019). Probability and Bayesian Modeling. CRC Press.
Baribault, B., & Collins, A. G. (2023). Troubleshooting Bayesian cognitive models. Psychological Methods.
Freiesleben, T., & Molnar, C. (2024). Supervised Machine Learning for Science: How to stop worrying and love your black box. https://ml-science-book.com/
Goligher, E. C., Heath, A., & Harhay, M. O. (2024). Bayesian statistics for clinical research. The Lancet, 404(10457), 1067–1076. https://doi.org/10.1016/S0140-6736(24)00055-9
Jaynes, E. T. (2003). Probability theory: The logic of science. Cambridge University Press.
Johnson, A. A., Ott, M., & Dogucu, M. (2022). Bayes Rules! An Introduction to Bayesian Modeling with R. CRC Press.
Kruschke, J. (2014). Doing Bayesian data analysis: A tutorial with R, JAGS, and Stan. Academic Press.
McElreath, R. (2020). Statistical rethinking: A Bayesian course with examples in R and Stan (2nd Edition). CRC Press.
Schervish, M. J., & DeGroot, M. H. (2014). Probability and statistics (Vol. 563). Pearson Education London, UK: