12  Distribuzioni di variabili casuali discrete

Introduzione

Come discusso nel Capitolo 11, le distribuzioni di probabilità sono strumenti epistemici che permettono di rappresentare formalmente l’incertezza. In questo capitolo ci concentreremo sulle distribuzioni discrete, utilizzate per modellare fenomeni con esiti numerabili, come conteggi, scelte categoriali ed eventi binari.

Nel framework bayesiano, le distribuzioni discrete svolgono tre ruoli strettamente interconnessi. In qualità di verosimiglianza, descrivono il modo in cui i dati osservati vengono generati in funzione di un determinato valore del parametro. Come distribuzioni a priori e a posteriori, rappresentano le nostre credenze sui parametri prima e dopo l’osservazione dei dati. Infine, come distribuzioni predittive, esprimono le nostre aspettative riguardo alle osservazioni future, integrando l’incertezza sui parametri con la struttura del modello.

In questa prospettiva, i parametri delle distribuzioni, come \(p\) nella distribuzione binomiale o \(\lambda\) nella distribuzione di Poisson, non sono valori da “scoprire”, ma quantità su cui siamo più o meno incerti. L’inferenza bayesiana permette di descrivere questa incertezza e di aggiornarla in modo coerente sulla base dei dati osservati.

Una nota importante: quando presentiamo le distribuzioni discrete come Bernoulli, Binomiale e Poisson, lavoriamo inizialmente con la verosimiglianza condizionale \(P(\text{dati}|\theta)\), dove \(\theta\) (es. \(p\) o \(\lambda\)) è condizionato su un valore specifico. Questo non significa che \(\theta\) sia “noto” o “fisso” in senso ontologico, ma solo che stiamo calcolando la probabilità dei dati per un dato valore del parametro. In seguito vedremo come integrare l’incertezza su \(\theta\) attraverso le distribuzioni predittive, dove \(\theta\) viene marginalizzato anziché condizionato.

Per seguire questo capitolo è necessario aver letto:

Questo capitolo studia in dettaglio le distribuzioni discrete (Bernoulli, Binomiale, Poisson) essenziali per modellare conteggi, eventi binari e fenomeni psicologici discreti.

Conoscenze matematiche richieste:

here::here("code", "_common.R") |> 
  source()
library(reshape2)
library(VGAM)
library(extraDistr)

12.1 Funzioni R per le distribuzioni

Per ogni distribuzione, R fornisce quattro funzioni con prefissi standardizzati:

# Esempio con binomiale: n=10 prove, p=0.6 probabilità di successo

# d = densità (massa di probabilità)
dbinom(7, size = 10, prob = 0.6)  # P(X = 7)
#> [1] 0.215

# p = probabilità cumulativa  
pbinom(7, size = 10, prob = 0.6)  # P(X ≤ 7)
#> [1] 0.833

# q = quantile
qbinom(0.95, size = 10, prob = 0.6)  # 95° percentile
#> [1] 8

# r = generazione casuale
rbinom(5, size = 10, prob = 0.6)  # 5 simulazioni
#> [1] 8 6 7 7 5

Nell’inferenza bayesiana, la funzione d viene utilizzata per calcolare la verosimiglianza, mentre la funzione r permette di simulare dalla distribuzione predittiva.

12.2 Distribuzione uniforme discreta

12.2.1 Definizione

Definizione 12.1 Una variabile casuale \(X\) ha distribuzione uniforme discreta su \({1,\ldots,N}\) se a ciascun valore possibile viene assegnata la stessa probabilità:

\[ X \sim \text{Uniforme-Discreta}(N), \qquad P(X = x) = \frac{1}{N} \quad \text{per } x \in {1,\ldots,N}. \]

Proprietà: \[ \mathbb{E}(X) = \frac{N+1}{2}, \qquad \mathbb{V}(X) = \frac{N^2 - 1}{12}. \]

12.2.1.1 Interpretazione epistemica

La distribuzione uniforme discreta implementa il principio di indifferenza: quando non vi sono informazioni che discriminino tra le alternative, tutte le possibilità sono trattate come equiprobabili. La distribuzione uniforme riflette uno stato informativo simmetrico rispetto agli esiti, non una caratteristica oggettiva del sistema osservato.

12.2.2 Ruolo nell’inferenza bayesiana

Nel paradigma bayesiano, la distribuzione uniforme discreta svolge un ruolo fondamentale come distribuzione a priori non informativa su spazi parametrici finiti. Quando ci troviamo di fronte a un insieme di \(K\) ipotesi o modelli alternativi, e non disponiamo di alcuna informazione preliminare che favorisca specifiche alternative, la scelta più neutrale consiste nell’attribuire a ciascuna ipotesi la medesima probabilità iniziale:

\[ P(M_k) = \frac{1}{K}, \qquad k = 1, \ldots, K. \]

Questa assegnazione formalizza esplicitamente l’indifferenza epistemica tra le opzioni disponibili, assicurando che l’evidenza empirica derivante dai dati sia l’unico fattore a guidare l’aggiornamento delle credenze attraverso il teorema di Bayes.

Il lancio di un dado a sei facce rappresenta l’esempio paradigmatico di distribuzione uniforme discreta. Nell’ipotesi di perfetta simmetria del dado, ogni esito \(\{1, 2, 3, 4, 5, 6\}\) ha probabilità pari a \(1/6\).

# Simulazione di lanci di dado
set.seed(42)
N <- 6
n_lanci <- 10000
lanci <- sample(1:N, size = n_lanci, replace = TRUE)
# Confronto tra valori teorici ed empirici
media_teorica <- (N + 1) / 2
varianza_teorica <- (N^2 - 1) / 12

cat("Confronto statistico:\n")
#> Confronto statistico:
cat("  • Media:\n")
#>   • Media:
cat("     Teorica:", media_teorica, "\n")
#>      Teorica: 3.5
cat("     Empirica:", round(mean(lanci), 4), "\n\n")
#>      Empirica: 3.46
cat("  • Varianza:\n")
#>   • Varianza:
cat("     Teorica:", round(varianza_teorica, 4), "\n")
#>      Teorica: 2.92
cat("     Empirica:", round(var(lanci), 4))
#>      Empirica: 2.87
# Visualizzazione della distribuzione empirica
ggplot(data.frame(Esito = lanci), aes(x = factor(Esito))) +
  geom_bar(aes(y = ..prop.., group = 1), alpha = 0.8) +
  geom_hline(yintercept = 1/N, linetype = "dashed", linewidth = 1) +
  scale_y_continuous(labels = scales::percent_format()) +
  scale_fill_qualitative() +
  labs(
    title = "Distribuzione empirica di 10.000 lanci di dado",
    subtitle = paste("Linea tratteggiata: probabilità teorica uniforme (",
                     round(100/N, 1), "%)", sep = ""),
    x = "Esito del lancio",
    y = "Frequenza relativa"
  ) 

Nota🧠 Applicazioni nella psicologia e nella ricerca sperimentale

Contesti di utilizzo tipici:

  • Assegnazione casuale: la distribuzione uniforme viene utilizzata per modellare la randomizzazione dei partecipanti in \(K\) condizioni sperimentali, assumendo che ciascuna condizione abbia la stessa probabilità di essere assegnata. Questa procedura contribuisce a ridurre bias sistematici e a garantire la validità interna dello studio.

  • Prior non informativo: in assenza di informazioni preliminari che favoriscano una specifica ipotesi teorica, una distribuzione uniforme su un insieme finito di ipotesi rappresenta una scelta iniziale neutrale e metodologicamente trasparente.

  • Campionamento di item: quando stimoli, item o prove vengono selezionati casualmente da un insieme finito e ciascun elemento ha la stessa probabilità di essere scelto, la variabile casuale associata alla selezione può essere descritta mediante una distribuzione uniforme discreta.

  • Modelli di scelta: in alcuni compiti decisionali, la distribuzione uniforme è impiegata come modello di riferimento per rappresentare scelte puramente casuali, in assenza di preferenze sistematiche.

Esempio sperimentale: in un esperimento di psicologia sociale con quattro condizioni sperimentali, l’assegnazione dei partecipanti può essere modellata assumendo una distribuzione uniforme discreta sui valori \({1, 2, 3, 4}\). In questo modo, ciascuna condizione ha la stessa probabilità di essere selezionata, indipendentemente dalle caratteristiche individuali dei partecipanti.

Nota metodologica fondamentale: l’assunzione di equiprobabilità non implica che il fenomeno studiato sia intrinsecamente “casuale” o privo di struttura. Piuttosto, essa rappresenta una scelta modellistica esplicita, che riflette uno stato di incertezza iniziale o l’assenza di informazioni rilevanti sulle probabilità relative degli esiti possibili.

12.3 Distribuzione di Bernoulli

12.3.1 Definizione

Definizione 12.2 Una variabile casuale \(X\) segue una distribuzione di Bernoulli se può assumere solo due valori possibili, convenzionalmente codificati come 1 (“successo”) e 0 (“insuccesso”). La probabilità di successo è indicata con \(p\), mentre la probabilità di insuccesso è \(1 - p\):

\[ X \sim \text{Bernoulli}(p), \qquad P(X = x) = p^x (1-p)^{1-x}, \quad x \in {0,1}. \]

Proprietà: \[ \mathbb{E}(X) = p, \qquad \mathbb{V}(X) = p(1-p). \]

La distribuzione di Bernoulli rappresenta il modello probabilistico più semplice per descrivere fenomeni aleatori dicotomici, nei quali ogni osservazione corrisponde a un singolo esito binario.

12.3.1.1 Interpretazione epistemica

Il parametro \(p\) rappresenta la probabilità associata all’esito etichettato come “successo”. Dal punto di vista epistemico, (p) può essere interpretato come il grado di credenza o l’informazione disponibile circa il verificarsi di tale esito, prima dell’osservazione dei dati.

In ambito psicologico e sperimentale, la distribuzione di Bernoulli è frequentemente utilizzata per modellare eventi come risposte corrette/errate, presenza/assenza di un comportamento, decisioni sì/no o superamento/fallimento di una prova. In tutti questi casi, l’incertezza riguarda un singolo evento e non una sequenza di prove.

12.3.2 Ruolo nell’inferenza bayesiana

La distribuzione di Bernoulli costituisce il modello di base per l’analisi di dati binari ed è un elemento fondamentale nell’inferenza bayesiana. In particolare, essa descrive il meccanismo generativo di ciascuna osservazione individuale, mentre l’aggregazione di più prove indipendenti conduce naturalmente alla distribuzione binomiale, trattata nel paragrafo successivo.

Nell’approccio bayesiano, il parametro \(p\) è considerato una variabile casuale e viene tipicamente modellato mediante una distribuzione Beta, che funge da prior coniugato. Questa scelta consente di aggiornare le credenze su \(p\) in modo analitico, combinando informazione a priori e dati osservati in maniera coerente e trasparente.

Nota🧠 Applicazioni nella psicologia e nelle scienze comportamentali

Contesti tipici di utilizzo:

  • Item di test cognitivi: risposta corretta o errata a una singola domanda.
  • Diagnosi psicopatologiche: presenza o assenza di uno specifico sintomo (ad es. attacchi di panico nella settimana precedente).
  • Screening clinici: esito positivo o negativo a strumenti di valutazione diagnostica (ad es. test per il PTSD).
  • Scelte comportamentali: decisioni dicotomiche, come accettare o rifiutare una proposta.
  • Osservazioni comportamentali: occorrenza o non occorrenza di un comportamento target (ad es. fare una pausa durante l’esecuzione di un compito).

Esempio concreto.

Un partecipante completa un test di memoria episodica composto da 10 item. Ciascuna risposta viene modellata come \[ X_i \sim \text{Bernoulli}(p), \] dove \(p\) rappresenta la probabilità di ricordare correttamente un singolo item. In questo contesto, la competenza mnestica del partecipante è sintetizzata dal valore del parametro \(p\).

Scelta del prior bayesiano:

  • Prior non informativo: \(\text{Beta}(1,1)\), che corrisponde a una distribuzione uniforme sull’intervallo \([0,1]\).
  • Prior informativo: \(\text{Beta}(\alpha, \beta)\), con i parametri \(\alpha\) e \(\beta\) scelti sulla base di dati normativi o di risultati provenienti da studi precedenti sulla difficoltà del compito.

Consideriamo un test diagnostico con sensibilità pari a 0.85, ossia con probabilità \(p = 0.85\) di fornire un risultato positivo quando la condizione è presente. Ogni singolo esito del test può essere modellato come una variabile di Bernoulli.

# Test diagnostico con sensibilità 0.85
p_sens <- 0.85
set.seed(123)
risultati <- rbinom(1000, size = 1, prob = p_sens)
cat("Proporzione campionaria di test positivi:",
    round(mean(risultati), 3), "\n")
#> Proporzione campionaria di test positivi: 0.853
cat("Valore teorico:", p_sens)
#> Valore teorico: 0.85

La simulazione mostra che, su un numero elevato di osservazioni, la proporzione campionaria di esiti positivi si avvicina al valore del parametro \(p\). Tuttavia, per campioni più piccoli, tale proporzione può variare sensibilmente, riflettendo l’incertezza intrinseca associata alle singole osservazioni binarie.

12.4 Distribuzione binomiale

12.4.1 Dalla Bernoulli alla binomiale

La distribuzione binomiale nasce come estensione naturale della distribuzione di Bernoulli al caso di più osservazioni indipendenti. Comprenderne la costruzione passo per passo aiuta a chiarire il significato della sua formula e delle sue componenti.

Supponiamo di osservare \(n\) prove indipendenti, ciascuna caratterizzata da due soli esiti possibili:

  • successo \(1\), con probabilità \(p\);
  • insuccesso \(0\), con probabilità \(1 - p\).

L’obiettivo è descrivere la probabilità di osservare un determinato numero totale di successi al termine delle \(n\) prove.

12.4.2 Passo 1 — Probabilità di una sequenza specifica

Consideriamo una sequenza ordinata di \(n\) esiti che contenga esattamente \(k\) successi e \(n-k\) insuccessi. Poiché le prove sono indipendenti, la probabilità di osservare quella specifica sequenza è data dal prodotto delle probabilità dei singoli esiti:

\[ p^k (1-p)^{n-k}. \] Questa probabilità è identica per qualsiasi sequenza che presenti \(k\) successi, indipendentemente dall’ordine in cui essi compaiono.

12.4.3 Passo 2 — Conteggio delle sequenze possibili

Nella maggior parte delle applicazioni non interessa l’ordine degli esiti, ma solo quanti successi si verificano complessivamente. È quindi necessario contare quante sequenze distinte di lunghezza \(n\) contengono esattamente \(k\) successi.

Questo numero è fornito dal coefficiente binomiale:

\[ \binom{n}{k}, \] che rappresenta il numero di modi in cui è possibile scegliere \(k\) posizioni di successo tra le \(n\) prove disponibili.

12.4.4 Passo 3 — Probabilità di \(k\) successi

Le sequenze che contengono \(k\) successi sono:

  • tutte equiprobabili;
  • mutuamente esclusive.

La probabilità di osservare esattamente \(k\) successi è quindi ottenuta sommando le probabilità di tutte queste sequenze:

\[ P(X = k) = \binom{n}{k} p^k (1-p)^{n-k}. \]

Questa espressione costituisce la funzione di massa di probabilità della distribuzione binomiale.

NotaIdea chiave

La distribuzione binomiale nasce dalla combinazione di due componenti fondamentali:

  • Componente probabilistica \(p^k (1-p)^{n-k}\): probabilità associata a una specifica configurazione di successi e insuccessi.

  • Componente combinatoria \(\binom{n}{k}\): numero di configurazioni distinte che producono lo stesso numero totale di successi.

La probabilità binomiale è il prodotto di questi due fattori.

12.4.5 Definizione

Definizione 12.3 Una variabile casuale \(X\) che rappresenta il numero di successi osservati in \(n\) prove indipendenti di Bernoulli, ciascuna con probabilità di successo \(p\), segue una distribuzione binomiale:

\[ X \sim \mathrm{Binomiale}(n, p), \qquad P(X = k) = \binom{n}{k} p^k (1-p)^{n-k}, \quad k = 0,1,\dots,n. \]

Momenti principali: \[ \mathbb{E}(X) = np, \qquad \mathbb{V}(X) = np(1-p). \]

12.4.5.1 Interpretazione epistemica

La distribuzione binomiale rappresenta le nostre credenze sul numero di successi quando:

  • il numero di prove \(n\) è noto;
  • il parametro \(p\) esprime l’incertezza sulla probabilità di successo di ciascuna singola prova.

Il coefficiente binomiale riflette il fatto che molti pattern distinti di esiti possono condurre allo stesso conteggio complessivo di successi.

12.4.6 Ruolo nell’inferenza bayesiana

La distribuzione binomiale costituisce la verosimiglianza fondamentale per dati binari aggregati. Osservati \(y\) successi su \(n\) prove, la verosimiglianza per il parametro \(p\) è:

\[ L(p \mid y,n) \propto p^y (1-p)^{n-y}. \]

Assumendo una prior beta:

\[ p \sim \mathrm{Beta}(\alpha,\beta), \] la distribuzione a posteriori risulta ancora una beta:

\[ p \mid y \sim \mathrm{Beta}(\alpha + y,\; \beta + n - y). \]

Questa relazione di coniugazione rende l’aggiornamento delle credenze particolarmente semplice: i dati osservati si traducono in un incremento diretto degli pseudo-conteggi associati alla prior.

# Dati osservati: 23 successi su 30 prove
n <- 30
y <- 23

# Prior: Beta(2, 2) - moderatamente informativa, centrata su 0.5
alpha_prior <- 2
beta_prior <- 2

# Posterior: Beta(25, 9)
alpha_post <- alpha_prior + y
beta_post <- beta_prior + (n - y)

# Visualizzazione
p_seq <- seq(0, 1, length.out = 1000)

df <- data.frame(
  p = rep(p_seq, 2),
  densita = c(dbeta(p_seq, alpha_prior, beta_prior), 
              dbeta(p_seq, alpha_post, beta_post)),
  tipo = rep(c("Prior Beta(2,2)", "Posterior Beta(25,9)"), each = length(p_seq))
)

ggplot(df, aes(x = p, y = densita, color = tipo)) +
  geom_line(linewidth = 1.2) +
  scale_fill_qualitative() +
  labs(
    title = "Aggiornamento Bayesiano: Beta-Binomiale",
    subtitle = "23 successi su 30 prove",
    x = "p", y = "Densità"
  ) 

cat("Media prior:", round(alpha_prior/(alpha_prior + beta_prior), 3), "\n")
#> Media prior: 0.5
cat("Media posterior:", round(alpha_post/(alpha_post + beta_post), 3), "\n")
#> Media posterior: 0.735

La distribuzione a posteriori si concentra attorno a \(p \approx 0.74\), mostrando una notevole riduzione dell’incertezza rispetto alla prior. Ciò riflette l’aggiornamento coerente delle credenze alla luce dei 23 successi osservati.

Nota🧠 Applicazioni in psicologia

Contesti tipici di utilizzo:

  • Test cognitivi: punteggio totale su \(n\) item (ad es. 18 risposte corrette su 20).
  • Scale diagnostiche: numero di sintomi positivi in una checklist (ad es. 5 su 9 criteri del DSM-5).
  • Compiti ripetuti: risposte corrette in prove multiple (ad es. 7 richiami corretti su 10 prove).
  • Monitoraggio longitudinale: conteggio di comportamenti target in periodi definiti (ad es. 22 giorni di aderenza terapeutica su 30).

Esempio: un partecipante risponde a 25 item Vero/Falso, ciascuno con probabilità di risposta corretta \(p = 0.7\). Il punteggio totale segue una distribuzione binomiale \(\mathrm{Binom}(25, 0.7)\).

Approccio bayesiano: per il parametro \(p\), la distribuzione Beta è il prior coniugato. Alcune configurazioni tipiche sono:

  • \(\mathrm{Beta}(1,1)\): prior non informativo (uniforme su \([0,1]\));
  • \(\mathrm{Beta}(5,5)\): prior debolmente informativo, centrato intorno a \(p \approx 0.5\);
  • \(\mathrm{Beta}(20,10)\): prior informativo, con aspettativa \(\mathbb{E}[p] \approx 0.67\).

Relazione strutturale: la distribuzione binomiale può essere interpretata come la somma di \(n\) variabili di Bernoulli indipendenti e identicamente distribuite.

12.5 Distribuzione di Poisson

12.5.1 Quando ha senso usare la distribuzione di Poisson

La distribuzione di Poisson viene utilizzata per modellare il numero di eventi che si verificano in un intervallo di tempo o di spazio, quando sono soddisfatte le seguenti condizioni:

  • gli eventi sono rari rispetto all’ampiezza dell’intervallo considerato;
  • gli eventi si verificano indipendentemente l’uno dall’altro;
  • la probabilità che due o più eventi avvengano simultaneamente è trascurabile.

Esempi tipici in psicologia includono il numero di attacchi di panico in un mese, il numero di errori in un compito di attenzione sostenuta (es. CPT), il numero di comportamenti autolesionistici in una settimana, o il numero di risvegli notturni in pazienti con disturbi del sonno.

12.5.2 Definizione

Definizione 12.4 Una variabile casuale \(Y\) segue una distribuzione di Poisson con parametro \(\lambda > 0\) se la probabilità di osservare \(y\) eventi è:

\[ Y \sim \text{Poisson}(\lambda), \qquad P(Y = y) = \frac{\lambda^y e^{-\lambda}}{y!}, \quad y = 0, 1, 2, \ldots \]

Proprietà caratteristica: \[ \mathbb{E}(Y) = \mathbb{V}(Y) = \lambda. \]

12.5.2.1 Interpretazione epistemica

Il parametro \(\lambda\) rappresenta il tasso medio atteso di occorrenza degli eventi nell’intervallo considerato. Ad esempio, affermare che \(\lambda = 0.7\) significa ritenere che, in media, ci si aspetti meno di un evento per intervallo, pur ammettendo che possano verificarsi anche eventi multipli.

La proprietà \(\mathbb{E}(Y) = \mathbb{V}(Y)\) prende il nome di equidispersione e costituisce un’assunzione forte del modello. Nei dati psicologici e comportamentali è tuttavia frequente osservare sovradispersione, ossia una varianza maggiore della media. In tali situazioni, la distribuzione di Poisson può risultare inadeguata e vengono spesso preferiti modelli più flessibili, come la distribuzione binomiale negativa.

NotaIdea chiave della distribuzione di Poisson

La distribuzione di Poisson non modella se un evento si verifica, ma quante volte si verifica in un dato intervallo, assumendo eventi rari e indipendenti nel tempo o nello spazio.

12.5.3 Ruolo nell’inferenza bayesiana

Nel framework bayesiano, la distribuzione di Poisson svolge il ruolo di verosimiglianza per dati di conteggio. Il parametro \(\lambda\) è trattato come una quantità incerta, su cui esprimere una distribuzione a priori.

La distribuzione coniugata per \(\lambda\) è la distribuzione Gamma, che consente un aggiornamento analiticamente semplice delle credenze.

Coniugazione Gamma–Poisson. Se \[ \lambda \sim \text{Gamma}(\alpha, \beta), \] e osserviamo conteggi indipendenti \(y_1, \ldots, y_n\), allora la distribuzione a posteriori è:

\[ \lambda \mid \mathbf{y} \sim \text{Gamma}\left(\alpha + \sum_{i=1}^n y_i,\; \beta + n\right). \]

L’aggiornamento è intuitivo:

  • il numero totale di eventi osservati aggiorna il parametro di forma;
  • il numero di intervalli osservati aggiorna il parametro di scala (o tasso).
Nota🧠 Applicazioni in psicologia

Quando è tipicamente utile:

  • Eventi rari nel tempo (conteggi su un intervallo):

    • attacchi di panico in un mese;
    • errori di omissione in un compito di vigilanza;
    • accessi al pronto soccorso per crisi psicotiche in una settimana.
  • Conteggi con esposizione variabile (tassi: eventi per unità di “tempo di esposizione”):

    • parole richiamate per minuto di studio;
    • click su uno stimolo target per secondo di esposizione.

Esempio clinico Un paziente con disturbo d’ansia presenta una frequenza media di \(\lambda = 2.5\) attacchi di panico al mese. Il numero di attacchi osservati in un periodo di 30 giorni può essere modellato come:

\[ Y \sim \mathrm{Poisson}(2.5). \]

Inferenza bayesiana Per il parametro \(\lambda\), la famiglia \(\mathrm{Gamma}(\alpha,\beta)\) è il prior coniugato. In questa parametrizzazione:

  • \(\alpha\) rappresenta uno “pseudo-conteggio” di eventi;
  • \(\beta\) rappresenta una “pseudo-durata” dell’osservazione.

Ad esempio, una prior \(\mathrm{Gamma}(5, 2)\) equivale a una credenza simile a “5 eventi osservati in 2 mesi”.

Distinzione chiave

  • Binomiale: numero fisso di prove → conteggio dei successi;
  • Poisson: eventi rari e indipendenti → conteggio delle occorrenze in un intervallo continuo (tempo o spazio).

Un esempio classico di applicazione della distribuzione di Poisson è il dataset di von Bortkiewicz sui decessi causati da calci di cavallo nell’esercito prussiano, spesso citato come prototipo di processo con eventi rari e indipendenti.

# Dati storici
decessi <- 0:4
freq_oss <- c(109, 65, 22, 3, 1)
n_tot <- sum(freq_oss)

# Stima del tasso medio
lambda_mle <- sum(decessi * freq_oss) / n_tot

data.frame(
  Decessi = decessi,
  Frequenza_osservata = round(freq_oss / n_tot, 4),
  Prob_Poisson = round(dpois(decessi, lambda = lambda_mle), 4)
)
#>   Decessi Frequenza_osservata Prob_Poisson
#> 1       0               0.545       0.5434
#> 2       1               0.325       0.3314
#> 3       2               0.110       0.1011
#> 4       3               0.015       0.0206
#> 5       4               0.005       0.0031

L’elevata corrispondenza tra le frequenze osservate e le probabilità teoriche suggerisce che il processo generativo sia compatibile con le assunzioni della distribuzione di Poisson.

12.5.4 Aggiornamento bayesiano del tasso

# Prior debolmente informativa
alpha_prior <- 0.5
beta_prior <- 1

# Totale eventi osservati
y_tot <- sum(decessi * freq_oss)

# Posterior
alpha_post <- alpha_prior + y_tot
beta_post <- beta_prior + n_tot

# Stima a posteriori
lambda_post <- alpha_post / beta_post
IC_95 <- qgamma(c(0.025, 0.975), alpha_post, beta_post)
cat("Media a posteriori di λ:", round(lambda_post, 3), "\n")
#> Media a posteriori di λ: 0.609
cat("Intervallo di credibilità 95%: [",
    round(IC_95[1], 3), ", ",
    round(IC_95[2], 3), "]\n", sep = "")
#> Intervallo di credibilità 95%: [0.506, 0.722]

La distribuzione a posteriori fornisce una stima coerente del tasso di occorrenza e quantifica in modo esplicito l’incertezza residua sul parametro \(\lambda\).

Avvertenza per il lettore

Questa sezione introduce un concetto che verrà sviluppato in modo sistematico nei capitoli successivi. La sua comprensione completa richiede familiarità con:

  • la distribuzione Beta (trattata nel prossimo capitolo),
  • l’integrazione per marginalizzazione,
  • le distribuzioni predittive e i modelli gerarchici.

È del tutto legittimo saltare questa sezione e tornarci dopo aver studiato le distribuzioni continue. È inclusa come anticipazione concettuale per il lettore curioso, ma non è necessaria per proseguire.

Da verosimiglianza condizionale a distribuzione predittiva

Quando modelliamo \(Y \sim \text{Binomiale}(n, p)\), lavoriamo tipicamente con la verosimiglianza condizionale:

\[ P(Y = k \mid p) = \binom{n}{k} p^k (1-p)^{n-k} \]

Questa formula ci dice: “Qual è la probabilità di osservare \(k\) successi, dato un valore specifico del parametro \(p\)?” Qui \(p\) è condizionato: stiamo calcolando la verosimiglianza per un particolare valore di \(p\), non perché \(p\) sia “noto” o “oggettivamente fisso”, ma perché questa è la struttura della verosimiglianza.

Tuttavia, nell’approccio bayesiano, \(p\) è una quantità incerta su cui abbiamo una distribuzione di credenza. Quando vogliamo fare previsioni sui dati futuri senza fissare un valore specifico di \(p\), dobbiamo integrare la nostra incertezza su \(p\) attraverso la sua distribuzione a priori.

Dalla condizionalità alla marginalizzazione

Se rappresentiamo la nostra incertezza su \(p\) con una distribuzione Beta:

\[ p \sim \text{Beta}(\alpha, \beta) \] e vogliamo calcolare la probabilità di osservare \(k\) successi integrando su tutti i possibili valori di \(p\), dobbiamo calcolare la distribuzione predittiva a priori:

\[ P(Y = k) = \int_0^1 P(Y = k \mid p) \cdot P(p) \, dp = \int_0^1 \binom{n}{k} p^k (1-p)^{n-k} \cdot \frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)} p^{\alpha-1}(1-p)^{\beta-1} \, dp \]

Questo integrale, sebbene tecnicamente complesso, produce una forma chiusa nota come distribuzione beta-binomiale:

\[ Y \sim \text{BetaBinomiale}(n, \alpha, \beta) \] con funzione di massa:

\[ P(Y = k) = \binom{n}{k} \frac{B(k + \alpha, n - k + \beta)}{B(\alpha, \beta)} \] dove \(B(\cdot, \cdot)\) è la funzione beta.

Interpretazione epistemica

La transizione da binomiale a beta-binomiale riflette un cambiamento di prospettiva:

  • Verosimiglianza condizionale \(P(Y \mid p)\): “Quant’è probabile osservare \(k\) successi condizionando su un valore specifico \(p\)?”
    • Risposta: distribuzione Binomiale
    • \(p\) è trattato come parametro condizionato
  • Distribuzione predittiva \(P(Y)\): “Quant’è probabile osservare \(k\) successi prima di sapere quale sia il valore di \(p\)?”
    • Risposta: distribuzione Beta-Binomiale
    • \(p\) è marginalizzato (integrato via) per riflettere l’incertezza

Entrambe sono perfettamente coerenti con l’approccio bayesiano: nella prima condizioniamo su \(p\) per strutturare la verosimiglianza, nella seconda marginalizziamo su \(p\) per fare previsioni che tengano conto dell’incertezza sul parametro.

Simulazione in R

In R, la distribuzione beta-binomiale è disponibile tramite il pacchetto extraDistr:

# Simulazione: confronto tra binomiale (p fisso) e beta-binomiale (p incerto)
set.seed(42)
n <- 20  # numero di prove

# Scenario 1: Binomiale con p fissato a 0.3
# (come se sapessimo con certezza che p = 0.3)
p_fisso <- 0.3
y_bin <- rbinom(n = 10000, size = n, prob = p_fisso)

# Scenario 2: Beta-binomiale con p ~ Beta(3, 7)
# (rappresenta incertezza su p, con E[p] ≈ 0.3 ma varianza positiva)
alpha <- 3
beta <- 7
y_bb <- rbbinom(n = 10000, size = n, alpha = alpha, beta = beta)

Confrontiamo le distribuzioni:

# Preparazione dati per visualizzazione
df_comparison <- data.frame(
  k = 0:n,
  Binomiale = dbinom(0:n, size = n, prob = p_fisso),
  BetaBinomiale = dbbinom(0:n, size = n, alpha = alpha, beta = beta)
) |> 
  pivot_longer(cols = c(Binomiale, BetaBinomiale), 
               names_to = "Modello", 
               values_to = "Probabilità")

# Visualizzazione
ggplot(df_comparison, aes(x = k, y = Probabilità, fill = Modello)) +
  geom_col(position = "dodge", alpha = 0.8) +
  scale_fill_qualitative() +
  labs(
    title = "Confronto: Binomiale vs Beta-Binomiale",
    subtitle = bquote("Binomiale:" ~ p == 0.3 ~ "(fisso)"  ~ "|" ~ 
                      "Beta-Binomiale:" ~ p %~% Beta(3,7) ~ "(incerto)"),
    x = "Numero di successi (k)",
    y = "Probabilità P(Y = k)"
  ) +
  theme(legend.position = "top")

Osservazione chiave: la beta-binomiale presenta code più pesanti e una distribuzione più dispersa rispetto alla binomiale. Questo riflette l’ulteriore fonte di incertezza: non solo la variabilità campionaria (binomiale), ma anche l’incertezza sul valore del parametro \(p\) stesso.

La sovradispersione come firma dell’incertezza parametrica

Confrontiamo le varianze empiriche:

cat("Beta-Binomiale - Varianza:", round(var(y_bb), 3), "\n")
#> Beta-Binomiale - Varianza: 11.8
cat("Binomiale (p condizionato) - Varianza:", round(var(y_bin), 3), "\n")
#> Binomiale (p condizionato) - Varianza: 4.29

Interpretazione: la beta-binomiale anticipa una maggiore dispersione, poiché integra due fonti di incertezza:

  1. Variabilità campionaria: la fluttuazione casuale nel numero di successi (presente in entrambi i modelli).
  2. Incertezza parametrica: il fatto che non sappiamo esattamente quale sia il valore di \(p\) (presente solo nella beta-binomiale).

Questa “varianza extra” rispetto alla binomiale standard è detta sovradispersione ed è una caratteristica distintiva delle distribuzioni predittive.

Dove riapparirà nel manuale

La distribuzione beta-binomiale, e più in generale il concetto di distribuzione predittiva, ricomparirà in tre contesti fondamentali:

  1. Distribuzioni predittive bayesiane, quando si vogliono prevedere nuove osservazioni integrando l’incertezza a posteriori sui parametri dopo aver osservato dati.

  2. Sovradispersione nei dati empirici, quando la variabilità osservata eccede quella prevista dalla binomiale standard, segnalando che è necessario modellare l’eterogeneità tra unità di osservazione.

  3. Modelli gerarchici, quando ogni unità (persona, gruppo, item) possiede il proprio parametro \(p_i\), estratto da una distribuzione comune \(\text{Beta}(\alpha, \beta)\).

Messaggio da portare con sé

La distribuzione beta-binomiale non introduce un nuovo tipo di fenomeno, ma un nuovo livello di rappresentazione dell’incertezza: quello relativo al parametro stesso. Passa dalla domanda “Cosa succede dato \(p\)?” alla domanda “Cosa succede quando non so esattamente quale sia \(p\)?”

Non è necessario padroneggiare ora i dettagli matematici: essi verranno ripresi e chiariti in modo sistematico nel capitolo dedicato alle distribuzioni continue (Capitolo 13) e nei capitoli dedicati alle distribuzioni predittive e ai modelli gerarchici del sito utet-companion.

Per il momento, è sufficiente:

  • riconoscere che la beta-binomiale esiste;
  • comprenderne il ruolo concettuale: marginalizzare l’incertezza sul parametro;
  • ricordare che produce sovradispersione rispetto alla binomiale condizionale.

Questi concetti diventeranno centrali quando affronteremo l’inferenza bayesiana completa.

Riflessioni conclusive

Le distribuzioni discrete esaminate in questo capitolo costituiscono strumenti epistemici fondamentali per rappresentare e aggiornare le credenze relative a fenomeni caratterizzati da esiti numerabili. Ciascuna distribuzione incorpora assunzioni specifiche sul processo di generazione dei dati: la distribuzione uniforme discreta formalizza uno stato di indifferenza epistemica rispetto a un insieme finito di alternative; la distribuzione di Bernoulli modella eventi binari elementari; la distribuzione binomiale descrive il numero di successi in una serie di prove indipendenti con probabilità costante; la distribuzione di Poisson rappresenta il verificarsi di eventi rari governati da un tasso medio costante; la distribuzione beta-binomiale, infine, estende il modello binomiale descrivendo la distribuzione dei conteggi quando vi è incertezza sul parametro sottostante.

In questa prospettiva bayesiana, i parametri di tali modelli non sono semplici quantità fisse da “stimare”, ma grandezze incerte su cui formuliamo distribuzioni di credenza. L’eleganza formale del framework bayesiano emerge in modo particolarmente chiaro attraverso le relazioni di coniugazione: la distribuzione beta fornisce una rappresentazione naturale delle credenze sul parametro \(p\) della distribuzione di Bernoulli e di quella binomiale, mentre la distribuzione gamma svolge un ruolo analogo per il parametro \(\lambda\) della distribuzione di Poisson. Queste relazioni consentono aggiornamenti coerenti e, in molti casi, analiticamente trattabili delle credenze alla luce dei dati osservati.

Nel capitolo successivo ci occuperemo delle distribuzioni continue, come la distribuzione beta, la distribuzione gamma, la distribuzione normale e altre ancora. Queste distribuzioni svolgeranno un duplice ruolo: da un lato, fungeranno da modelli per le variabili continue osservabili; dall’altro, costituiranno distribuzioni a priori naturali per i parametri dei modelli discreti introdotti in questo capitolo. In questo modo, completeremo progressivamente il vocabolario probabilistico essenziale per sviluppare e comprendere l’inferenza bayesiana in contesti sempre più generali.

Guida rapida: quale distribuzione usare?

Distribuzione Dominio Quando usarla Prior tipici Esempio psicologico
Uniforme discreta {1,…,N} Scelta casuale tra N alternative equiprobabili Randomizzazione tra 4 condizioni sperimentali
Bernoulli {0,1} Singolo esito binario (successo/fallimento) Beta(1,1) o Beta(α,β) Risposta corretta a un item del test
Binomiale {0,…,n} Numero di successi su n prove indipendenti Beta(α,β) 18 risposte corrette su 25 domande
Poisson {0,1,2,…} Conteggio di eventi rari in tempo/spazio fisso Gamma(α,β) 3 attacchi di panico in un mese
Beta-Binomiale {0,…,n} Binomiale con p incerto (sovradispersione) Beta(α,β) su p Successi quando ogni soggetto ha un p diverso

Come scelgo la distribuzione giusta?

Segui questo albero decisionale per identificare la distribuzione appropriata:

flowchart TD
    A[Che tipo di dato hai?] --> B{Binario0/1}
    A --> C{Conteggiointero ≥ 0}
    A --> D{Categorico1,2,...,K}
    
    B --> B1[Singola osservazione?]
    B1 -->|Sì| B2[Bernoullies: risposta corretta]
    B1 -->|No, n prove| B3[Binomialees: k su n corrette]
    
    C --> C1{Eventi rariin tempo/spaziofisso?}
    C1 -->|Sì| C2[Poissones: attacchi di panico/mese]
    C1 -->|No, n fissato| C3[Binomialees: sintomi presenti su checklist]
    
    D --> D1{Tutti ugualmenteprobabili?}
    D1 -->|Sì| D2[Uniforme discretaes: dado equo]
    D1 -->|No| D3[Categorica/Multinomialecapitolo futuro]
    
    style B2 fill:#e1f5e1
    style B3 fill:#e1f5e1
    style C2 fill:#fff4e1
    style C3 fill:#e1f5e1
    style D2 fill:#f0f0f0

flowchart TD
    A[Che tipo di dato hai?] --> B{Binario0/1}
    A --> C{Conteggiointero ≥ 0}
    A --> D{Categorico1,2,...,K}
    
    B --> B1[Singola osservazione?]
    B1 -->|Sì| B2[Bernoullies: risposta corretta]
    B1 -->|No, n prove| B3[Binomialees: k su n corrette]
    
    C --> C1{Eventi rariin tempo/spaziofisso?}
    C1 -->|Sì| C2[Poissones: attacchi di panico/mese]
    C1 -->|No, n fissato| C3[Binomialees: sintomi presenti su checklist]
    
    D --> D1{Tutti ugualmenteprobabili?}
    D1 -->|Sì| D2[Uniforme discretaes: dado equo]
    D1 -->|No| D3[Categorica/Multinomialecapitolo futuro]
    
    style B2 fill:#e1f5e1
    style B3 fill:#e1f5e1
    style C2 fill:#fff4e1
    style C3 fill:#e1f5e1
    style D2 fill:#f0f0f0

Punti chiave da ricordare

Importante

Concetti essenziali di questo capitolo:

  1. Distribuzione di Bernoulli
    • Modella singolo evento binario: successo (1) o fallimento (0)
    • \(P(X=1) = \theta\), \(P(X=0) = 1-\theta\)
    • \(\mathbb{E}[X] = \theta\), \(\text{Var}(X) = \theta(1-\theta)\)
    • Base per tutti i modelli binari in psicologia
  2. Distribuzione Binomiale
    • Conteggio di successi in \(n\) prove Bernoulli indipendenti
    • \(P(X=k) = \binom{n}{k}\theta^k(1-\theta)^{n-k}\)
    • \(\mathbb{E}[X] = n\theta\), \(\text{Var}(X) = n\theta(1-\theta)\)
    • Usata per: risposte corrette in test, prevalenze, adesione a trattamenti
  3. Distribuzione di Poisson
    • Conteggio di eventi rari in intervallo fisso
    • \(P(X=k) = \frac{\lambda^k e^{-\lambda}}{k!}\), \(k = 0,1,2,\ldots\)
    • \(\mathbb{E}[X] = \lambda\), \(\text{Var}(X) = \lambda\) (equidispersione!)
    • Usata per: numero sintomi, comportamenti rari, crisi panic
  4. Proprietà chiave delle distribuzioni discrete
    • Dominio: valori numerabili (interi)
    • Somma di PMF = 1
    • Facilmente visualizzabili con diagrammi a barre
    • Simulabili facilmente in R
  5. Applicazioni in psicologia
    • Bernoulli: diagnosi binaria (disturbo presente/assente)
    • Binomiale: accuratezza in test cognitivi, risposte “sì/no” in questionari
    • Poisson: eventi psicopatologici infrequenti, conteggio sintomi DSM

Formule da ricordare:

Bernoulli(\(\theta\)): \[ P(X=x) = \theta^x(1-\theta)^{1-x}, \quad x \in \{0,1\} \]

Binomiale(\(n, \theta\)): \[ P(X=k) = \binom{n}{k}\theta^k(1-\theta)^{n-k}, \quad k = 0,1,\ldots,n \] \[ \mathbb{E}[X] = n\theta, \quad \text{Var}(X) = n\theta(1-\theta) \]

Poisson(\(\lambda\)): \[ P(X=k) = \frac{\lambda^k e^{-\lambda}}{k!}, \quad k = 0,1,2,\ldots \] \[ \mathbb{E}[X] = \lambda, \quad \text{Var}(X) = \lambda \]

Proprietà critiche:

  • Binomiale è somma di \(n\) Bernoulli i.i.d.
  • Poisson è limite di Binomiale per \(n \to \infty\), \(p \to 0\), \(np = \lambda\)
  • Poisson ha equidispersione (media = varianza)
  • Varianza Binomiale massima quando \(\theta = 0.5\)

Per il prossimo capitolo:

Nel Capitolo 13 studieremo le distribuzioni continue (Beta, Normale, Gamma, Esponenziale), fondamentali per modellare proporzioni, misure psicometriche, tempi di reazione e parametri continui nei modelli bayesiani.

Esercizi

Per ciascuna distribuzione (uniforme, Bernoulli, binomiale, Poisson):

  1. Scegli parametri appropriati e visualizza la funzione di massa.
  2. Simula 1000 osservazioni e confronta media/varianza empirica con quella teorica.
  3. Calcola \(P(X \leq x)\) per qualche valore significativo.
sessionInfo()
#> R version 4.5.2 (2025-10-31)
#> Platform: aarch64-apple-darwin20
#> Running under: macOS Tahoe 26.2
#> 
#> Matrix products: default
#> BLAS:   /System/Library/Frameworks/Accelerate.framework/Versions/A/Frameworks/vecLib.framework/Versions/A/libBLAS.dylib 
#> LAPACK: /Library/Frameworks/R.framework/Versions/4.5-arm64/Resources/lib/libRlapack.dylib;  LAPACK version 3.12.1
#> 
#> locale:
#> [1] C.UTF-8/UTF-8/C.UTF-8/C/C.UTF-8/C.UTF-8
#> 
#> time zone: Europe/Rome
#> tzcode source: internal
#> 
#> attached base packages:
#> [1] splines   stats4    stats     graphics  grDevices utils     datasets 
#> [8] methods   base     
#> 
#> other attached packages:
#>  [1] extraDistr_1.10.0.1   VGAM_1.1-14           reshape2_1.4.5       
#>  [4] ragg_1.5.0            tinytable_0.15.2      withr_3.0.2          
#>  [7] systemfonts_1.3.1     patchwork_1.3.2       ggdist_3.3.3         
#> [10] tidybayes_3.0.7       bayesplot_1.15.0      ggplot2_4.0.1        
#> [13] reliabilitydiag_0.2.1 priorsense_1.2.0      posterior_1.6.1      
#> [16] loo_2.9.0             rstan_2.32.7          StanHeaders_2.32.10  
#> [19] brms_2.23.0           Rcpp_1.1.1            sessioninfo_1.2.3    
#> [22] conflicted_1.2.0      janitor_2.2.1         matrixStats_1.5.0    
#> [25] modelr_0.1.11         tibble_3.3.1          dplyr_1.1.4          
#> [28] tidyr_1.3.2           rio_1.2.4             here_1.0.2           
#> 
#> loaded via a namespace (and not attached):
#>  [1] gridExtra_2.3         inline_0.3.21         sandwich_3.1-1       
#>  [4] rlang_1.1.7           magrittr_2.0.4        multcomp_1.4-29      
#>  [7] snakecase_0.11.1      otel_0.2.0            compiler_4.5.2       
#> [10] vctrs_0.6.5           stringr_1.6.0         pkgconfig_2.0.3      
#> [13] arrayhelpers_1.1-0    fastmap_1.2.0         backports_1.5.0      
#> [16] labeling_0.4.3        rmarkdown_2.30        purrr_1.2.1          
#> [19] xfun_0.55             cachem_1.1.0          jsonlite_2.0.0       
#> [22] broom_1.0.11          parallel_4.5.2        R6_2.6.1             
#> [25] stringi_1.8.7         RColorBrewer_1.1-3    lubridate_1.9.4      
#> [28] estimability_1.5.1    knitr_1.51            zoo_1.8-15           
#> [31] Matrix_1.7-4          timechange_0.3.0      tidyselect_1.2.1     
#> [34] abind_1.4-8           yaml_2.3.12           codetools_0.2-20     
#> [37] curl_7.0.0            pkgbuild_1.4.8        lattice_0.22-7       
#> [40] plyr_1.8.9            bridgesampling_1.2-1  S7_0.2.1             
#> [43] coda_0.19-4.1         evaluate_1.0.5        survival_3.8-3       
#> [46] RcppParallel_5.1.11-1 pillar_1.11.1         tensorA_0.36.2.1     
#> [49] checkmate_2.3.3       distributional_0.6.0  generics_0.1.4       
#> [52] rprojroot_2.1.1       rstantools_2.6.0      scales_1.4.0         
#> [55] xtable_1.8-4          glue_1.8.0            emmeans_2.0.1        
#> [58] tools_4.5.2           mvtnorm_1.3-3         grid_4.5.2           
#> [61] QuickJSR_1.8.1        colorspace_2.1-2      nlme_3.1-168         
#> [64] cli_3.6.5             textshaping_1.0.4     svUnit_1.0.8         
#> [67] Brobdingnag_1.2-9     V8_8.0.1              gtable_0.3.6         
#> [70] digest_0.6.39         TH.data_1.1-5         htmlwidgets_1.6.4    
#> [73] farver_2.1.2          memoise_2.0.1         htmltools_0.5.9      
#> [76] lifecycle_1.0.5       MASS_7.3-65