Riflessioni conclusive della sezione
Questa sezione ha introdotto tre idee chiave.
Entropia di Shannon: quantifica l’incertezza media o il contenuto informativo atteso di una distribuzione di probabilità. È massima quando tutti gli esiti sono ugualmente probabili (massima “sorpresa”) e minima quando un esito è certo (assenza di sorpresa). Oltre alla sua definizione assiomatica, abbiamo mostrato la sua rilevanza pratica nel campionamento statistico e il suo ruolo fondamentale nella teoria della codifica, dove determina il limite inferiore per la compressione lossless dei dati.
Divergenza di Kullback-Leibler: questa metrica asimmetrica quantifica il costo informativo di approssimare la vera distribuzione dei dati \(P\) con un modello \(Q\). Concettualmente, rappresenta il numero medio di bit (o unità di sorpresa) extra che paghiamo quando utilizziamo \(Q\) al posto di \(P\) per descrivere i dati. È questa nozione di “costo dell’approssimazione errata” a fornire il fondamento teorico per la selezione dei modelli: il modello migliore è quello che minimizza tale divergenza, ovvero che approssima più fedelmente il meccanismo generatore dei dati senza adattarsi eccessivamente alle peculiarità del campione osservato.
Valutazione predittiva bayesiana: questo approccio opera un cambio di paradigma, passando dall’adattamento ai dati osservati alla capacità di generalizzazione su dati nuovi. Questo approccio si concretizza in tre strumenti gerarchici: il log-score (accuratezza predittiva punto per punto), l’ELPD (il suo valore atteso, la quantità teorica da massimizzare), e il LOO-CV/WAIC (le sue stime pratiche ed efficienti). In questo contesto, il modello migliore non è quello che si adatta perfettamente al passato, ma quello che anticipa il futuro con maggiore affidabilità.
Il valore di questo framework per la ricerca psicologica si articola su due piani complementari:
concettuale: entropia e divergenza KL forniscono un vocabolario quantitativo rigoroso per temi centrali nella disciplina: dall’incertezza nelle misurazioni e nelle teorie, alla complessità dei processi cognitivi, fino alla capacità di generalizzazione dei costrutti. Questo linguaggio si integra perfettamente con l’approccio bayesiano, in cui la distribuzione predittiva a posteriori diventa lo strumento naturale per quantificare e comunicare tale incertezza.
operativo: strumenti come LOO-CV e WAIC offrono un protocollo applicativo immediato all’interno degli ambienti di modellazione bayesiana moderna (es.
brms/Stan). Il flusso di lavoro diventa sistematico: dopo la stima, si valuta l’ELPD, si confrontano modelli alternativi e si seleziona la specificazione che ottimizza la capacità predittiva out-of-sample. Questo processo automatizza la prevenzione dei due estremi patologici della modellazione: l’eccessiva semplificazione (underfitting) e l’adattamento al rumore (overfitting).
In sintesi, questa sezione rende esplicito il legame tra informazione e inferenza: un modello è tanto più informativo quanto più riduce l’incertezza predittiva senza introdurre complessità superflua. Ciò prepara il terreno ai capitoli successivi, in cui la scelta e la valutazione dei modelli, anche meccanicistici e dinamici, saranno guidate da criteri predittivi e informazionali, non solo dall’adattamento locale ai dati.
Questa triade concettuale — entropia, divergenza KL ed ELPD — fornisce quindi un framework coerente e operativo per la scienza empirica, trasformando la modellazione statistica da un esercizio di adattamento post hoc in un processo di apprendimento predittivo, in cui il criterio ultimo di successo è la capacità di illuminare il territorio ancora inesplorato dei dati futuri con la minor sorpresa possibile.