EDA
Una volta raccolti i dati, il primo passo cruciale nell’analisi statistica consiste nel prenderne confidenza: esplorare le informazioni contenute nel dataset in modo da comprenderne la struttura, le caratteristiche salienti, e — talvolta — le irregolarità inaspettate. Questo processo prende il nome di Exploratory Data Analysis (EDA).
L’EDA non è solo un insieme di tecniche grafiche e statistiche: è soprattutto un modo di interagire con i dati che privilegia la curiosità e l’apertura alla sorpresa. Come sottolineava John Tukey, pioniere del concetto, esplorare i dati significa prima di tutto “lasciar parlare i dati” prima di vincolarli all’interno di modelli formali o ipotesi rigide (Tukey et al., 1977). In questo spirito, l’EDA è un’attività fondamentale per scoprire pattern inattesi, formulare nuove ipotesi, e prevenire errori di interpretazione legati a preconcetti o modelli mal specificati.
Contrariamente a quanto si potrebbe pensare, l’EDA non si contrappone alla statistica “confermativa” (confirmatory data analysis, CDA), ma ne è il complemento. Laddove l’analisi confermatoria mira a testare ipotesi ben definite attraverso strumenti formalizzati (come l’inferenza bayesiana o frequentista), l’EDA crea le condizioni per generare tali ipotesi, oppure per verificare, attraverso il confronto visuale o esplorativo, se le assunzioni implicite di un modello siano compatibili con la struttura dei dati. In un workflow moderno di data analysis — soprattutto in ambito psicologico, dove i dati sono spesso rumorosi, multidimensionali, e raccolti in contesti complessi — l’EDA diventa il primo banco di prova dell’analisi, e spesso il più informativo.
L’analisi esplorativa può essere condotta con strumenti numerici (come le statistiche descrittive) ma trova la sua maggiore espressività nelle rappresentazioni grafiche. Un grafico ben costruito può rivelare simmetrie, deviazioni, relazioni non lineari, cluster inattesi o valori anomali che sfuggirebbero a un’analisi tabellare. Tuttavia, come discutono Hullman & Gelman (2021), l’EDA non si esaurisce nella semplice produzione di grafici: è utile nella misura in cui si collega a modelli mentali informali del processo generativo dei dati. Visualizzare i dati non significa solo “vedere”, ma anche interrogarsi su cosa ci si aspettava di vedere, e quindi mettere in discussione il proprio modello implicito della realtà.
In questa sezione del testo ci proponiamo di:
- Introdurre i concetti chiave della statistica descrittiva, come media, deviazione standard, distribuzione e correlazione.
- Mostrare come questi concetti possano essere visualizzati con strumenti grafici (istogrammi, boxplot, scatterplot, etc.).
- Fornire esempi pratici in R, con dati psicologici reali o simulati, per applicare direttamente le tecniche apprese.
- Discutere criticamente i limiti di un approccio esclusivamente descrittivo o associativo, e riflettere sull’importanza di collegare l’analisi a modelli teorici o causali.
Alla fine del capitolo, discuteremo come l’EDA possa evolvere in una forma di controllo modellistico implicito, in cui si confrontano intuitivamente i dati osservati con ciò che ci si sarebbe aspettato in base a un modello mentale o esplicito. Questo passaggio è particolarmente importante nell’approccio bayesiano, dove la modellazione è esplicitamente condizionata da conoscenze pregresse e dove le visualizzazioni possono fungere da ponte tra esplorazione qualitativa e verifica quantitativa.
In breve, EDA non è un semplice preludio all’analisi “vera”, ma un momento essenziale del pensiero statistico: ci aiuta a formulare le domande giuste, a capire meglio le risposte dei dati, e a non saltare troppo in fretta alle conclusioni.