EDA

L’analisi esplorativa dei dati (Exploratory Data Analysis, EDA) è un processo attivo di scoperta, un dialogo critico con i dati volto a rivelare ciò che è inatteso. Più che un insieme di tecniche, è un approccio mentale: un modo per mettere alla prova il proprio modello mentale attraverso il confronto sistematico tra aspettative e realtà. Prima di procedere con qualsiasi tipo di visualizzazione, è utile esplicitare le proprie aspettative, per poi verificare se i dati confermano, contraddicono o complicano tali ipotesi preliminari. In questo senso, l’EDA è una forma di model checking intuitivo, in cui l’intuizione viene continuamente affinata dall’evidenza empirica.

Il Ruolo Fondamentale dell’EDA

Una volta raccolti i dati, il primo passo dell’analisi statistica consiste nel familiarizzare con essi: esplorarne la struttura, identificarne le regolarità e le anomalie e coglierne le dinamiche sottostanti. Questo processo, formalizzato da John Tukey negli anni ’70 (Tukey et al., 1977), rappresenta un antidoto alla rigidità dei modelli preconcetti. Tukey insisteva sull’importanza di “lasciar parlare i dati” prima di incasellarli in schemi teorici, perché è proprio nell’esplorazione che emergono pattern inattesi, relazioni non lineari o errori sistematici altrimenti invisibili.

L’EDA non è in contrapposizione all’analisi confermativa (CDA), ma ne rappresenta il naturale complemento. Mentre l’analisi confermativa (CDA) testa ipotesi precise con metodi formali (ad esempio, test di ipotesi o modelli bayesiani), l’analisi esplorativa (EDA) genera tali ipotesi, verificando preliminarmente la plausibilità delle assunzioni di base. In campi come la psicologia, dove i dati sono spesso rumorosi e multidimensionali, questa fase è cruciale per evitare conclusioni fuorvianti.

Strumenti e Filosofia

Sebbene l’EDA includa strumenti quantitativi (statistiche descrittive, misure di dispersione), la sua essenza si esprime appieno nella visualizzazione. Un grafico ben progettato, che si tratti di un boxplot, di uno scatterplot o di un semplice istogramma, può rivelare asimmetrie, outlier o cluster che una tabella numerica non riuscirebbe a mostrare. Tuttavia, come sottolineato da Hullman & Gelman (2021), la vera forza dell’EDA non risiede nella produzione di immagini, ma nel collegare ciò che si osserva a un modello mentale del processo di generazione dei dati. Visualizzare non significa solo “vedere”, ma anche “confrontare”: ci si chiede se la distribuzione di una variabile corrisponda alle aspettative o se una correlazione apparente resista a un’analisi critica.

In questa prospettiva, anche il Posterior Predictive Checking (Gelman et al., 1995) può essere considerato una forma di EDA, in cui l’adeguatezza di un modello viene verificata attraverso confronti grafici tra dati osservati e simulati. Anche senza un modello formale, l’analista compie un esercizio simile, valutando implicitamente la coerenza tra i dati e le proprie aspettative.

Obiettivi di questa sezione

In questa sezione, ci proponiamo di:

  • Introdurre i concetti base della statistica descrittiva (media, deviazione standard, correlazione) e le loro rappresentazioni grafiche (istogrammi, grafici a violino, matrici di scatterplot).

  • Mostrare applicazioni pratiche in R, utilizzando dataset psicologici reali o simulati, con un focus su come tradurre domande di ricerca in visualizzazioni efficaci.

  • Discutere i limiti dell’approccio puramente descrittivo, enfatizzando la necessità di integrare l’EDA con modelli teorici o causalità.

  • Collegare esplorazione e inferenza, illustrando come l’EDA possa evolvere in un controllo modellistico esplicito, specie in contesti bayesiani dove le aspettative precedenti (prior) giocano un ruolo chiave.

L’EDA come atteggiamento scientifico

In conclusione, l’EDA non è un semplice preludio tecnico all’analisi “seria”, ma una componente essenziale del pensiero statistico. Ci spinge a formulare domande migliori, a interpretare le risposte con umiltà e a resistere alla tentazione di cercare conferme facili. Come scrisse Tukey: “È meglio rispondere in modo approssimativo a una domanda giusta, piuttosto che rispondere in modo esatto a una domanda sbagliata”.

Bibliografia

Gelman, A., Carlin, J. B., Stern, H. S., & Rubin, D. B. (1995). Bayesian data analysis. Chapman; Hall/CRC.
Hullman, J., & Gelman, A. (2021). Challenges in Incorporating Exploratory Data Analysis Into Statistical Workflow. Harvard Data Science Review, 3(3).
Tukey, J. W. et al. (1977). Exploratory data analysis (Vol. 2). Springer.