EDA

Guardare i dati prima di modellarli.

L’analisi esplorativa dei dati (EDA)

L’analisi esplorativa dei dati (EDA, dall’inglese Exploratory Data Analysis) è il processo di esplorazione e familiarizzazione con un dataset prima di intraprendere qualsiasi inferenza formale. Non si riduce alla semplice creazione di grafici, ma costituisce un dialogo critico con l’evidenza empirica: che cosa prevede la teoria? Che cosa mostrano effettivamente i dati? Le discrepanze osservate sono errori di misura, anomalie fortuite, o indicano piuttosto che il nostro modello teorico preliminare è incompleto o errato?

John Tukey, che formalizzò questo approccio negli anni ’70, sottolineava l’importanza di lasciare che siano i dati a parlare prima di forzarli in strutture teoriche precostituite. È proprio durante l’esplorazione che possono emergere pattern inaspettati, relazioni non lineari ed errori sistematici: tutti quegli elementi che un’analisi puramente confermativa rischierebbe di trascurare o di non cogliere affatto.

L’EDA come controllo preliminare

L’esplorazione dei dati non sostituisce l’inferenza, ma la prepara. Prima di stimare un modello, è fondamentale interrogare i dati: la relazione tra le variabili ha una forma lineare o presenta curvature? Ci sono osservazioni anomale che potrebbero alterare le stime? Le distribuzioni sono compatibili con le assunzioni di base del modello? Nell’approccio bayesiano, in cui è necessario specificare le distribuzioni a priori, l’EDA fornisce un’evidenza empirica fondamentale per valutare se le scelte iniziali siano plausibili.

In questo senso, l’EDA rappresenta una forma intuitiva di model checking, un’anticipazione della diagnostica formale che, come avviene nel posterior predictive checking bayesiano, confronta sistematicamente i dati osservati con quelli simulati dal modello, per verificarne l’adeguatezza.

Cosa troverai in questa sezione

I capitoli che seguono sviluppano un percorso che parte dalla logica organizzativa di un progetto di analisi dati per arrivare ai concetti fondamentali che preparano l’inferenza statistica. Nello specifico, saranno trattati i seguenti argomenti:

  • struttura di un progetto di analisi: organizzazione dei file, documentazione e flusso di lavoro riproducibile;
  • pulizia e preparazione dei dati: gestione di valori mancanti, conversione di formati e correzione di errori sistematici;
  • variabili qualitative e quantitative: analisi delle frequenze, esplorazione delle distribuzioni e scelta di visualizzazioni appropriate;
  • indicatori di sintesi statistica: misurazioni di tendenza centrale (media, mediana) e di dispersione (varianza, deviazione standard), quantili e loro rappresentazione grafica;
  • la distribuzione normale: proprietà fondamentali, processo di standardizzazione e ambiti di applicabilità;
  • relazioni tra variabili: misura della correlazione, interpretazione degli scatterplot e limiti inferenziali;
  • causalità e associazione: il divario tra correlazione e causalità, e i requisiti metodologici per un’inferenza causale valida;
  • gestione di outlier e trasformazioni: identificazione di osservazioni influenti, criteri per la trasformazione delle variabili e relative implicazioni interpretative.

Collegamenti

L’EDA mette in pratica ciò che le altre sezioni preparano. I principi discussi nei Fondamenti – dalla scelta delle scale di misura alla validità degli strumenti, fino al disegno dello studio – orientano e danno significato a ciò che è opportuno calcolare e visualizzare. Parallelamente, gli strumenti introdotti nella sezione R – dalle funzioni base ai pacchetti specializzati, dalla sintassi alla logica della programmazione – costituiscono il mezzo operativo attraverso cui l’esplorazione prende forma.

Trascurare questa fase per procedere direttamente alla modellazione è un errore metodologico frequente. Come ammoniva John Tukey: “È meglio rispondere in modo approssimativo a una domanda giusta, piuttosto che rispondere in modo esatto a una domanda sbagliata”. L’EDA è precisamente il processo che ci aiuta a formulare, riformulare e comprendere qual è la domanda giusta da porre ai nostri dati.