9. Concetti chiave#

La data science è un campo che nasce dall’intersezione tra la statistica e l’informatica. La statistica fornisce una serie di metodologie volte all’analisi dei dati per estrarne informazioni significative, mentre l’informatica si occupa dello sviluppo di software in grado di implementare tali metodologie. Il presente capitolo si propone di introdurre alcuni concetti fondamentali che costituiscono le basi di questa disciplina in continua evoluzione.

9.1. Popolazioni e campioni#

Per iniziare l’analisi dei dati è necessario individuare le unità che contengono le informazioni rilevanti per il fenomeno di interesse. Questo insieme di unità è chiamato popolazione o universo (\(\Omega\)), e rappresenta l’insieme completo di entità capaci di fornire informazioni per l’indagine statistica in questione. Possiamo scrivere \(\Omega = \{\omega_i\}_{i=1, \dots, n}= \{\omega_1, \omega_2, \dots, \omega_n\}\), oppure \(\Omega = \{\omega_1, \omega_2, \dots \}\) nel caso di popolazioni finite o infinite, rispettivamente. Gli elementi \(\omega_i\) dell’insieme \(\Omega\) sono detti unità statistiche.

Il principale obiettivo della ricerca psicologica, sia nelle ricerche sperimentali che in quelle osservazionali, è quello di studiare i fenomeni psicologici all’interno di una specifica popolazione. Pertanto, è essenziale definire con chiarezza la popolazione di interesse, ovvero l’insieme di individui ai quali verranno applicati i risultati della ricerca. Tale popolazione può essere reale, come ad esempio tutte le persone sopravvissute per un anno dopo il bombardamento atomico di Hiroshima, o ipotetica, come ad esempio tutte le persone depresse che potrebbero beneficiare di un intervento psicologico. Il ricercatore deve sempre essere in grado di identificare se un individuo specifico appartiene o meno alla popolazione in questione.

Una sotto-popolazione è un insieme di individui che possiedono proprietà specifiche ben definite. Ad esempio, potremmo essere interessati alla sotto-popolazione degli uomini di età inferiore ai 30 anni o alla sotto-popolazione dei pazienti depressi che hanno ricevuto uno specifico intervento psicologico. Molte questioni scientifiche cercano di descrivere le differenze tra sotto-popolazioni, come ad esempio il confronto tra un gruppo di pazienti sottoposti a psicoterapia e un gruppo di controllo per valutare l’efficacia di un trattamento.

Il campione è un sottoinsieme della popolazione composto da un insieme di elementi \(\omega_i\), ognuno dei quali rappresenta un’unità statistica (abbreviata con u.s.) portatrice dell’informazione che verrà rilevata tramite un’operazione di misurazione. Il campione è utilizzato per conoscere la popolazione di riferimento.

A differenza di una sotto-popolazione, che viene definita in base a criteri specifici, il campione viene generalmente selezionato attraverso una procedura casuale. Il campionamento casuale consente al ricercatore di trarre conclusioni sulla popolazione e di quantificare l’incertezza dei risultati. Un esempio di campione casuale è quello utilizzato in un sondaggio. Tuttavia, molti studi osservazionali non utilizzano dati campionati casualmente, ma piuttosto un campione di convenienza, come ad esempio una coorte di studenti selezionati da un unico istituto.

Il ricercatore, indipendentemente dal metodo di acquisizione dei dati, deve sempre considerare la questione della rappresentatività statistica del campione, ovvero se il campione scelto è in grado di riflettere in modo accurato e privo di distorsioni le caratteristiche di interesse della popolazione. Selezionare le unità statistiche in modo casuale rappresenta il metodo più semplice per garantire la rappresentatività del campione. Tuttavia, in molti casi, soprattutto in psicologia, i ricercatori possono non avere a disposizione le risorse necessarie, inclusi i fondi, per utilizzare la tecnica del campionamento casuale nelle loro ricerche.

9.2. Variabili e costanti#

Si definisce variabile qualsiasi caratteristica o proprietà che può assumere diversi valori, sia numerici che categoriali. In altre parole, si tratta di un elemento misurabile o osservabile che può essere descritto da una o più domande, a cui l’unità statistica fornisce una risposta. Ad esempio, se si chiede “Qual è l’età di questo partecipante?” e la risposta è “19 anni”, allora “età” rappresenta la variabile, mentre “19” è il suo valore.

La probabilità che la variabile \(X\) assuma il valore \(x\) si scrive \(P(X = x)\). Questo è spesso abbreviato in \(P(x)\). Si noti che \(P(X = 19)\) è interpretato come la probabilità che un individuo selezionato a caso dalla popolazione abbia 19 anni. Possiamo anche esaminare la probabilità congiunta di più valori contemporaneamente; ad esempio, la probabilità di \(X = x\) e \(Y = y\) è scritta \(P(X = x, Y = y)\) o \(P(x, y)\). La nozione di “variabile” si contrappone alla nozione di “costante”, ovvero ad una proprietà che rimane invariante per tutte le unità statistiche.

Si dice modalità ciascuna delle varianti con cui una variabile statistica può presentarsi. Definiamo insieme delle modalità di una variabile statistica l’insieme \(M\) di tutte le possibili espressioni con cui la variabile può manifestarsi. Le modalità osservate e facenti parte del campione si chiamano dati.

Esempio 1 Supponiamo che il fenomeno studiato sia l’intelligenza. In uno studio, la popolazione potrebbe corrispondere all’insieme di tutti gli italiani adulti. La variabile considerata potrebbe essere il punteggio del test standardizzato WAIS-IV. Le modalità di tale variabile potrebbero essere 112, 92, 121, … Tale variabile è di tipo quantitativo discreto.

Esempio 2 Supponiamo che il fenomeno studiato sia il compito Stroop. La popolazione potrebbe corrispondere all’insieme dei bambini dai 6 agli 8 anni. La variabile considerata potrebbe essere il reciproco dei tempi di reazione in secondi. Le modalità di tale variabile potrebbero essere 1.93, 2.35, 1.32, 1.49, 1.62, 2.93, … La variabile è di tipo quantitativo continuo.

Esempio 3 Supponiamo che il fenomeno studiato sia il disturbo di personalità. La popolazione potrebbe corrispondere all’insieme dei detenuti nelle carceri italiane. La variabile considerata potrebbe essere l’assessment del disturbo di personalità tramite interviste cliniche strutturate. Le modalità di tale variabile potrebbero essere i Cluster A, Cluster B, Cluster C descritti dal DSM-V. Tale variabile è di tipo qualitativo.

9.2.1. Variabili casuali#

Il termine variabile usato nella statistica è equivalente al termine variabile casuale usato nella teoria delle probabilità. Lo studio dei risultati degli interventi psicologici è lo studio delle variabili casuali che misurano questi risultati. Una variabile casuale cattura una caratteristica specifica degli individui nella popolazione e i suoi valori variano tipicamente tra gli individui. In teoria, ogni variabile casuale può assumere una gamma di possibili valori sebbene, in pratica, osserviamo un valore specifico per ogni individuo. Useremo lettere maiuscole come \(X\) e \(Y\) per fare riferiremo alle variabili casuali; useremo lettere minuscole come \(x\) e \(y\) quando faremo riferimento ai valori assunti da una variabile casuale in una specifica circostanza.

Che differenza c’è tra una variabile casuale e una variabile statistica? La differenza tra questi due concetti può essere descritta dall’incertezza epistemica del ricercatore. Supponiamo, ad esempio, che l’esperimento casuale sia il lancio di un dado e la variabile di interesse \(X\) sia l’esito del lancio del dado. Poniamo che in una prova dell’esperimento casuale, ovvero in uno specifico lancio, la variabile \(X\) assuma il valore 5. Prima del lancio del dado, la variabile \(X\) è una variabile casuale (il ricercatore sa che \(X\) può assumere i valore 1, …, 6, ma non conosce lo specifico valore che verrà osservato dopo il lancio); dopo il lancio del dado, avendo osservato \(X\) = 5, la variabile \(X\) diventa una variabile statistica, ovvero costituisce un dato del campione di osservazioni.

9.3. Statistica#

Una statistica è una qualsiasi funzione del campione di una variabile casuale.

Esempio 4 Esempi di statistiche sono la media campionaria, la mediana campionaria, la varianza, ecc. Ma, per la definizione precedente, qualunque funzione arbitraria del campione costituisce una statistica: per esempio, il rapporto tra il valore minimo e il logaritmo del valore massimo del campione. Pur essendo insensato, un tale valore è una statistica del campione.

9.3.1. Variabili indipendenti e variabili dipendenti#

Nell’identificazione delle variabili dipendenti (di esito) e indipendenti (predittori) è importante considerare la domanda di ricerca e la conoscenza del fenomeno in esame. Sebbene in molti casi sia possibile distinguere con chiarezza le variabili di esito dalle variabili predittive, in altri casi può essere più difficile. Ad esempio, nel caso dell’associazione tra esercizio fisico e insonnia, potrebbe non essere chiaro quale sia la causa e quale l’effetto. Tuttavia, un’analisi più approfondita delle evidenze disponibili e della conoscenza del fenomeno potrebbe aiutare a identificare le variabili dipendenti e indipendenti in modo più accurato. È importante notare che la corretta identificazione delle variabili è fondamentale per poter fare previsioni e inferenze valide e accurate sul fenomeno studiato.

Esempio 5 Uno psicologo convoca 120 studenti universitari per un test di memoria. Prima di iniziare l’esperimento, a metà dei soggetti viene detto che si tratta di un compito particolarmente difficile; agli altri soggetti non viene data alcuna indicazione. Lo psicologo misura il punteggio nella prova di memoria di ciascun soggetto. In questo esperimento, la variabile indipendente è l’informazione sulla difficoltà della prova. La variabile indipendente viene manipolata dallo sperimentatore assegnando i soggetti (di solito in maniera causale) alla condizione (modalità) “informazione assegnata” o alla condizione “informazione non data”. La variabile dipendente è ciò che viene misurato nell’esperimento, ovvero il punteggio nella prova di memoria di ciascun soggetto.

9.3.2. La matrice dei dati#

Le realizzazioni delle variabili esaminate in una rilevazione statistica vengono organizzate in una matrice dei dati. Le colonne della matrice dei dati contengono gli insiemi dei dati individuali di ciascuna variabile statistica considerata. Ogni riga della matrice contiene tutte le informazioni relative alla stessa unità statistica. Una generica matrice dei dati ha l’aspetto seguente:

\[\begin{split} D_{m,n} = \begin{pmatrix} \omega_1 & a_{1} & b_{1} & \cdots & x_{1} & y_{1}\\ \omega_2 & a_{2} & b_{2} & \cdots & x_{2} & y_{2}\\ \vdots & \vdots & \vdots & \ddots & \vdots & \vdots \\ \omega_n & a_{n} & b_{n} & \cdots & x_{n} & y_{n} \end{pmatrix} \end{split}\]

dove, nel caso presente, la prima colonna contiene il nome delle unità statistiche, la seconda e la terza colonna si riferiscono a due mutabili statistiche (o variabili categoriali; \(A\) e \(B\)) e ne presentano le modalità osservate nel campione mentre le ultime due colonne si riferiscono a due variabili statistiche (\(X\) e \(Y\)) e ne presentano le modalità osservate nel campione. Generalmente, tra le unità statistiche \(\omega_i\) non esiste un ordine progressivo; l’indice attribuito alle unità statistiche nella matrice dei dati si riferisce semplicemente alla riga che esse occupano.

9.4. Effetto#

L’effetto è una misura del risultato osservato nei dati che dipende dal tipo di dati e dal tipo di test statistico utilizzato. Ad esempio, se si lancia una moneta 100 volte e si ottiene testa 66 volte, l’effetto sarà pari a 66/100. Successivamente, si può confrontare l’effetto ottenuto con l’effetto atteso (noto come effetto nullo) di una moneta bilanciata, che in questo caso sarebbe 50/100, oppure con qualsiasi altro effetto di riferimento scelto. La dimensione dell’effetto si riferisce alla differenza tra l’effetto osservato nei dati e l’effetto nullo, che di solito rappresenta il valore che ci si aspetta di ottenere casualmente.

9.5. Stima e inferenza#

La stima è il processo attraverso cui il campione viene utilizzato per ottenere informazioni sulle proprietà della popolazione di interesse. Ad esempio, la media del campione è una stima della media della popolazione, mentre la mediana del campione è una stima della mediana della popolazione. Quando ci si riferisce alla stima di una proprietà della popolazione (spesso chiamata parametro) o alla stima della distribuzione di una variabile casuale (ovvero la probabilità che la variabile assuma un valore in un determinato intervallo), si fa riferimento all’uso dei dati osservati per conoscere le proprietà di interesse della popolazione. L’inferenza statistica è il processo attraverso cui le stime campionarie vengono utilizzate per rispondere alle domande di ricerca e per valutare specifiche ipotesi sulla popolazione. Nella parte finale di questa dispensa, esamineremo le procedure bayesiane di inferenza e illustreremo le limitazioni dell’approccio frequentista.

9.6. Modelli psicologici#

In statistica e nella data science, il termine “modello” si riferisce ad una rappresentazione matematica semplificata di un fenomeno di interesse. Un modello statistico è costituito da un insieme di ipotesi sulla distribuzione della variabile casuale di interesse, le cui specifiche possono dipendere dai dati e dalla domanda di ricerca. Esiste spesso più di un modello che potrebbe essere utilizzato per affrontare la stessa domanda di ricerca, e l’obiettivo è quello di identificare il modello che meglio rappresenta i dati a disposizione e che soddisfa i criteri di bontà previsti.

In psicologia, un modello di comportamento umano o di funzionamento mentale deve descrivere le caratteristiche del fenomeno in questione, formulare predizioni sulle caratteristiche future del fenomeno, essere sostenuto da evidenze empiriche e poter essere falsificabile. L’analisi dei dati permette di valutare un modello psicologico mediante l’applicazione di strumenti statistici, verificandone la capacità di spiegare i dati a disposizione e la sua capacità di fare previsioni accurate su nuovi dati.

9.7. Riassunto del contenuto#

Dopo la lettura di questo capitolo dovresti

  • ✅ capire che cos’è un campione casuale;

  • ✅ sapere che cos’è una variabile campionaria e che relazione ha con le variabili casuali della teoria della probabilità;

  • ✅ distinguere tra variabili dipendenti e indipendenti;

  • ✅ capire che cos’è un effetto statistico;

  • ✅ avere un’intuizione su che cosa sia l’inferenza statistica.