Prefazione
Gli obiettivi di questo insegnamento sono:
- presentare i principi metodologici su cui i test psicologici sono fondati;
- mettere gli studenti in condizione di discriminare le diverse tipologie di test e gli obiettivi per cui essi vengono utilizzati;
- introdurre le tematiche dell’assessment psicologico;
- presentare la teoria classica dei test, il metodo dell’analisi fattoriale, i modelli di equazioni strutturali e i modelli IRT.
Viene presentata qui una panoramica degli argomenti che verranno trattati.
Definizione di misurazione
La misurazione psicologica è un pilastro fondamentale nella comprensione e nell’analisi del comportamento umano, fornendo un mezzo quantitativo per esplorare le dinamiche della mente e della personalità. La definizione di misurazione proposta da Stevens (1951), uno dei pionieri della teoria della misurazione, stabilisce che essa consiste nell’assegnare numeri a oggetti o eventi secondo regole definite. Tuttavia, è ormai ampiamente accettato che questa visione sia troppo semplicistica e che la misurazione richieda un approccio più sofisticato. Si concorda comunemente sul fatto che la misurazione debba essere considerata come un processo di creazione di modelli che rappresentano i fenomeni di interesse, principalmente in forma quantitativa.
Di conseguenza, la misurazione si basa su regole che attribuiscono scale o valori alle entità che rappresentano i costrutti di interesse. Come avviene per tutti i modelli, quelli di misurazione, come i test, le scale o le variabili, devono semplificare la realtà per risultare utili. Pertanto, è fondamentale specificare chiaramente i modelli di misurazione per poterli valutare, confutare e migliorare.
Inoltre, anziché chiedersi se un modello sia vero o corretto, è più utile sviluppare diversi modelli alternativi plausibili e porre domande del tipo: quale modello è meno inaccurato? Questo approccio al confronto dei modelli rappresenta la strategia migliore per valutare e perfezionare le procedure di misurazione, consentendo un’analisi più approfondita e accurata delle variabili coinvolte.
Per illustrare l’approccio alla misurazione come descritto, prendiamo in considerazione un esempio concreto: la valutazione dell’intelligenza attraverso il test del quoziente intellettivo (QI).
Iniziamo definendo il concetto di interesse, ovvero l’intelligenza, che può essere concepita come la capacità di apprendere, comprendere e applicare conoscenze, risolvere problemi e adattarsi a nuove situazioni. Tuttavia, trattandosi di un concetto astratto, è necessario operazionalizzarlo in modo misurabile.
Per misurare l’intelligenza, si crea un test di QI che comprende una serie di compiti e domande progettati per valutare diverse dimensioni della capacità cognitiva, quali la memoria, il ragionamento logico e la comprensione verbale.
Ciascun compito nel test di QI è associato a un punteggio. I risultati individuali vengono quindi calcolati e confrontati con una norma statistica per attribuire un punteggio di QI.
Successivamente, il test di QI viene sottoposto a diverse analisi per verificare la sua validità (ovvero se misura effettivamente l’intelligenza) e affidabilità (se fornisce risultati consistenti nel tempo).
Tuttavia, esistono diverse teorie dell’intelligenza, come ad esempio quella delle intelligenze multiple di Gardner, che suggeriscono modelli alternativi di misurazione. Confrontando il modello del QI con questi approcci alternativi, gli psicologi possono valutare quale modello è meno distorto o più adatto per specifici scopi.
In risposta alle critiche, alle nuove scoperte e ai cambiamenti culturali e sociali, il modello del QI viene regolarmente rivisto e adattato per assicurare che continui a essere uno strumento utile di misurazione.
Questo esempio mostra come la misurazione in psicologia non sia semplicemente un atto di assegnare numeri a un costrutto, ma piuttosto un processo complesso che implica la creazione, la valutazione e il continuo perfezionamento di modelli teorici.
Temi Centrali nell’Approccio Psicometrico
Affidabilità: Questo concetto si riferisce alla capacità di un test di produrre risultati consistenti nel tempo e in contesti diversi, costituendo una base fondamentale per la misurazione psicologica.
Validazione del Costrutto e Test dei Modelli: L’evoluzione della psicometria ha portato a una sempre maggiore enfasi sulla validazione dei costrutti e sull’importanza dei test di modelli, utilizzando tecniche come i modelli a equazioni strutturali (SEM) per verificare la coerenza e la validità dei costrutti psicologici.
Dimensionalità e Validità Strutturale: La dimensionalità viene considerata un elemento fondamentale nella valutazione della validità strutturale, poiché permette di esplorare come i diversi aspetti di un costrutto si manifestano e interagiscono all’interno del modello di misurazione.
Costruzione dei Questionari: La progettazione e la formulazione degli item dei questionari rivestono un ruolo cruciale, in quanto influenzano direttamente l’affidabilità e la validità dei risultati ottenuti. La scelta degli item, il loro ordine e la chiarezza della formulazione sono tutti aspetti che contribuiscono alla qualità e all’efficacia della misurazione psicologica.
Attraverso questi approcci, la misurazione psicologica si adatta alle sfide uniche poste dalla natura astratta e complessa dei costrutti psicologici, cercando di fornire strumenti validi e affidabili per la loro esplorazione e comprensione.
Affidabilità e Generalizzabilità nelle Misure Psicologiche
Nel contesto della misurazione psicologica, così come in altre discipline, è cruciale considerare le variabili che possono influenzare la precisione delle misure. L’affidabilità di uno strumento di misurazione psicologica si riferisce alla sua consistenza nel produrre risultati replicabili nel tempo e in contesti diversi. Gli indici di affidabilità sono utilizzati per quantificare il grado di riproducibilità e l’assenza di errori casuali nelle misurazioni.
Teoria Classica dei Test
L’approccio più ampiamente utilizzato nello studio dell’affidabilità delle misure psicologiche è rappresentato dalla teoria classica dei test, come descritto da Lord e Novick (1968). Secondo questa teoria, ogni misurazione (\(X\)) è composta da due componenti distintive: un punteggio “vero” (\(T\)) e un errore di misurazione (\(e\)). Il concetto di misurazione accurata, o “vera”, può essere rappresentato come \(X - e\), evidenziando il fatto che ogni misurazione può essere decomposta in tali elementi distinti.
La teoria classica dei test enfatizza l’importanza di condurre misurazioni ripetute per valutare l’affidabilità. Un concetto fondamentale è quello dei test paralleli, che consistono in due test con medie, varianze e distribuzioni identiche, e che mostrano una correlazione simile con variabili esterne. In questa prospettiva, il punteggio vero e l’errore di misurazione sono considerati indipendenti. Di conseguenza, la varianza dei punteggi osservati (Varianza \(X\)) è la somma della varianza dei punteggi veri (Varianza \(T\)) e della varianza dell’errore di misurazione (Varianza \(e\)).
L’affidabilità è quindi definita come il rapporto tra la varianza del punteggio vero e la varianza del punteggio osservato:
\[ \text{Affidabilità} = \frac{\text{Varianza}(T)}{\text{Varianza}(X)}. \]
In termini pratici, un’affidabilità di 1 indicherebbe l’assenza di errori, mentre un’affidabilità di 0 implicherebbe che i punteggi derivano esclusivamente dall’errore. La correlazione tra il punteggio osservato e il punteggio vero è la radice quadrata dell’affidabilità, fornendo una stima della precisione della misurazione.
Questo framework fornisce una solida base per comprendere e quantificare l’affidabilità nelle misure psicologiche, sottolineando l’importanza di considerare sia i punteggi veri sia gli errori di misurazione per ottenere misurazioni precise e affidabili.
Evidenze Multiple di Affidabilità
Nonostante la teoria classica dei test fornisca una definizione matematica dei test paralleli, non fornisce dettagliate linee guida sulle procedure specifiche per costruirli. Tuttavia, a partire dagli anni ’50, sono stati sviluppati diversi metodi che consentono di valutare empiricamente l’affidabilità delle misurazioni:
Test-Retest: Questo approccio implica la somministrazione dello stesso test ai partecipanti in due momenti diversi. L’obiettivo è valutare la stabilità dei punteggi nel tempo. Una correlazione elevata tra i punteggi ottenuti nei due momenti indica una buona affidabilità del test-retest.
Equivalenza di Forme Parallele: Questo metodo prevede l’utilizzo di due versioni diverse del test, ma che coprono lo stesso contenuto, somministrate simultaneamente ai partecipanti. Una forte correlazione tra i punteggi ottenuti dalle due versioni suggerisce che entrambe misurano il medesimo costrutto in modo affidabile.
Split-Half e Coerenza Interna:
- Split-Half: I partecipanti completano una sola versione del test, la quale è divisa in due parti equivalenti. Si calcola poi la correlazione tra i punteggi delle due metà. Questo metodo valuta la coerenza interna del test.
- Coerenza Interna (ad esempio, Omega di McDonals): Valuta la correlazione tra tutti gli elementi del test. Un alto valore di coerenza interna indica che tutti gli elementi del test misurano aspetti simili del costrutto.
Valutazione da Giudici Multipli: In questo caso, i partecipanti sono valutati da più giudici in un’unica occasione. Un alto grado di accordo tra i giudici fornisce un’indicazione dell’affidabilità delle valutazioni.
Ciascuno di questi approcci fornisce indicazioni sull’affidabilità di un test, ma è fondamentale considerare che alcuni potrebbero essere più appropriati di altri in base alla natura del test e del costrutto misurato. L’affidabilità è pertanto un concetto multidimensionale che richiede l’impiego di diversi approcci per una valutazione completa delle misurazioni psicologiche.
Il Ruolo del Coefficiente Alpha nella Misurazione Psicologica
Il coefficiente alpha, introdotto da Cronbach nel 1951, è diventato un importante indicatore di coerenza interna nella letteratura psicologica, principalmente grazie alla sua facilità di calcolo. A differenza dell’affidabilità test-retest, che richiede dati raccolti in due momenti diversi, o dell’affidabilità delle forme parallele, che richiede la costruzione di due versioni alternative di un test, il coefficiente alpha può essere calcolato utilizzando un unico set di dati, rendendolo estremamente pratico come indice di affidabilità.
Tuttavia, è importante correggere un comune malinteso riguardo al coefficiente alpha: esso non misura direttamente l’omogeneità delle intercorrelazioni tra gli elementi o conferma la unidimensionalità di una scala. In realtà, il coefficiente alpha non fornisce informazioni dirette su questi aspetti strutturali della scala.
Per affrontare la questione della unidimensionalità, è necessario ricorrere a approcci più sofisticati come l’analisi fattoriale confermativa e i modelli di equazioni strutturali (SEM). Questi metodi consentono di testare quanto bene la struttura di correlazione degli elementi si adatti a un modello con un singolo fattore rispetto a modelli multifattoriali, valutando se le correlazioni tra gli elementi possono essere meglio spiegate da un singolo costrutto sottostante.
Nel contesto delle analisi SEM, le saturazioni degli item indicano quanto della varianza di un item sia condivisa con gli altri (e quindi generalizzabile), mentre la varianza residua dell’item cattura l’errore unico associato a quell’item. La presenza di multidimensionalità emerge dalla capacità di un modello multifattoriale di adattarsi meglio ai dati rispetto a un modello a singolo fattore.
Quando un test è considerato multidimensionale, è ancora appropriato utilizzare il coefficiente alpha come indice di affidabilità? La risposta è negativa. In presenza di multidimensionalità, il coefficiente alpha tende a sottostimare l’affidabilità. Pertanto, è consigliabile, in tali casi, utilizzare altri metodi per valutare l’affidabilità, anziché basarsi esclusivamente sul coefficiente alpha.
Il Fenomeno dell’Attenuazione in Relazione all’Affidabilità
All’interno del contesto della teoria classica dei test, come delineato da Lord e Novick (1968), l’affidabilità svolge un ruolo cruciale poiché influisce sulla forza della correlazione che una misura può mostrare con altre variabili, come un criterio esterno. Secondo questa teoria, se l’errore nelle misurazioni è genuinamente casuale, il massimo teorico della correlazione tra una misura e un’altra variabile non è 1.0, ma piuttosto la radice quadrata dell’affidabilità di quella misura.
Ciò implica che, in presenza di un’affidabilità meno che ottimale, la correlazione effettiva tra una misura e qualsiasi altra variabile viene sistematicamente sottostimata, fenomeno noto come attenuazione. Questa attenuazione è direttamente proporzionale all’inadeguatezza dell’affidabilità: più bassa è l’affidabilità di una misura, maggiore sarà la sottostima della sua correlazione con altre variabili. Pertanto, per ottenere stime accurate delle correlazioni e comprendere veramente le relazioni tra diverse variabili, è fondamentale garantire che le misure utilizzate siano il più affidabili possibile. Questa considerazione enfatizza l’importanza dell’accuratezza e della precisione nelle procedure di misurazione psicologica.
La Teoria della Generalizzabilità
La Teoria della Generalizzabilità propone un approccio più completo e flessibile per comprendere l’affidabilità delle misure psicologiche rispetto alla classificazione tradizionale delle tipologie di affidabilità. Invece di limitarsi a categorizzare le misure in base a criteri specifici come test-retest, affidabilità interna o inter-valutatori, la Teoria della Generalizzabilità considera una serie di dimensioni che possono influenzare l’affidabilità in contesti diversi.
Una delle principali criticità della teoria classica dei test è la sua presunzione di uniformità e parallelismo delle misurazioni e degli errori casuali. La Teoria della Generalizzabilità, al contrario, riconosce che l’affidabilità dipende dalla specifica dimensione di generalizzazione considerata. Ad esempio, un test potrebbe essere affidabile per misurare una certa caratteristica in un contesto, ma non altrettanto affidabile in un contesto diverso o per una caratteristica correlata ma non identica.
Per superare le limitazioni della teoria classica dei test, l’American Psychological Association ha proposto l’adozione della Teoria della Generalizzabilità. Tuttavia, nonostante questa proposta, la pratica nei campi di ricerca non si è adeguatamente evoluta e la teoria della generalizzabilità non ha ancora completamente sostituito le nozioni più semplicistiche popolari in psicologia.
La Teoria della Generalizzabilità esamina diverse dimensioni che influenzano l’affidabilità, tra cui la dimensione temporale, delle forme, degli item e dei giudici o osservatori. Questa teoria enfatizza l’importanza di estendere le osservazioni a un’ampia varietà di situazioni e identificare l’impatto specifico delle fonti di varianza nei punteggi dei test in contesti particolari.
Invece dei tradizionali coefficienti di affidabilità come il coefficiente di stabilità o il coefficiente alfa, la Teoria della Generalizzabilità suggerisce l’uso di misure più ampie di affidabilità, come il coefficiente di correlazione intraclasse, per esaminare specifici aspetti dell’affidabilità. Questo approccio è particolarmente utile in ricerche con dati strutturati in maniera nidificata e dove diverse dimensioni possono influenzare l’affidabilità, come nei metodi di valutazione ecologica momentanea.### La Teoria della Risposta agli Item
La Teoria della Risposta agli Item (IRT) rappresenta un avanzamento rispetto alla teoria classica dei test, offrendo un approccio più sofisticato per analizzare le risposte degli individui agli item e la loro relazione con un costrutto latente. Questa teoria stabilisce un collegamento tra le risposte degli individui a un particolare item e il costrutto latente utilizzando una funzione chiamata “curva caratteristica dell’item”.
La curva caratteristica dell’item mostra la probabilità che individui con differenti livelli del costrutto latente rispondano correttamente all’item, fornendo inoltre informazioni sulla capacità dell’item di distinguere tra individui con livelli elevati e bassi del tratto latente, oltre a misurare la sua difficoltà. Queste informazioni sono cruciali per identificare eventuali distorsioni negli item, noto come bias. Secondo la IRT, un item è privo di bias nel misurare un costrutto se individui con lo stesso livello del tratto ottengono punteggi attesi simili sull’item, indipendentemente da caratteristiche non rilevanti come genere, etnia o background culturale.
La Teoria della Risposta agli Item offre diversi vantaggi nel processo di creazione e valutazione di scale psicometriche:
Selezione degli Item: Permette di selezionare gli item in base alla loro difficoltà e alla capacità di discriminazione, superando così la limitazione della teoria classica che si basa esclusivamente sulle correlazioni tra gli item e il punteggio totale.
Testing Adattivo Computerizzato: La IRT facilita la valutazione della posizione di un individuo su un costrutto latente senza la necessità di somministrare l’intero test, grazie a tecniche come il testing adattivo computerizzato.
In conclusione, la Teoria della Risposta agli Item fornisce strumenti quantitativi per esaminare approfonditamente la relazione tra un item specifico e il costrutto latente, attraverso parametri di difficoltà e discriminazione.
Evoluzione e Comprensione della Validità nelle Misure Psicologiche
La nostra comprensione della validità nelle misure psicologiche ha subito un notevole sviluppo nel corso del tempo, passando da una visione iniziale più frammentata a un approccio più olistico e dinamico. Inizialmente, la validità veniva suddivisa in diversi tipi, tra cui la validità di contenuto, di facciata, orientata al criterio e di costrutto.
La validità di contenuto si riferisce alla rappresentatività degli item di un test rispetto al costrutto che si intende misurare, mentre la validità di facciata valuta se superficialmente gli item sembrano idonei a misurare il costrutto, sebbene questa non sia considerata un indice rigoroso di validità. La validità orientata al criterio si divide ulteriormente in predittiva e concorrente, che valutano la capacità del test di prevedere comportamenti futuri o di correlare con criteri esterni contemporaneamente misurati. Infine, la validità di costrutto indaga se il test misura effettivamente il costrutto in questione, richiedendo una comprensione approfondita sia del costrutto sia della metodologia del test.
Tuttavia, queste distinzioni sono state gradualmente considerate limitate e frammentarie. Un punto di svolta è stato rappresentato dall’approccio olistico di Samuel Messick, che ha enfatizzato che la validità va oltre la misura stessa, coinvolgendo l’interpretazione e l’uso dei punteggi del test. Messick ha sottolineato l’importanza di considerare le evidenze di validità da molteplici fonti e di assicurare la coerenza delle interpretazioni dei punteggi del test con le teorie psicologiche sottostanti.
Un’importante correzione concettuale è stata l’idea che la validità non sia un attributo statico dei test, ma piuttosto un processo continuo di accumulo di evidenze e giustificazioni teoriche. Questo processo di validazione riflette l’evoluzione delle teorie psicologiche e delle metodologie di misurazione, sottolineando che la validità è dinamica e contestuale.
In sintesi, l’evoluzione della concezione di validità nelle misure psicologiche sottolinea l’importanza di un approccio comprensivo, teoricamente informato e basato sull’evidenza per valutare, interpretare e utilizzare i punteggi dei test. Questo approccio moderno incoraggia i ricercatori e i praticanti a considerare la validità come un concetto ampio che incorpora molteplici aspetti della progettazione, dell’implementazione e dell’interpretazione dei test psicologici.
Approfondimento su Tecniche di Validazione di Costrutto e Costruzione di Scale
La discussione sulla evoluzione della validità nelle misure psicologiche può proseguire con l’esame delle tecniche che vengono usate per la validazione di costrutto e per la costruzione di scale. In particolare, gli strumenti maggiormente usati dagli psicometristi sono l’Analisi Fattoriale Confermativa (CFA) e i Modelli di Equazioni Strutturali (SEM).
L’Analisi Fattoriale Confermativa (CFA) rappresenta un approccio metodologico rigoroso, basato sull’ipotesi che un insieme di osservazioni possa essere spiegato da pochi costrutti latenti. A differenza dell’Analisi Fattoriale Esplorativa, che non prevede ipotesi a priori sui fattori, la CFA richiede che i ricercatori definiscano anticipatamente un modello teorico. Questo specifica le relazioni tra le variabili osservabili e i costrutti latenti, permettendo di testare l’adeguatezza del modello ai dati. La capacità della CFA di confrontare diversi modelli offre un mezzo potente per identificare la struttura che meglio rappresenta i dati.
Nel contesto della valutazione della coerenza interna di una scala, l’utilizzo della CFA supera i limiti dei metodi basati sulla teoria classica dei test, fornendo una valutazione più dettagliata e strutturata delle relazioni tra item e costrutti latenti.
I Modelli di Equazioni Strutturali (SEM) estendono le possibilità offerte dalla CFA, abilitando l’analisi delle relazioni di regressione non solo tra variabili manifeste e latenti, ma anche tra i costrutti latenti stessi. Questa caratteristica rende i SEM strumenti eccezionalmente potenti per esplorare le interazioni complesse tra variabili in uno studio psicometrico.
L’esame della dimensionalità di un costrutto attraverso la CFA e i SEM consente di testare con precisione le ipotesi sulla struttura dimensionale dei costrutti, verificando se l’organizzazione teorizzata degli item in fattori latenti corrisponde ai dati. Questi strumenti sono quindi fondamentali per confermare la struttura di un costrutto come ipotizzato dalla teoria sottostante.
In aggiunta, l’approccio Multitrait-Multimethod (MTMM) per esaminare la validità esterna, incorporando la validità convergente e discriminante, arricchisce ulteriormente la comprensione della misura. L’uso del disegno MTMM permette di distinguere efficacemente tra costrutti correlati ma distinti, assicurando che le misure non solo riflettano accuratamente il costrutto target, ma siano anche discriminanti rispetto ad altri costrutti.
In sintesi, l’integrazione di CFA e SEM nel processo di validazione di costrutti e nella costruzione di scale psicometriche rappresenta un avanzamento metodologico significativo. Questi approcci non solo migliorano la precisione e la comprensione delle relazioni tra variabili osservabili e latenti, ma contribuiscono anche a elevare la qualità e l’affidabilità delle misure psicologiche. Attraverso un uso attento e informato di queste tecniche, i ricercatori possono arricchire la validità e l’utilità delle scale psicometriche. Chi volesse approfondire ulteriormente questi argomenti, può fare riferimento al testo di John & Benet-Martinez (2014).