21  Analisi degli item

Prerequisiti

Concetti e Competenze Chiave

21.1 Introduzione

Nel processo di sviluppo di un test, esistono numerose procedure utili per valutare la qualità e le caratteristiche di misurazione degli item del test. Tuttavia, non tutte queste procedure sono adatte per tutti i tipi di test, e non tutte forniscono lo stesso livello di informazioni sulla qualità di un determinato item. Le caratteristiche della teoria classica dei test, come la difficoltà dell’item, la discriminazione dell’item e le opzioni di risposta sbagliate, sono utili, così come le caratteristiche associate alle analisi qualitative e alle tecniche della teoria della risposta agli item.

La sfida per tutti i sviluppatori di test è quella di valutare i risultati di queste procedure alla luce dell’uso previsto del test e prendere decisioni nella selezione degli item che supportino e massimizzino l’efficacia complessiva del test nel misurare ciò che si propone di misurare. In altre parole, è importante garantire che gli item selezionati siano coerenti con l’obiettivo del test e possano fornire una misurazione accurata di ciò che si intende misurare.

Come evidenziato nel capitolo precedente, la bontà di un test è determinata dalla qualità dei suoi item. Fortunatamente, esistono diverse procedure quantitative di analisi degli item che sono utili per valutare la qualità e le caratteristiche di misurazione degli item individuali che compongono i test. Queste procedure sono comunemente denominate statistiche o procedure di analisi degli item. A differenza delle analisi di affidabilità e validità che valutano le caratteristiche di misurazione di un test nel suo insieme, le procedure di analisi degli item esaminano gli item individualmente, non l’intero test. Le statistiche di analisi degli item sono utili per aiutare gli sviluppatori di test a decidere quali item mantenere, quali modificare e quali eliminare.

La affidabilità dei punteggi di un test e la validità dell’interpretazione dei punteggi del test dipendono dalla qualità degli item presenti nel test. Migliorando la qualità degli item individuali, si migliorerà la qualità complessiva del test. Quando si discute di affidabilità, si è notato che uno dei modi più semplici per aumentare l’affidabilità dei punteggi del test è aumentare il numero di item che contribuiscono a tali punteggi. Questa affermazione è generalmente vera ed è basata sull’assunzione che allungando un test si aggiungano item della stessa qualità degli item esistenti. Se si utilizza l’analisi degli item per eliminare gli item di scarsa qualità e migliorare gli altri, è effettivamente possibile ottenere un test più breve rispetto alla versione originale, ma che produce punteggi più affidabili e risultati con interpretazioni più valide.

Inizieremo la nostra discussione descrivendo le principali procedure quantitative di analisi degli item, tra cui la Difficoltà dell’Item, la Discriminazione dell’Item e l’Analisi delle Opzioni di Risposta. Tuttavia, è importante notare che diversi tipi di item e diversi tipi di test richiedono diverse procedure di analisi degli item. Gli item che vengono valutati in modo dicotomico (cioè giusto o sbagliato) sono gestiti diversamente rispetto agli item valutati su una scala continua (ad esempio, un saggio che può ricevere punteggi da 0 a 10). I test progettati per massimizzare la variabilità dei punteggi (ad esempio, i test con riferimento alla norma) sono gestiti diversamente rispetto ai test di padronanza (cioè valutati come superato o non superato). Mentre discutiamo delle diverse procedure di analisi degli item, specificheremo quali procedure sono più appropriate per quali tipi di item e test.

21.2 Indice di Difficoltà dell’Item

L’Indice di Difficoltà dell’Item, indicato frequentemente con la sigla “p”, rappresenta un parametro fondamentale nella valutazione degli item nei test di massima performance o competenza. Esso è definito come la frazione o la percentuale di candidati che elicitano una risposta corretta all’item in questione. Matematicamente, è espresso dalla formula:

\[ p = \frac{\text{Numero di Candidati con Risposta Corretta}}{\text{Numero Totale di Candidati}} \]

Per esemplificare, in un contesto di 30 studenti, qualora 20 studenti forniscano una risposta esatta, l’indice si calcola come:

\[ p = \frac{20}{30} = 0.66 \]

Questo indice varia nell’intervallo [0.0, 1.0], dove valori prossimi a 1.0 indicano un’alta facilità dell’item, e viceversa valori prossimi a 0.0 denotano un’alta difficoltà. Un indice pari a 1.0 o 0.0 non contribuisce significativamente alla discriminazione tra i candidati, benché talvolta possano essere impiegati per scopi motivazionali all’inizio di un test.

21.2.1 Efficienza Temporale e Livello di Difficoltà Ottimale

La selezione degli item in base al loro livello di difficoltà deve tenere conto anche dell’efficienza temporale. Spesso, item estremamente facili o difficili non aggiungono valore significativo alla misura del test e possono risultare in una gestione subottimale del tempo disponibile.

Idealmente, un indice di difficoltà medio di 0.50, dove la metà dei candidati risponde correttamente e l’altra metà no, massimizza la variabilità e l’affidabilità del test. Tuttavia, questa uniformità non è sempre desiderabile o fattibile, a causa delle interrelazioni tra gli item e delle specifiche esigenze di misurazione.

21.2.2 Influenza del Guessing e Tipologie di Test

Il livello di difficoltà ottimale varia a seconda della tipologia del test e della possibilità di indovinare le risposte. Nei test con item a risposta costruita, dove l’indovinare è meno rilevante, un indice medio di 0.50 è generalmente preferibile. Nei test a risposta selezionata, come quelli a scelta multipla, si considera un valore medio di “p” più elevato per bilanciare l’effetto dell’indovinamento.

21.2.3 Contesti Specifici di Valutazione

In test con riferimento ai criteri o test di padronanza, la valutazione della difficoltà segue logiche differenti. Per esempio, in test di padronanza, è comune che la maggior parte degli item abbia un indice “p” elevato, per riflettere l’aspettativa che la maggioranza dei candidati superi il test. In contesti di selezione o per test destinati a individuare candidati altamente performanti, si potrebbero preferire item con un indice di difficoltà significativamente diverso.

21.2.4 Variazioni in Funzione del Campione

È cruciale notare che l’indice di difficoltà è intrinsecamente legato alle caratteristiche del campione considerato. Ad esempio, lo stesso item può presentare indici di difficoltà differenti se somministrato a gruppi con livelli di competenza diversi.

21.2.5 Statistica della Percentuale di Approvazione

Per i test di risposta tipica, si utilizza un indice analogo all’indice di difficoltà, noto come statistica della percentuale di approvazione. Questa statistica indica la percentuale di candidati che rispondono in un determinato modo a un item, e varia a seconda del campione e del contesto.

21.2.6 Applicazioni nell’Analisi e Sviluppo di Test

L’analisi dell’indice di difficoltà e di altre statistiche relative agli item è cruciale per gli sviluppatori di test nella selezione, modifica, o eliminazione degli item durante lo sviluppo o la revisione dei test. Tale analisi è complementare ad altre procedure di analisi degli item, come l’indice di discriminazione dell’item, che sarà discusso successivamente.

21.3 Discriminazione dell’item

L’item discrimination, in italiano “discriminazione dell’item,” si riferisce a quanto bene un item può discriminare o differenziare tra i partecipanti al test che differiscono sulla costrutto misurato dal test. Ad esempio, se un test è progettato per misurare l’abilità di lettura, la discriminazione dell’item riflette la capacità di un item di distinguere tra individui con buone capacità di lettura e quelli con scarse capacità di lettura. A differenza del livello di difficoltà dell’item, per il quale esiste un accordo su come calcolare la statistica, nel corso degli anni sono stati sviluppati oltre 50 diversi indici di discriminazione dell’item (Anastasi & Urbina, 1997). Fortunatamente, la maggior parte di questi indici produce risultati simili (Engelhart, 1965; Oosterhof, 1976). Ci concentreremo sulla discussione di due dei più popolari indici di discriminazione dell’item: l’indice di discriminazione e le correlazioni item-totali.

21.3.1 Indice di Discriminazione

Un metodo popolare per calcolare un indice di discriminazione dell’item si basa sulla differenza nelle prestazioni tra due gruppi. Sebbene ci siano modi diversi per selezionare i due gruppi, vengono tipicamente definiti in termini di prestazioni totali al test. Un approccio comune è selezionare il 27% migliore e il 27% peggiore dei partecipanti in termini di prestazioni complessive al test, escludendo il 46% centrale (Kelley, 1939). Alcuni esperti di valutazione hanno suggerito di utilizzare il 25% migliore e il 25% peggiore, alcuni il 33% migliore e il 33% peggiore, e alcuni la metà superiore e inferiore. In pratica, tutti questi sono probabilmente accettabili, ma la nostra raccomandazione è di utilizzare il tradizionale 27% superiore e inferiore. La difficoltà dell’item è calcolata separatamente per ciascun gruppo, e questi sono denominati pT e pB (“T” per il gruppo superiore, “B” per il gruppo inferiore). La differenza tra pT e pB è l’indice di discriminazione, designato come D. Viene calcolato con la seguente formula (es. Johnson, 1951):

\[ D = p_T - p_B \]

dove: - D = Indice di Discriminazione - pT = Proporzione dei partecipanti nel Gruppo Superiore che Risponde Correttamente all’Item - pB = Proporzione dei partecipanti nel Gruppo Inferiore che Risponde Correttamente all’Item

Per illustrare la logica di questo indice, consideriamo un test di rendimento progettato per misurare il rendimento accademico in un’area specifica. Se l’item sta discriminando tra partecipanti che conoscono il materiale e quelli che non lo conoscono, allora i partecipanti più informati (cioè, quelli nel “gruppo superiore”) dovrebbero rispondere correttamente all’item più spesso dei partecipanti meno informati (cioè, quelli nel “gruppo inferiore”). Ad esempio, se pT = 0.80 (indicando che l’80% dei partecipanti nel gruppo superiore ha risposto correttamente all’item) e pB = 0.30 (indicando che il 30% dei partecipanti nel gruppo inferiore ha risposto correttamente all’item), allora:

\[ D = 0.80 - 0.30 = 0.50. \]

Hopkins (1998) ha fornito linee guida per valutare gli item in termini dei loro valori di D. Secondo queste linee guida, i valori di D superiori a 0.40 sono considerati eccellenti, tra 0.30 e 0.39 sono buoni, tra 0.11 e 0.29 sono accettabili e tra 0.00 e 0.10 sono scadenti. Gli item con valori di D negativi probabilmente sono stati formulati in modo errato o presentano altri problemi gravi. Altri esperti di valutazione hanno fornito linee guida diverse, alcune più rigorose e altre più indulgenti. Come regola generale, si suggerisce che gli item con valori di D superiori a 0.30 siano accettabili (quanto più alti, tanto meglio), mentre gli item con valori di D inferiori a 0.30 dovrebbero essere attentamente valutati, e eventualmente rivisti o eliminati.

21.4 Test di Padronanza

Nei test di padronanza, gli item tendono ad avere indici di difficoltà più elevati rispetto a quelli di test normativi, implicando che gli item sono generalmente più facili. Questa caratteristica deriva dall’assunzione che la maggior parte dei partecipanti otterrà risultati positivi nei test di padronanza. Di conseguenza, è frequente che gli item in questi test abbiano una proporzione elevata di risposte corrette (valori medi di p), talvolta raggiungendo il 90%.

Questa tendenza richiede un adattamento nell’interpretazione degli indici di difficoltà degli item. La necessità di adattamento si estende anche all’interpretazione degli indici di discriminazione. Nei test di padronanza, dove è comune che sia partecipanti con punteggi alti sia quelli con punteggi bassi otteniano valori elevati di p, gli indici tradizionali di discriminazione potrebbero non riflettere accuratamente le capacità di misurazione di un item.

Per affrontare questa sfida, sono stati proposti diversi metodi per calcolare la discriminazione degli item nei test di padronanza. Aiken (2000), ad esempio, suggerisce un metodo che considera la difficoltà degli item basandosi sui partecipanti che hanno raggiunto (o non raggiunto) il punteggio di padronanza. La formula proposta è:

\[ D = p_{mastery} - p_{non-mastery} \]

dove \(p_{mastery}\) rappresenta la proporzione di partecipanti che hanno raggiunto la padronanza e hanno risposto correttamente all’item, mentre \(p_{non-mastery}\) indica la proporzione di partecipanti che non hanno raggiunto la padronanza e hanno risposto correttamente.

Un altro metodo per valutare la discriminazione degli item è l’uso della correlazione item-totale. Questo approccio correla le prestazioni su un singolo item con il punteggio totale del test, utilizzando di solito la correlazione punto-biserial. Un’alta correlazione item-totale indica che l’item misura lo stesso costrutto dell’intero test e discrimina efficacemente tra individui con alta e bassa competenza nel costrutto misurato. È preferibile calcolare questa correlazione escludendo l’item in esame dal punteggio totale del test, per evitare di “contaminare” o gonfiare la correlazione. Attualmente, la correlazione item-totale è il metodo più utilizzato per esaminare la discriminazione degli item nei test.

Questi approcci offrono strumenti importanti per comprendere e migliorare la qualità dei test di padronanza, garantendo che siano sia accessibili sia capaci di distinguere accuratamente tra diversi livelli di competenza.

21.5 Discriminazione degli Item nei Test con Risposte Tipiche

L’analisi degli item nei test con risposte tipiche riguarda l’analisi di item quelli finalizzati alla misurazione di tendenze comportamentali. Un esempio pertinente è un item di un test progettato per valutare la propensione alla ricerca di sensazioni, basato su affermazioni a cui si risponde con “Vero” o “Falso”. In questo contesto, le risposte “Vero” (valutate con “1”) indicano una tendenza verso comportamenti di ricerca di sensazioni, mentre le risposte “Falso” (valutate con “0”) denotano una propensione ad evitarli. Pertanto, punteggi elevati in tali test suggeriscono un gusto per comportamenti ad alta sensazione, mentre punteggi bassi indicano una tendenza all’evitamento.

La correlazione tra gli item e il punteggio totale del test può essere usata per l’identificazione degli item più efficaci nel discriminare tra individui con diverse propensioni alla ricerca di sensazioni. Gli item con elevata correlazione risultano particolarmente utili per distinguere soggetti con alta o bassa propensione a tali comportamenti.

L’interpretazione degli indici di difficoltà e discriminazione diventa però più complessa nei cosiddetti “test di velocità”. Questi test sono caratterizzati da item generalmente facili, ma con limiti di tempo stringenti che impediscono ai candidati di completarli tutti. La prestazione nei test di velocità è quindi influenzata principalmente dalla rapidità di risposta, contrariamente ai test di potenza, dove il tempo non è un fattore limitante e la difficoltà degli item varia significativamente.

Nei test di velocità, la difficoltà e la capacità discriminativa degli item tendono a riflettere la loro posizione all’interno del test piuttosto che la loro intrinseca difficoltà o capacità di discriminare tra candidati. Gli item situati verso la fine del test tendono ad essere completati da un numero minore di candidati a causa dei limiti temporali, non perché siano effettivamente più difficili. Allo stesso modo, l’indice di discriminazione degli item posti verso la fine potrebbe essere esagerato, in quanto solo i candidati più capaci riescono a raggiungerli e completarli.

Nonostante siano state proposte varie metodologie per controbilanciare questi fattori, ogni approccio presenta delle limitazioni e non ha ancora guadagnato un’ampia accettazione nella comunità scientifica. Pertanto, è essenziale essere consapevoli di queste complessità e tenerle in considerazione nell’interpretazione delle analisi degli item nei test di velocità.

21.6 Analisi dei Distrattori

È cruciale valutare l’efficacia dei distrattori nell’analisi quantitativa dei test a scelta multipla. I distrattori sono le opzioni errate fornite nelle domande, progettate per deviare l’attenzione degli esaminandi meno preparati. Questa analisi esamina la frequenza con cui esaminandi con punteggi alti e bassi scelgono ciascun distrattore. Un aspetto fondamentale è analizzare ogni distrattore ponendo due questioni centrali.

Prima, il distrattore è effettivamente un’opzione che confonde alcuni esaminandi? Se nessuno sceglie il distrattore, questo indica che non sta adempiendo alla sua funzione. Un distrattore adeguato dovrebbe essere selezionato da alcuni esaminandi. Al contrario, se un distrattore è palesemente errato e nessuno lo sceglie, risulta inefficace e necessita di revisione o sostituzione.

Seconda, quanto bene il distrattore discrimina tra i diversi gruppi di esaminandi? I distrattori efficaci tendono ad attrarre più candidati con punteggi bassi rispetto a quelli con punteggi alti. Analizzando la risposta corretta, ci aspettiamo che più esaminandi con punteggi alti la scelgano rispetto a quelli con punteggi bassi, indicando una discriminazione positiva. Per i distrattori, l’effetto dovrebbe essere l’opposto: più esaminandi con punteggi bassi dovrebbero scegliere i distrattori rispetto a quelli con punteggi alti, dimostrando così una discriminazione negativa.

21.7 Le Curve Caratteristiche Degli Item nella IRT

Un argomento importante nella discussione dell’analisi degli item riguarda la nozione di curva caratteristica dell’item, così com’è stata formultata dalla IRT. Questo argomento verrà trattato in maniera approfondita in un capitolo successivo.

21.8 Considerazioni Conclusive

Questo capitolo fornisce una panoramica approfondita delle procedure di analisi degli item, strumenti fondamentali per gli sviluppatori di test nel decidere quali item mantenere, modificare o eliminare. Si esplorano diverse procedure, tra cui:

  1. Livello di Difficoltà dell’Item: Definito come la percentuale di esaminandi che rispondono correttamente a un item, l’indice di difficoltà (p) varia da 0.0 a 1.0. Gli item più facili presentano valori decimali maggiori, mentre quelli difficili valori minori. Il livello ottimale di difficoltà, per massimizzare la variabilità tra gli esaminandi, è 0.50. Tuttavia, a seconda della situazione, possono essere preferiti valori diversi, generalmente tra 0.20 e 0.80.

  2. Discriminazione dell’Item: Questo concetto si riferisce alla capacità di un item di distinguere tra esaminandi che variano rispetto al costrutto del test. Discutiamo l’indice di discriminazione dell’item (D), considerando accettabili valori di D pari o superiori a 0.30, mentre quelli inferiori a 0.30 potrebbero richiedere revisione o eliminazione. Esploriamo anche la correlazione item-totalità come metodo alternativo per esaminare la discriminazione.

  3. Analisi dei Distrattori: Questa procedura valuta l’efficacia dei distrattori nelle domande a scelta multipla, ponendo due domande principali: un distrattore funzionale dovrebbe attirare alcuni esaminandi e, per la discriminazione, dovrebbe attrarre più esaminandi nel gruppo con punteggi bassi rispetto a quelli con punteggi alti.

  4. Procedure Qualitative: Oltre alle procedure quantitative, si suggerisce l’utilizzo di metodi qualitativi per migliorare i test. Tra questi, la revisione accurata del test, la valutazione da parte di colleghi fidati e il feedback degli esaminandi sulla chiarezza e problemi degli item.

  5. Curve Caratteristiche dell’Item e Teoria della Risposta all’Item (IRT): Le curve caratteristiche dell’item (ICC) rappresentano graficamente la relazione tra l’abilità e la probabilità di risposta corretta. L’IRT, componente centrale delle ICC, assume che le risposte agli item siano determinate da tratti latenti e ha influenzato significativamente lo sviluppo di test moderni, inclusi i test adattivi computerizzati.

L’utilizzo di queste procedure durante lo sviluppo del test migliora l’affidabilità dei punteggi e la validità delle loro interpretazioni, essendo entrambe dipendenti dalla qualità degli item. La rimozione degli item scarsi e il miglioramento degli altri possono anche portare a un test più corto ed efficiente, con punteggi più affidabili e interpretazioni più valide.