20 Lo sviluppo degli item

Prerequisiti

Concetti e Competenze Chiave

20.1 Introduzione

I test psicologici sono composti da item, quindi la bontà degli item determina la bontà del test. A prima vista, lo sviluppo di buoni item può sembrare un’impresa semplice e diretta, ma in realtà, la bontà degli item è determinata dalla attenta considerazione di diversi importanti fattori combinata con una valutazione quantitativa tramite specifiche procedure psicometriche. In questo capitolo, forniamo una discussione pratica su come sviluppare buoni item. Ciò include la discussione dei diversi formati di item disponibili agli autori di test e alcune linee guida di base per lo sviluppo degli item. Discutiamo lo sviluppo di item per test di massima prestazione e test di risposta tipica. Ricorderete che i test di massima prestazione sono progettati per determinare i limiti superiori delle abilità o conoscenze delle persone, mentre i test di risposta tipica valutano le loro caratteristiche quotidiane o abitudinarie. In un contesto occupazionale, un datore di lavoro potrebbe utilizzare un test di risposta tipica per determinare se un dipendente sta completando le attività quotidiane richieste per il lavoro e un test di massima prestazione per determinare se il dipendente ha la conoscenza o l’abilità necessaria per una promozione a un lavoro di livello superiore e più complesso. I test di massima prestazione e di risposta tipica hanno ruoli importanti nella valutazione psicologica, quindi consideriamo gli item utilizzati in entrambi i casi. Iniziamo questo capitolo con una breve panoramica dei formati di item più popolari prima di procedere con una discussione delle linee guida per lo sviluppo degli item.

20.2 Classificazione degli Item nei Test Psicometrici

Nel panorama della psicometria, la classificazione degli item di test è fondamentale per determinare la loro validità e affidabilità. Tradizionalmente, gli item si distinguono in due categorie principali: oggettivi e soggettivi. Questa bipartizione, seppur utile, non esaurisce l’ampiezza e la complessità della materia. Pertanto, è essenziale esplorare in modo più approfondito i criteri di classificazione e le loro implicazioni.

20.2.1 Item Oggettivi e Soggettivi: Un Continuum di Valutazione

La distinzione primaria tra item oggettivi e soggettivi si basa sul metodo di valutazione. Gli item oggettivi si caratterizzano per la presenza di un consenso ampio tra gli esperti circa la correttezza delle risposte, come nel caso degli item a scelta multipla, vero/falso e di abbinamento. In questi formati, la correttezza della risposta è inequivocabile e non presta il fianco a interpretazioni soggettive.

Al contrario, gli item soggettivi implicano una maggiore discrezionalità nella valutazione. Esempi tipici sono gli item a tema o le risposte in un esame orale, dove l’apporto soggettivo del valutatore gioca un ruolo cruciale. Questa categoria di item richiede una valutazione più articolata e può portare a divergenze tra i valutatori.

20.2.2 Classificazione Alternativa: Risposta Selezionata vs Risposta Costruita

Una classificazione più moderna e funzionale distingue gli item in base alla natura della risposta richiesta: risposta selezionata e risposta costruita. In questo schema, gli item a risposta selezionata includono quelli a scelta multipla, vero/falso e di abbinamento, dove la risposta è già fornita e il candidato deve selezionarla. Questi item permettono una valutazione rapida, oggettiva e affidabile, rendendoli particolarmente adatti per test di ampio respiro.

Gli item a risposta costruita, invece, richiedono al candidato di generare una risposta, come nei casi di risposte brevi, saggi o valutazioni delle prestazioni. Questi item sono più idonei per valutare abilità cognitive di ordine superiore e competenze specifiche, ma sono più soggetti a valutazioni soggettive e richiedono un tempo maggiore sia per la risposta sia per la valutazione.

20.2.3 Punti di Forza e Limitazioni

Ogni categoria di item presenta specifici punti di forza e limitazioni. Gli item a risposta selezionata sono efficienti, affidabili e permettono di includere un maggior numero di domande nel test, ma possono essere complessi da formulare e potrebbero non essere adatti per valutare tutte le tipologie di competenze. Inoltre, sono soggetti al rischio di risposte casuali o indovinate.

Gli item a risposta costruita, d’altra parte, sono più adatti per valutare competenze complesse e abilità di ordine superiore, ma richiedono più tempo per la risposta e la valutazione, e possono essere influenzati da fattori estranei non correlati al costrutto da misurare.

Nella scelta del formato di valutazione, il fattore determinante dovrebbe essere l’adeguatezza del formato nel misurare il costrutto di interesse in modo diretto e puro. La scelta dipenderà dagli obiettivi specifici del test e dalla natura del costrutto da valutare. In generale, si raccomanda di preferire gli item a risposta selezionata per la loro capacità di campionare ampiamente il dominio del contenuto e per le loro caratteristiche di valutazione più oggettive e affidabili. Tuttavia, gli item a risposta costruita sono indispensabili per valutare certe competenze e abilità cognitive di ordine superiore.

In conclusione, una comprensione approfondita delle diverse tipologie di item e delle loro specificità è fondamentale per lo sviluppo di strumenti psicometrici efficaci e affidabili, in grado di fornire valutazioni precise e pertinenti ai costrutti psicologici in esame.

20.3 Linee Guida Generali per la Redazione di Item di Test

Vengono qui presentate alcune linee guida per lo sviluppo di vari tipi di item di test. Queste indicazioni devono però essere applicate in modo flessibile. L’obiettivo principale nella creazione di item di test è sviluppare domande che misurino in modo preciso il costrutto specificato, contribuendo alla validità psicometrica del test. I criteri usati per lo sviluppo degli item devono comunque sempre in primo luogo cercare di raggiungere quello che è l’obiettivo primario per cui il test viene costruito.

Fornire Istruzioni Chiare: È comune per i redattori di test inesperti assumere che i candidati sappiano come rispondere a diversi formati di item. Includere sempre istruzioni dettagliate che specificano chiaramente come il candidato debba rispondere a ciascun formato di item. Assumere che i candidati non abbiano mai visto un test simile e fornire istruzioni dettagliate per garantire che sappiano cosa ci si aspetta da loro. Tuttavia, istruzioni troppo lunghe e dettagliate possono diminuire la chiarezza.
Presentare il Problema in Modo Chiaro: Mantenere la redazione degli item il più semplice possibile. A meno che non si stia valutando la capacità di lettura, puntare a un livello di lettura basso. Evitare termini scientifici o tecnici non necessari, così come costruzioni di frasi complesse o ambigue.
Sviluppare Item Valutabili in Modo Decisivo: Assicurarsi che gli item abbiano risposte chiare su cui quasi tutti gli esperti sarebbero d’accordo. Nel caso di saggi e valutazioni delle prestazioni, considerare se gli esperti concorderebbero sulla qualità della prestazione nel compito.
Evitare Indizi Involontari: Fare attenzione a non includere indizi involontari che potrebbero guidare il candidato verso la risposta corretta.
Sistemare gli Item in Modo Sistematico: Organizzare gli item in modo che favoriscano la prestazione ottimale dei candidati. Se il test contiene più formati di item, raggrupparli in sezioni in base al tipo di item. Disporre gli item secondo il loro livello di difficoltà, iniziando da quelli più facili.
Mantenere gli Item su Una Pagina: Assicurarsi che ciascun item a risposta selezionata sia contenuto in una pagina, per evitare confusione e errori.
Personalizzare gli Item per la Popolazione di Riferimento: Considerare attentamente il tipo di clienti con cui il test sarà utilizzato e personalizzare gli item di conseguenza.
Minimizzare l’Impatto di Fattori Irrilevanti: Cercare e minimizzare i fattori cognitivi, motori e altri che sono necessari per rispondere correttamente agli item, ma irrilevanti per il costrutto misurato.
Evitare la Parafrasi del Materiale di Studio: Quando si preparano test di rendimento, evitare di usare la stessa formulazione presente nei libri di testo o altri materiali di studio.
Evitare Linguaggio Pregiudizievole o Offensivo: Rivedere attentamente gli item per lingua potenzialmente pregiudizievole o offensiva.
Usare un Formato di Stampa Chiaro e Leggibile: Utilizzare una dimensione e un interlinea del carattere chiari e appropriati per i candidati.
Determinare il Numero di Item da Includere: Considerare fattori come il tempo disponibile, l’età dei candidati, i tipi di item, l’ampiezza del materiale o degli argomenti valutati e il tipo di test.

Queste linee guida sono fondamentali per lo sviluppo di item di test che siano non solo tecnicamente validi, ma anche accessibili e giusti per i candidati. L’applicazione flessibile e consapevole di queste indicazioni contribuirà significativamente all’efficacia e all’affidabilità degli strumenti di valutazione psicometrica.

20.4 Test di Massima Prestazione

In questa sezione, ci concentreremo sullo sviluppo degli item per i test di massima prestazione, in particolare quelli progettati per valutare obiettivi educativi o di apprendimento. Sebbene tali linee guida siano pensate principalmente per i test di rendimento, molte di esse sono applicabili anche ai test di attitudine che utilizzano questi tipi di item. Inizieremo esaminando gli item a risposta selezionata, per poi passare agli item a risposta costruita. In sezioni successive, forniremo suggerimenti per sviluppare linee guida per i test di prestazione tipica.

20.4.1 Item a Scelta Multipla

Gli item a scelta multipla sono tra i più popolari nel formato a risposta selezionata. Sono molto diffusi perché applicabili in diverse aree tematiche e capaci di valutare obiettivi semplici e complessi. Generalmente, assumono la forma di una domanda o di un’affermazione incompleta, con un insieme di possibili risposte, una delle quali è corretta. La parte dell’item che presenta la domanda o l’affermazione incompleta è chiamata “stem” o “radice”. Le possibili risposte sono denominate “alternative”. L’alternativa corretta è detta “risposta”, mentre le alternative errate sono note come “distrattori”.

20.4.1.1 Suggerimenti per Sviluppare Item a Scelta Multipla

Usare un Formato Chiaro: Non esiste un formato universalmente accettato, ma alcune raccomandazioni sul layout possono migliorare la chiarezza.
- Numerare lo stem dell’item per un’identificazione facile.
- Indentare le alternative e identificarle con lettere.
- Non capitalizzare l’inizio delle alternative, a meno che non inizino con un nome proprio.
- Disporre le alternative in un elenco verticale per facilitarne la lettura rapida.
Fornire Tutte le Informazioni Necessarie nello Stem dell’Item: Il problema o la domanda deve essere completamente sviluppato nello stem dell’item. Leggere lo stem dell’item senza esaminare le alternative per assicurarsi che sia sufficiente per comprendere la domanda.
Fornire da Tre a Cinque Alternative: L’uso di più alternative riduce la possibilità di indovinare la risposta corretta. Quattro è il numero più comune di alternative, ma cinque è raccomandato per ridurre ulteriormente il tasso di successo casuale.
Mantenere le Alternative Brevi e Ordinate: Le alternative devono essere il più brevi possibile e disposte in un ordine logico.
Evitare Affermazioni Negative nello Stem dell’Item: Limitare l’uso di termini come “eccetto”, “meno”, “mai” o “non”. In casi eccezionali, evidenziare i termini negativi con maiuscole, sottolineatura o grassetto.
Assicurare una Sola Risposta Corretta o la Migliore Risposta: Rivedere attentamente le alternative per garantire una sola risposta corretta o la migliore.
Coerenza Grammaticale tra Stem dell’Item e Alternative: Tutte le alternative devono essere grammaticalmente corrette rispetto allo stem dell’item.
Rendere Tutti i Distrattori Plausibili: I distrattori devono sembrare ragionevoli e basarsi su errori comuni.
Posizionare Casualmente la Risposta Corretta: Distribuire equamente la risposta corretta tra le posizioni delle alternative per evitare schemi prevedibili.
Limitare l’Uso di ‘Nessuna delle Precedenti’ e Evitare ‘Tutte le Precedenti’: Utilizzare “Nessuna delle sopra” con parsimonia e evitare completamente “Tutte le sopra”.
Limitare l’Uso di ‘Sempre’ e ‘Mai’ nelle Alternative: Evitare generalmente l’uso di termini assoluti come “sempre” e “mai”.

Gli item a scelta multipla sono un formato efficace per la valutazione, grazie alla loro versatilità, valutazione oggettiva e affidabile, e capacità di coprire ampiamente il dominio del contenuto. Tuttavia, la loro redazione non è semplice e non sono adatti per misurare tutti gli obiettivi di apprendimento.

20.5 Formato di Risposta Vero/Falso

Il formato di risposta vero/falso rappresenta una delle tipologie più popolari di item a risposta selezionata, seconda solo alla scelta multipla. Utilizzeremo il termine “vero/falso” per riferirci a una classe più ampia di item che possono includere formati binari, come accordo/disaccordo, corretto/errato, sì/no, fatto/opinione. Poiché il formato più comune è vero/falso, useremo questo termine in senso generico per indicare tutti gli item a due opzioni. Di seguito, forniremo linee guida per lo sviluppo di item vero/falso.

20.5.1 Linee Guida per Sviluppare Item Vero/Falso

Evitare Più di un’idea per Affermazione: Ogni item vero/falso dovrebbe affrontare una sola idea centrale. Evitare determinanti specifici e qualificatori che possano fungere da indizi per la risposta. Determinanti come “mai”, “sempre”, “nessuno” e “tutti” si trovano più frequentemente in affermazioni false e possono guidare i candidati non informati verso la risposta corretta. Al contrario, affermazioni moderate come “di solito”, “a volte” e “frequentemente” tendono a essere più veritiere e possono servire come indizi. Sebbene sia difficile evitare completamente i qualificatori, si consiglia di bilanciarli tra affermazioni vere e false per ridurne il valore come indizi.
Avere Affermazioni Vere e False di Lunghezza Simile: Spesso gli autori tendono a formulare affermazioni vere più lunghe di quelle false. Per evitare che la lunghezza diventi un indizio involontario, è necessario assicurarsi che non ci sia una differenza evidente tra la lunghezza delle affermazioni vere e quelle false.
Includere un Numero Approssimativamente Uguale di Affermazioni Vere e False: Alcuni candidati tendono a scegliere “Vero” quando non sono sicuri della risposta, e altri “Falso”. Per prevenire un incremento artificiale dei punteggi dovuto a questi schemi di risposta, è consigliato includere un numero approssimativamente uguale di item veri e falsi. Alcuni autori suggerivano che nel formato vero/falso, il 60% degli item dovesse essere vero. Tuttavia, ciò è utile solo in circostanze limitate e non si applica ai test di prestazione tipica, essendo superato dal problema degli schemi di risposta e delle strategie di indovinamento. È preferibile un equilibrio.

Gli item vero/falso sono popolari nei test di massima prestazione. Sebbene possano essere valutati in modo oggettivo e affidabile e permettano ai candidati di rispondere a molti item in breve tempo, presentano varie debolezze. Ad esempio, sono spesso limitati alla valutazione di obiettivi di apprendimento piuttosto semplici e sono vulnerabili all’indovinamento. Prima di utilizzare gli item vero/falso, è raccomandato valutare i loro punti di forza e debolezze per assicurarsi che siano il formato più appropriato per valutare gli obiettivi specifici di apprendimento. Una checklist per lo sviluppo di item vero/falso può fornire un riferimento utile, applicabile anche ai formati sì/no spesso usati con individui più giovani.

20.6 Formato di Risposta

20.6.1 Item di Abbinamento

Gli item di abbinamento (Matching Items) consistono in due colonne di parole o frasi: una colonna contiene i termini da abbinare (solitamente a sinistra, denominati “premesse”), e l’altra contiene le opzioni di risposta (a destra, chiamate “risposte”). Le premesse sono numerate, mentre le risposte sono identificate con lettere. Di seguito, alcune linee guida per lo sviluppo di questi item:

Limitare l’Uso di Materiali Omogenei: È fondamentale che le liste siano il più omogenee possibile, basate su un tema comune. Evitare di includere materiali eterogenei.
Specificare nella Direzione le Basi dell’Abbinamento: Indicare chiaramente nelle istruzioni la base logica per l’abbinamento delle premesse con le risposte.
Includere più Risposte che Premesse: Ciò riduce la possibilità che i candidati non informati indovinino correttamente tramite eliminazione.
Indicare che le Risposte Possono Essere Utilizzate Più Volte o Non Utilizzate: Questo riduce l’impatto dell’indovinamento.
Mantenere le Liste Brevi: Liste più brevi sono più gestibili sia per chi redige il test sia per chi lo svolge, evitando fattori confondenti come la memoria a breve termine.
Assicurare che le Risposte Siano Brevi e Ordinate Logicamente: Ciò facilita la scansione efficiente delle opzioni da parte dei candidati.

Gli item di abbinamento possono essere valutati in modo oggettivo e affidabile, e sono relativamente facili da sviluppare. Tuttavia, hanno uno scopo limitato e possono promuovere la memorizzazione meccanica.

20.6.2 Saggi

Un item di saggio pone al candidato una domanda o un problema da rispondere in un formato scritto aperto. Essendo item a risposta costruita, richiedono una risposta elaborata dal candidato, non la selezione tra alternative. Di seguito alcune linee guida:

Specificare Chiaramente il Compito di Valutazione: È cruciale che il compito richiesto dall’item di saggio sia chiaramente definito, specificando la forma e l’ambito della risposta attesa.
Utilizzare più Item a Risposta Ristretta Rispetto a Quelli a Risposta Estesa: Gli item a risposta ristretta sono più facili da valutare in modo affidabile e consentono una migliore campionatura del dominio di contenuto.
Sviluppare e Utilizzare una Rubrica di Valutazione: Una rubrica di valutazione fornisce indicazioni chiare per la valutazione di una risposta costruita, essenziale per una valutazione affidabile.
Limitare l’Uso degli Item di Saggio a Obiettivi Non Misurabili con Item a Risposta Selezionata: Gli item di saggio hanno limitazioni, inclusa la difficoltà di valutazione affidabile e una minore campionatura del dominio di contenuto.

In generale, gli item di saggio sono adatti per misurare obiettivi complessi e sono relativamente facili da scrivere, ma presentano difficoltà nella valutazione affidabile e nella limitata campionatura del dominio di contenuto. Si raccomanda di limitare l’uso degli item di saggio alla misurazione di obiettivi che non sono facilmente valutabili tramite item a risposta selezionata.

20.7 Formato di Risposta Breve

Gli item a risposta breve richiedono al candidato di fornire una parola, frase, numero o simbolo in risposta a una domanda diretta. Possono anche essere formulati come frasi incomplete, in un formato talvolta definito come “completamento”. Rispetto agli item di saggio, gli item a risposta breve pongono limiti più stretti sulla natura e lunghezza della risposta. Praticamente, un item a risposta breve è simile a un item di saggio a risposta ristretta, ma con ulteriori restrizioni. Di seguito alcune indicazioni specifiche per la redazione di item a risposta breve:

Strutturare l’Item per una Risposta il più Breve Possibile: Gli item a risposta breve dovrebbero richiedere risposte concise, semplificando così la valutazione e rendendola più affidabile.
Garantire una Sola Risposta Corretta: È importante che ci sia una sola risposta corretta per ogni item, evitando interpretazioni multiple.
Preferire il Formato di Domanda Diretta alla Frase Incompleta: Generalmente, il formato di domanda diretta è meno confuso per i candidati. Utilizzare il formato di frase incompleta solo se questo comporta una maggiore brevità senza perdere in chiarezza.
Nel Formato di Frase Incompleta, Utilizzare un Solo Spazio Vuoto: Limitare ciascuna frase incompleta a uno spazio vuoto, preferibilmente vicino alla fine della frase, per maggior chiarezza.
Fornire Spazi Adeguati per le Risposte: Assicurarsi che ogni spazio vuoto fornisca spazio sufficiente per la risposta del candidato, evitando che la lunghezza dello spazio possa fornire indizi sulla risposta.
Per Domande Quantitative, Indicare il Grado di Precisione Richiesto: Specificare, ad esempio, se la risposta deve essere espressa in pollici, o se le frazioni devono essere ridotte ai minimi termini.
Creare una Rubrica di Valutazione e Applicarla in Modo Coerente: Come per gli item di saggio, è importante creare e utilizzare in modo coerente una rubrica di valutazione.

Gli item a risposta breve, simili agli item di saggio, richiedono una risposta scritta dal candidato ma con limiti più ristretti nella formulazione della risposta. Sono adatti per misurare determinati obiettivi di apprendimento (ad esempio, calcoli matematici) e sono relativamente facili da scrivere. Tuttavia, come gli item di saggio, presentano sfide nella valutazione affidabile e dovrebbero essere usati in modo oculato. Una checklist può fornire una guida utile per lo sviluppo di questi item.

20.7.1 Test di Risposta Tipica

Dopo aver esaminato vari formati di item utilizzati nei test di massima prestazione, ci concentreremo sugli item comunemente usati nei test di risposta tipica, come le scale di personalità e di atteggiamento. Descriveremo diversi formati di item comuni a questi test e forniremo alcune linee guida generali per lo sviluppo di item. La valutazione di sentimenti, pensieri, dialoghi interni e altri comportamenti occulti è meglio realizzata tramite autovalutazione, che sarà il focus della nostra discussione. Tuttavia, come nei test di massima prestazione, esistono numerosi formati di item disponibili per le misure di autovalutazione.

20.7.1.1 Linee Guida per la Redazione di Item in Test di Risposta Tipica

Concentrarsi su Pensieri, Sentimenti e Comportamenti, non su Fatti: Nei test di risposta tipica, l’obiettivo è valutare le esperienze del candidato: i suoi pensieri, sentimenti e comportamenti tipici. Di conseguenza, si dovrebbero evitare affermazioni basate su informazioni fattuali che possono essere valutate come “corrette” o “errate”.
Limitare le Affermazioni a un Singolo Pensiero, Sentimento o Comportamento: Ogni affermazione dovrebbe concentrarsi su un solo pensiero, sentimento, comportamento o atteggiamento.
Evitare Affermazioni Universali: Per aumentare la varianza e migliorare l’affidabilità, si dovrebbero scrivere item che misurano le differenze individuali. Se tutti o quasi tutti rispondono a un item nello stesso modo, questo non contribuisce alla misurazione dei costrutti identificati.
Includere Item Formulati sia in Modo “Positivo/Favorevole” che “Negativo/Sfavorevole”: Come regola generale, usare una combinazione di item formulati in modo “positivo” e “negativo”. Ciò può incoraggiare i candidati a evitare uno stile di risposta in cui semplicemente segnano la stessa opzione di risposta su tutti gli item. Questo è più applicabile agli item Vero/Falso e alle scale Likert, e meno alle scale di valutazione dove si cerca di valutare la frequenza di pensieri, sentimenti e comportamenti problematici.
Utilizzare un Numero Appropriato di Opzioni: Per le scale di valutazione, 4 o 5 opzioni di risposta sembrano ottimali per sviluppare affidabilità senza allungare eccessivamente il tempo richiesto per completare le valutazioni. Le scale di valutazione con più di 4 o 5 opzioni raramente migliorano l’affidabilità o la validità dell’interpretazione dei punteggi del test e richiedono più tempo ai candidati per essere completate. Per gli item Likert, il numero massimo di opzioni sembra essere di sette gradini, con un piccolo aumento dell’affidabilità oltre tale numero.
Valutare i Benefici dell’Uso di un Numero Pari o Dispari di Opzioni: Negli item Likert, generalmente si raccomanda l’uso di un numero dispari di scelte con l’opzione centrale come “Neutrale” o “Indeciso”. Questo non è universalmente accettato poiché alcuni autori sostengono l’uso di un numero pari di scelte senza opzione neutra, basandosi sul fatto che alcuni rispondenti tendono a utilizzare eccessivamente la scelta neutra se disponibile. Ciò può risultare in una ridotta varianza e affidabilità. L’eliminazione dell’opzione neutra potrebbe frustrare alcuni rispondenti che potrebbero non completare gli item quando non hanno un’opinione forte. I dati mancanti possono essere un problema significativo in questi casi. La nostra raccomandazione è di usare un numero dispari di opzioni con un’opzione neutra. Con le scale di valutazione della frequenza, questo è meno importante poiché non è necessaria un’opzione “neutrale”.
Etichettare Chiaramente Ciascuna delle Opzioni nelle Scale di Valutazione e negli Item Likert: Per esempio, fornire etichette per ciascuna delle opzioni di risposta per risolvere eventuali incertezze.
Minimizzare l’Uso di Determinanti Specifici: L’uso di determinanti specifici come “mai”, “sempre”, “nessuno” e “tutti” dovrebbe essere usato con cautela in quanto possono complicare il processo di risposta.
Con i Bambini Piccoli, Considerare l’Uso di un Formato di Intervista: Per i bambini piccoli, prendere in considerazione l’utilizzo di un formato di intervista in cui gli item vengono letti al bambino. Questo può aiutare a ridurre la varianza irrilevante al costrutto introdotta dall’eliminazione dell’impatto delle abilità di lettura.

20.8 Sommario

All’inizio di questo capitolo, viene fatta una distinzione principale tra gli item di test in base a se sono a risposta selezionata o a risposta costruita. Successivamente, vengono considerate le loro applicazioni nei test di massima prestazione e nei test di risposta tipica. Per i test di massima prestazione, gli item a risposta selezionata includono formati a scelta multipla, vero/falso e di abbinamento, mentre gli item a risposta costruita comprendono gli item a risposta breve e i saggi. Ogni tipo di item presenta punti di forza e debolezze che sono riassunti di seguito.

Item a Scelta Multipla: Molto popolari nei test di massima prestazione, presentano numerosi punti di forza come versatilità, valutazione oggettiva e affidabile, e campionatura efficiente del dominio di contenuto. La loro limitazione principale è che non sono efficaci per misurare tutti gli obiettivi e non sono facili da sviluppare.

Item Vero/Falso: Possono essere valutati in modo oggettivo e affidabile e permettono di rispondere a molti item in breve tempo. Tuttavia, hanno molte debolezze, come la limitazione a obiettivi di apprendimento semplici e una forte vulnerabilità all’indovinamento.

Item di Abbinamento: Anche questi possono essere valutati in modo oggettivo e affidabile, completati in maniera efficiente e sono relativamente facili da sviluppare. Le loro principali limitazioni includono uno scopo limitato e la possibilità di promuovere la memorizzazione meccanica.

Saggi: Presentano una domanda o un problema a cui il candidato risponde in formato scritto. I saggi danno una notevole libertà nella formulazione delle risposte, ma sono difficili da valutare in modo affidabile e offrono una campionatura limitata del contenuto. Sono tuttavia adatti per misurare molti obiettivi complessi.

Item a Risposta Breve: Simili ai saggi, richiedono una risposta scritta, ma con limiti più stretti. Sono adatti per misurare specifici obiettivi di apprendimento come i calcoli matematici e sono relativamente facili da scrivere.

Gli item per i test di risposta tipica si concentrano sull’autovalutazione di sentimenti, pensieri, dialoghi interni e altri comportamenti occulti. Alcuni esempi:

Item Vero/Falso e Altri Item Dicotomici: Comuni nei test di risposta tipica, questi item si focalizzano sulle esperienze attuali del candidato.

Scale di Valutazione: Possono essere progettate sia per misure di autovalutazione sia per la valutazione di altri individui. A differenza degli item vero/falso che offrono solo due scelte, le scale di valutazione hanno tipicamente da quattro a cinque opzioni e denotano la frequenza.

Gli item Likert, simili alle scale di valutazione, si concentrano sul grado di accordo piuttosto che sulla frequenza. Sono diventati il formato più popolare per la valutazione delle attitudini. In passato, le scale cumulative come quelle di Guttman e Thurstone erano popolari, ma le scale Likert si sono rivelate più facili da sviluppare e con proprietà psicometriche equivalenti o superiori.