Tipologie dei test psicometrici

15. Tipologie dei test psicometrici#

Prima di iniziare lo sviluppo di un test psicometrico, il ricercatore deve decidere quale tipologia di strumento sia più utile per affrontare il problema che ha di fronte. Possiamo infatti distinguere tra test orientati al criterio e test riferiti alla norma.

15.1. Test orientati al criterio#

I test orientati al criterio sono utilizzati per confrontare gruppi predefiniti di individui. Gli item del test vengono selezionati in base alla loro capacità empirica di discriminare tra gruppi criterio come malati/sani, bocciati/promossi, schizofrenici/depressi. Questi test sono costruiti utilizzando metodi empirici, piuttosto che teorici. Sebbene abbiano il vantaggio di avere una chiara utilità pratica, presentano il grande svantaggio di identificare fattori aventi una scarsa validità di costrutto, che risultano inutili per la comprensione dei processi psicologici.

Il processo di sviluppo della scala è relativamente semplice, in quanto si devono selezionare gli item che mostrano punteggi differenti in gruppi-criterio noti. Tuttavia, non sempre i gruppi possono essere definiti in modo attendibile, oppure la definizione dei gruppi criterio potrebbe avere senso solo all’interno di una teoria specifica, ma non essere generalizzabile ad altre tradizioni teoriche. In questo caso, il test rischia di essere troppo specifico, dimostrandosi utile solo nelle condizioni per cui è stato sviluppato, ma con scarsa capacità di poter essere utilizzato in condizioni diverse.

Lo svantaggio principale dei test orientati al criterio è che il significato psicologico dei punteggi è ignoto. Non avendo una teoria sulle variabili psicologiche che distinguono due gruppi, un buon test discriminante non ci aiuta a capire perché tali gruppi siano diversi. Non è possibile sapere quanti costrutti siano coinvolti nella determinazione di un punteggio, e due punteggi uguali non implicano la presenza dei medesimi meccanismi psicologici. Utilizzando questi test, non è possibile incrementare le nostre conoscenze in maniera incrementale.

Il problema principale per lo sviluppo di questi strumenti è la definizione del criterio: qual è la variabile numerica che discrimina in modo maggiore tra i gruppi in esame (ad esempio, malati/sani)? È necessario selezionare una batteria iniziale di item sufficientemente ampia, che non richiede necessariamente una validità di contenuto o di facciata. Successivamente, gli item che discriminano efficacemente tra i gruppi o gli item fortemente associati con il punteggio criterio vengono selezionati, e la capacità discriminativa degli item selezionati viene replicata su un diverso campione.

15.2. Test basati sulla norma#

I test basati sulla norma forniscono una misura della posizione del rispondente in relazione alla distribuzione di punteggi ottenuti da un campione rappresentativo della popolazione di riferimento. La maggior parte dei test di personalità, attitudinali e cognitivi sono test basati sulla norma.

La scala di misurazione utilizzata per il confronto può avere diverse caratteristiche. I punteggi standardizzati, con media \(0\) e varianza unitaria, calcolati rispetto al gruppo di riferimento, sono spesso convertiti in una scala diversa, come quella con media \(500\) e deviazione standard di \(100\) per i punteggi SAT o quella con media \(100\) e deviazione standard di \(15\) per i punteggi WAIS-VI. La trasformazione dei punteggi è facile da eseguire. Il punteggio \(Y\) di un rispondente può essere trasformato in un punteggio standard \(X_i\), avente una media target \(\mu_s\) e una deviazione standard \(\sigma_s\) nel modo seguente:

\[ X_i = \mu_s + z_i \sigma_s \]

dove \(z\) è il punteggio standardizzato \(z = \frac{Y - \bar{Y}}{s_Y}\).

15.3. Variabili latenti e sviluppo di uno strumento psicometrico#

Quando uno psicologo sviluppa una scala di misura, il suo principale interesse è rappresentato dai costrutti psicologici che si intendono misurare, piuttosto che dagli item della scala stessa. Infatti, gli item sono soltanto un mezzo per raggiungere l’obiettivo finale dell’assessment del costrutto, poiché molti costrutti non possono essere valutati direttamente. Questi costrutti sono definiti come variabili latenti, ovvero non osservabili direttamente. Essi vengono interpretati come le cause che influenzano i valori degli item per un determinato rispondente in un dato momento. Mentre alcune variabili, come ad esempio altezza, peso, battito cardiaco, temperatura, possono essere misurate direttamente, i costrutti psicologici, come ansia, personalità e qualità della vita, possono essere misurati solo in modo indiretto, attraverso l’esame degli effetti che hanno sui comportamenti osservabili del costrutto.

Gli item che costituiscono uno strumento di misurazione rappresentano gli indicatori empirici o osservabili degli attributi del costrutto. Ad esempio, il dolore è un costrutto psicologico non direttamente osservabile, ma associato a diversi indicatori osservabili come pallore e sudorazione profusa.

Per misurare le variabili latenti dei costrutti di interesse, lo psicologo deve individuare gli indicatori empirici del costrutto che possono essere valutati direttamente. Questo processo di individuazione avviene attraverso diverse fasi, tra cui la definizione del costrutto, l’operazionalizzazione del costrutto, la revisione della letteratura scientifica e l’analisi concettuale del costrutto.

15.3.1. Chiarificazione del costrutto di interesse#

Prima di iniziare a selezionare gli item per uno strumento di misurazione, lo psicologo deve rispondere a diverse domande per evitare di produrre uno strumento con scarsa validità di costrutto.

Qual è lo scopo dello strumento? Cosa si intende misurare con esso?
Quali altri costrutti sono associati al costrutto di interesse e in che misura si distinguono da esso? Questa è una domanda complessa quando il costrutto di interesse è astratto e articolato.
Lo strumento mira a misurare le caratteristiche generali del costrutto di interesse o a focalizzarsi su alcuni aspetti specifici?

Esempio. Watson et al. (2007) si sono posti il problema di costruire uno strumento atto misurare la depressione superando i limiti degli strumenti già esistenti, quali il Beck Depression Inventory—II (BDI–II; Beck, Steer, & Brown, 1996) e il Center for Epidemiological Studies Depression Scale (CES–D; Radloff, 1977). La scala costruita dagli autori prende il nome di Inventory of Depression and Anxiety Symptoms (IDAS).

Per rispondere alla prima domanda, Watson et al. (2007) fanno notare che gli strumenti esistenti comprendono contenuti non specifici, ovvero non direttamente associati alla depressione. Infatti, sia il BDI-2 sia il CES–D contengono item che fanno riferimento a vari tipi di ansia. Di conseguenza, la validità discriminante di questi strumenti risulta compromessa. Inoltre, gli strumenti esistenti non contengono item che coprono tutto il dominio del costrutto della depressione maggiore, così come specificato dal Diagnostic and Statistical Manual of Mental Disorders (4th ed.). Infine, un’altra limitazione degli strumenti esistenti è il fatto che essi sono stati creati per produrre un singolo item della severità dei sintomi e quindi ignorano l’eterogeneità e la multidimensionalità del fenomeno depressivo. Questo si riflette sul fatto che gli strumenti esistenti manifestano una struttura fattoriale poco chiara, nel senso che autori diverse hanno trovato soluzioni fattoriali diverse. Lo strumento che Watson et al. (2007) intendono sviluppare vuole superare queste difficoltà costruendo una scale che direttamente rifletta, in ciascuna delle sue sottoscale, gli aspetti distintivi della depressione, a differenza di quanto accade per gli strumenti BDI–II e CES–D.

Per rispondere alla seconda domanda, Watson et al. (2007) fanno notare come la depressione sia inserita in una rete nomologica di costrutti che include, in primo luogo, l’ansia. Diversamente dagli strumenti già esistenti, BDI–II e CES–D, Watson et al. (2007) si propongono espliciatamente di creare scale che riflettano gli aspetti specifici della depressione, distinti dall’ansia. Per fare questo, Watson et al. (2007) iniziano con il considerare un ampio insieme di item che rappresentano sintomi associati all’ansia. In questo modo viene perseguito l’obiettivo, all’interno dello strumento, di esaminare la relazione tra i sintomi d’ansia e quelli della depressione in modo da creare scale distinte per tali dimensioni così da aumentare a validità discriminante dello strumento.

Per rispondere alla terza domanda, Watson et al. (2007) affermano di volere sviluppare uno strumento che, nel suo punteggio generale, rifletta le caratteristiche generali della depressione mentre, quando vengono considerate le varie sottoscale che lo costituiscono, consente di misurare con precisione ciascuna delle dimensioni del costrutto esaminato.

15.3.2. Operazionalizzazione del costrutto di interesse#

La definizione concettuale fornisce il significato teorico generale del costrutto, mentre l’operazionalizzazione è la definizione che ne consente la misurazione (Vogt, 1993). Gli indicatori osservabili o empirici sono il prodotto finale di tale processo di operazionalizzazione (Keck, 1998) e diventano gli item dello strumento. Se il costrutto di interesse è stato sviluppato all’interno di un approccio teorico ben articolato, diventa più facile stabilire le dimensioni che lo caratterizzano, in che modo esse si possano manifestare e come possano essere misurate. Tuttavia, molti costrutti psicologici vengono descritti in maniera diversa da approcci teorici differenti, il che rende più difficile stabilire una definizione comune e un’operazionalizzazione coerente.

Esempio. Per chiarire il costrutto di depressione, Watson et al. (2007) fanno riferimento al DSM–IV il quale elenca nove criteri sintomatici per un episodio depressivo maggiore: (1) umore depresso per la maggior parte del giorno, quasi ogni giorno, come riportato dal soggetto o come osservato dagli altri, (2) marcata diminuzione di interesse o piacere per tutte, o quasi tutte, le attività per la maggior parte del giorno, quasi ogni giorno (come riportato dal soggetto o come osservato dagli altri), (3) significativa perdita di peso, senza essere a dieta, o aumento di peso, oppure diminuzione o aumento dell’appetito quasi ogni giorno, (4) insonnia o ipersonnia quasi ogni giorno, (5) agitazione o rallentamento psicomotorio quasi ogni giorno (osservabile dagli altri, non semplicemente sentimenti soggettivi di essere irrequieto o rallentato), (6) faticabilità o mancanza di energia quasi ogni giorno, (7) sentimenti di autosvalutazione o di colpa eccessivi o inappropriati (che possono essere deliranti), quasi ogni giorno, (8) ridotta capacità di pensare o di concentrarsi, o indecisione, quasi ogni giorno (come impressione soggettiva o osservata dagli altri), (9) pensieri ricorrenti di morte, ricorrente ideazione suicidaria senza un piano specifico, o un tentativo di suicidio, o l’ideazione di un piano specifico per commettere suicidio.

Per massimizzare l’utilità dell’IDAS, Watson et al. (2007) includono item molteplici per ciascuno dei nove criteri sintomatici per un episodio depressivo maggiore. Allo scopo di assicurare che un numero sufficiente di indicatori venga incluso nello strumento per ciascuna di queste dimensioni potenziali, nell’insieme di item preso in considerazione inizialmente, Watson et al. (2007) organizzano gli item potenziali in gruppi chiamati homogeneous item composites (HIC). Essi fanno comunque notare come la costruzione di questi HIC non forza l’emergenza di un corrispondente fattore, ma soltanto consente di campionare tutto il dominio potenziale del costrutto.

15.3.3. Rassegna della letteratura rilevante#

Prima di iniziare a costruire un nuovo strumento, è importante che lo psicologo si informi il più possibile sulla letteratura rilevante. Questo può essere fatto attraverso una rassegna sistematica della letteratura, che permette di valutare e organizzare i risultati di diverse fonti in modo da individuare i potenziali indicatori del costrutto. In questo modo, la rassegna della letteratura aiuta a sintetizzare le scoperte in un determinato campo di ricerca, evidenziando gli aspetti metodologici associati al costrutto di interesse e chiarificando gli approcci teorici utilizzati. Inoltre, le meta-analisi possono aiutare a comprendere l’entità dell’effetto del costrutto.

Esempio. Nel caso dell’articolo di Watson et al. (2007), gran parte dell’introduzione è dedicata alla rassegna della letteratura che viene discussa allo scopo di mettere in evidenza i limiti degli strumenti esistenti, considerare quali sono le caratteristiche degli item utilizzati, mettere in relazione gli indicatori utilizzati dagli strumenti esistenti con gli approcci teorici disponibili in relazione alla depressione e all’ansia, discutere le soluzioni fattoriali che sono state ottenute dai dati raccolti tramite gli strumenti esistenti, considerare quali aree di contenuto del costrutto non sono state adeguatamente indagate dagli strumenti esistenti.

15.3.4. Analisi concettuale del costrutto#

Un altro metodo per determinare gli indicatori empirici del costrutto di interesse è l’analisi concettuale. Questo metodo richiede di identificare gli attributi del costrutto, incluso ciò che lo causa e le conseguenze che ne derivano. Inoltre, bisogna esaminare tutte le diverse definizioni del costrutto presenti nella letteratura specializzata e elencare tutti gli indicatori empirici che sono stati utilizzati per il costrutto in questione. In sintesi, l’analisi concettuale fornisce un’ulteriore fonte di informazioni che può aiutare lo psicologo a sviluppare un elenco completo di indicatori empirici per il costrutto di interesse.

Esempio. Allo scopo di campionare efficacemente l’intero dominio del costrutto, Watson et al. (2007) hanno definito 20 HIC: Depressed Mood, Loss of Interest or Pleasure, Appetite Disturbance, Sleep Disturbance, Psychomotor Problems, Fatigue/Anergia, Worthlessness/Guilt, Cognitive Problems, Suicidal Ideation, Hopelessness, Melancholic Depression, Angry/Irritable Mood, High Energy/High Positive Affect, Anxious Mood, Worry, Panic, Agoraphobia, Social Anxiety, Traumatic Intrusions, Obsessive-Compulsive Symptoms.

Tredici HIC (per un totale di 117 item) raggruppavano gli indicatori rilevanti per la depressione. Tra questi, nove HICs (per un totale di 79 items) facevano riferimento ai sintomi di base della depressione maggiore così come descritta nel DSM–IV (depressed mood, loss of interest or pleasure, appetite disturbance, sleep disturbance, psychomotor problems, fatigue/anergia, worthlessness and guilt, cognitive problems, suicidal ideation). I quattro rimanenti HIC facevano riferimento alla presenza di sintomi della Hopelessness (Abramson, Metalsky, & Alloy, 1989), ai sintomi specifici della depressione malinconica (Joiner et al., 2005), allo stato d’animo di rabbia/irritabilità (il quale rappresenta una forma alternativa di depressione tra gli adolescenti; DSM–IV, American Psychiatric Association, 1994, p. 327), e infine ad indicatori di energia e affetto positivo (i quali sono stati specificamente associati alla depressione; Mineka et al., 1998).

Gli altri sette HIC (per un totale di 63 item) sono stati introdotti per valutare sintomi associati all’ansia. Essi sono stati raggruppati nei termini dello stato d’animo ansioso, della worry, del panico, dell’agorafobia, dell’ansia sociale e delle intrusioni traumatiche associate al PTSD.

15.3.5. Metodi di ricerca qualitativi#

I metodi di ricerca qualitativi possono essere utilizzati per identificare gli indicatori empirici del costrutto di interesse. Tra questi metodi, troviamo la ricerca fenomenologica, l’indagine naturalistica, i focus group e lo studio del caso singolo.

La ricerca fenomenologica si concentra sulla descrizione del costrutto dal punto di vista di chi ne fa esperienza. In questo caso, le descrizioni fornite dai soggetti sono utili per comprendere l’esperienza del costrutto. Nell’indagine naturalistica, lo psicologo osserva le conseguenze del costrutto come si manifestano nel mondo reale, e utilizza come strumento di raccolta dati l’intervista con il paziente. Il focus group è una sessione di gruppo semi-strutturata, moderata da un leader di gruppo, tenuta in un ambiente informale con lo scopo di raccogliere informazioni su un determinato argomento. Inoltre, gli studi sul caso singolo possono rappresentare un’ulteriore fonte di informazioni sulla manifestazione del costrutto e sui suoi indicatori empirici.

15.4. Lo sviluppo dello strumento#

Dopo aver selezionato gli indicatori empirici del costrutto, è necessario scegliere un modo efficiente per raccogliere i dati. Ogni strumento può essere descritto in base a sei caratteristiche: (1) il formato, ovvero la struttura dell’intero strumento; (2) la composizione tipografica, ovvero la scelta di font, spaziatura, e disposizione degli elementi; (3) le istruzioni fornite ai soggetti, che devono essere chiare e coerenti con l’obiettivo dello strumento; (4) la costruzione degli item, ovvero il modo in cui sono formulati gli elementi dell’intero strumento; (5) il formato di risposta, ovvero le modalità attraverso le quali i soggetti possono rispondere alle domande o alle affermazioni dell’intero strumento; e (6) il numero di item, ovvero il totale delle domande o degli elementi presenti nell’intero strumento.

15.4.1. Formato#

Esistono diversi formati di scala utilizzati per misurare i costrutti in psicometria, tra cui lo scaling Thurstoniano, lo scaling di Guttman, le scale a differenziale semantico, le scale di valutazione grafica, le scale di differenziazione semantica, le scale di valutazione grafica, le scale visive di tipo analogico (Visual Analog Scales) e le scale Likert. Tuttavia, qui ci concentreremo sulle scale Likert, poiché sono ampiamente utilizzate nei test psicometrici basati sull’analisi fattoriale.

15.4.1.1. Scala Likert#

Una scala Likert è un tipo di scala ordinale che viene utilizzata per misurare gli atteggiamenti di una persona. Viene chiesto al rispondente di valutare il grado di accordo o disaccordo con un’affermazione utilizzando un’alternativa di risposta che di solito varia da cinque a sette punti. Tuttavia, poiché è una scala ordinale, le distanze tra i livelli della scala non sono quantificabili e non possiamo assumere che le differenze tra i livelli di risposta siano equidistanti. Pertanto, c’è una lunga controversia sulla possibilità di trattare i valori numerici di una scala ordinale come se provenissero da una scala ad intervalli. Alcuni autori ritengono problematico non potere trattare i dati provenienti da scale di tipo Likert come se fossero a livello di scala ad intervalli, mentre altri autori lo considerano giustificato in presenza di un’ampia numerosità campionaria e di una distribuzione approssimativamente normale dei dati. In ogni caso, la procedura che sta alla base delle scale Likert consiste nella somma dei punti attribuiti ad ogni singola domanda. I vantaggi della scala Likert sono la sua semplicità e applicabilità, mentre i suoi svantaggi sono il fatto che i suoi elementi vengono trattati come scale cardinali pur essendo ordinali e il fatto che il punteggio finale non rappresenta una variabile cardinale.

15.4.2. Composizione tipografica#

Criteri da considerare nella formattazione tipografica del test di un test psicometrico sono la facilità di lettura, la chiarezza e l’organizzazione. La formattazione dovrebbe tenere in considerazione l’età dei rispondenti e la potenziale difficoltà di lettura.

15.4.3. Istruzioni ai soggetti#

Le istruzioni per partecipare allo studio devono essere chiare e concise, fornendo un’idea generale degli obiettivi della ricerca e dei trattamenti previsti. I partecipanti devono essere informati dei benefici prevedibili e dei rischi, e della libertà di scegliere di non partecipare. Inoltre, la privacy dei partecipanti è protetta dalla legge sulla protezione dei dati personali e i loro dati verranno raccolti e conservati in forma anonima, tranne che per il nominativo. I partecipanti possono esercitare i propri diritti di protezione dei dati personali e interrompere la partecipazione in qualsiasi momento. Alla fine dello studio, i partecipanti possono ricevere i risultati della ricerca e possono rivolgersi al Comitato Etico dell’Università degli Studi di Firenze per segnalare qualsiasi problema. Prima di partecipare, i partecipanti devono firmare una dichiarazione di consenso informato per accettare di partecipare alla ricerca e di autorizzare il trattamento dei loro dati personali.

15.4.4. La costruzione degli item#

Per misurare un costrutto, la scelta degli item adeguati non è solo un problema statistico, ma anche di formulazione verbale. La formulazione verbale degli item contribuisce all’errore di misura e deve essere chiara e poco ambigua per ridurre gli errori di misura. È importante utilizzare contenuti coerenti con la definizione del costrutto, evitando contenuti che possano indurre atteggiamenti difensivi o ostili nei rispondenti. Inoltre, la formulazione verbale deve essere appropriata al livello di scolarità dei rispondenti.

Le raccomandazioni per la scelta degli item includono evitare affermazioni che si riferiscono al passato a meno che il costrutto non faccia direttamente riferimento al passato, evitare affermazioni su cui quasi tutti o quasi nessuno è d’accordo, evitare l’uso di pronomi personali con significato ambiguo, selezionare item che coprano l’intera gamma delle possibili risposte, utilizzare un linguaggio chiaro, semplice e diretto, evitare affermazioni ambigue o interpretabili in più modi, evitare formulazioni sintattiche complesse e parole a bassa frequenza, disporre gli item sensibili verso la fine dello strumento, fare riferimento a comportamenti specifici e non generali e evitare la duplicazione delle domande.

15.4.4.1. Desiderabilità sociale#

Quando si crea uno strumento per misurare un costrutto psicologico, è importante considerare che le persone tendono a fornire risposte socialmente accettabili piuttosto che risposte sincere e veritiere. Questo fenomeno è chiamato “Desiderabilità Sociale” e può causare distorsioni e bias nella misurazione del costrutto, compromettendone la validità. La Desiderabilità Sociale si riferisce alla tendenza di alcune persone di fornire risposte positive e socialmente accettabili quando vengono poste domande su di sé, al fine di apparire positivi agli occhi degli altri. Esistono diverse scale per valutare questo costrutto, come la MC-SCS di Marlowe e Crowne e la BIDR di Paulhus, utilizzate per rilevare la gestione delle impressioni e l’autoinganno.

15.4.4.2. Item marker#

Quando ci aspettiamo di trovare più costrutti latenti, è utile includere nell’insieme degli item alcuni “item marker”. Questi item sono caratterizzati da una forte correlazione con un solo fattore e da una bassa correlazione con gli altri fattori. Ciò aiuta a interpretare i fattori ottenuti. I marker permettono di assegnare ai fattori un nome (etichetta) che sia coerente con l’area semantica cui fanno riferimento.

15.4.4.3. Campionamento del dominio#

Il campionamento del dominio si riferisce al processo di selezione degli item che costituiscono il test. Esistono due tipi di campionamento: il campionamento del contenuto e il campionamento del comportamento. Il primo si concentra sull’adeguatezza degli item nel rappresentare il dominio di contenuto di interesse e nel misurare il costrutto correttamente, garantendo che le risposte rappresentino una stima affidabile del costrutto. Il secondo si concentra sul grado in cui le risposte rappresentano adeguatamente i comportamenti che il test intende misurare, garantendo che il test abbia un valore descrittivo del comportamento del rispondente.

Per evitare distorsioni delle risposte, è importante che gli item siano ben formulati e rappresentativi del dominio di contenuto e dei comportamenti di interesse. È quindi fondamentale coinvolgere esperti e la popolazione target nella generazione degli item, in modo da ottenere una comprensione accurata del costrutto e dei comportamenti associati. Inoltre, è importante distribuire gli item in modo equilibrato per riflettere l’importanza relativa delle diverse sfaccettature del costrutto.

15.5. Numero delle opzioni di risposta#

In sintesi, un item è composto da una domanda o affermazione (item stem) e dalle possibili risposte (alternative di risposta) che possono essere espresse attraverso una scala di tipo Likert o attraverso risposte auto-ancoranti. Nella scala di tipo Likert, le categorie di risposta sono parzialmente autonome dal punto di vista semantico e ad ogni modalità di risposta viene attribuito un punteggio che, sommato o mediato su tutti gli item, rappresenta la posizione dell’individuo sul concetto indagato. Il numero ottimale di opzioni di risposta è stato oggetto di discussione nella letteratura, ma in generale le scale di valutazione con 7, 9 o 10 opzioni di risposta sembrano essere le più efficaci. Le risposte auto-ancoranti sono invece molto più rare delle scale Likert.

15.5.1. Item a codifica inversa#

In parole più semplici, ci sono alcune domande in un test che sono strettamente correlate in modo negativo con le altre domande e con il punteggio totale del test. Queste domande richiedono una risposta diversa rispetto alle altre domande. Ad esempio, in un questionario sull’ansia, una domanda potrebbe chiedere “Sono preoccupata” e la scala di risposta potrebbe essere “Per nulla”, “Un po’”, “Abbastanza” e “Moltissimo” con valori 1, 2, 3 e 4 rispettivamente. Tuttavia, un’altra domanda potrebbe chiedere “Mi sento bene” e la scala di risposta potrebbe essere la stessa, ma con valori 4, 3, 2 e 1 rispettivamente. Questo perché le proprietà contrarie si trovano sullo stesso continuum latente. Questo è importante nella costruzione di un test psicologico, dove è consigliato utilizzare sia domande orientate nella direzione del costrutto (chiamate “straight item”) sia nella direzione opposta (chiamate “reverse item”) per contrastare l’acquiescenza e ottenere risposte più accurate.

15.6. Numero di item#

Un test psicometrico deve essere preciso e minimizzare gli errori di misura. Questo dipende dall’affidabilità di ogni domanda del test e dal numero di domande complessive nel test. Kline (1986) raccomanda di creare almeno il doppio delle domande necessarie per il test finale. La lunghezza del test dovrebbe essere adatta al suo scopo. Ad esempio, un test per valutare le abilità degli studenti delle scuole primarie non dovrebbe richiedere più di 30 minuti per essere completato, perché l’affaticamento e la noia possono influire sui risultati. Lo stesso vale per un test di personalità per adulti. In generale, un test dovrebbe essere il più breve possibile, ma deve raggiungere un livello accettabile di validità. Come regola generale, Kline (1986) suggerisce di avere almeno 50 domande nella versione finale del test.

15.7. Numero di soggetti#

In ambito psicometrico non c’è un accordo univoco sulla dimensione del campione necessaria per condurre un’analisi fattoriale. Tuttavia, gli autori hanno fornito alcune indicazioni che possono essere utili come riferimento. Nunnally (1978) ha suggerito che il campione debba essere composto da almeno 10 soggetti per ogni item. Comrey e Lee (1992) hanno fornito una scala che valuta la qualità del campione in base alla dimensione: “molto scarsa” per 50, “scarso” per 100, “sufficiente” per 200, “buona” per 300, “molto buona” per 500 e “eccellente” per 1.000 o più. Altri autori hanno suggerito come regola generale di avere almeno 300 casi per l’analisi fattoriale (Tabachnick e Fidell, 2001). In ogni caso, è importante tenere presente che la scelta della dimensione del campione dipende anche dalla complessità del costrutto che si intende analizzare e dalla qualità degli item utilizzati nel test.