11.2 L’errore standard della stima
Il modello di regressione di Kelley non solo ci permette di ottenere una stima del punteggio vero a partire dal punteggio osservato, ma ci fornisce anche una misura di precisione di tale stima: l’errore standard della stima.
Immaginiamo di poter somministrare il test ad un rispondente più volte, in condizioni identiche, e di ottenere in ogni somministrazione una stima del valore vero \(\hat{T}\). A causa dell’errore di misurazione, il punteggio osservato varierà in ogni somministrazione del test, e quindi anche la stima di \(\hat{T}\) varierà. La deviazione standard di queste stime ipotetiche di \(\hat{T}\) è chiamata errore standard della stima, indicato con \(\sigma_{\hat{T}}\).
Calcolare l’errore standard della stima è importante poiché ci dà un’indicazione della precisione della stima del punteggio vero. Più piccolo è l’errore standard della stima, più precisa sarà la stima del punteggio vero. L’errore standard della stima si calcola con la formula seguente:
\[ \begin{equation} \sigma_{\hat{T}} = \sigma_X \sqrt{\rho_{XX^\prime} (1 -\rho_{XX^\prime})}. \tag{11.3} \end{equation} \]
Dimostrazione. Per ricavare la (11.3) si definisce \(\varepsilon\) l’errore che si commette quando si stima il punteggio vero \(\hat{T}\) con il punteggio osservato \(T\) (si veda Lord and Novick 1968):
\[ \varepsilon = T - \hat{T}. \]
Si presti attenzione alla notazione: \(E = X - T\) indica l’errore della misurazione, ovvero la differenza tra il punteggio osservato e il punteggio vero. Invece \(\varepsilon = T - \hat{T}\) indica la differenza tra il punteggio vero e la stima del punteggio vero.
Avendo che \(\hat{T} = \bar{X} + \rho_{XX^\prime} (X - \bar{X})\), la varianza di \(\varepsilon = T - \hat{T}\) si può scrivere come
\[ \begin{equation} \begin{aligned} \mathbb{V}(\varepsilon) &= \mathbb{V}(T - \hat{T})\notag\\ &= \mathbb{V}(T - \bar{X} - \rho_{XX^\prime} X + \rho_{XX^\prime}\bar{X}). \end{aligned} \end{equation} \]
Dato che la varianza di una variabile aleatoria non cambia sommando a tale variabile una costante, dobbiamo semplicemente calcolare
\[ \begin{equation} \mathbb{V}(\varepsilon) = \mathbb{V}(T - \rho_{XX^\prime}X).\notag \end{equation} \]
Dobbiamo trovare la varianza della somma di due variabili aleatorie, una delle quali moltiplicata per una costante. Dunque:
\[ \mathbb{V}(\varepsilon) = \mathbb{V}(T) + \rho_{XX^\prime}^2 \mathbb{V}(X) - 2 \rho_{XX^\prime} \mbox{Cov}(X,T), \]
ovvero, semplificando la notazione,
\[ \begin{equation} \sigma^2_{\varepsilon} = \sigma^2_T + \rho_{XX^\prime}^2 \sigma^2_X - 2 \rho_{XX^\prime} \sigma_{XT}.\notag \end{equation} \]
La quantità \(\rho_{XX^\prime}\) è il coefficiente di attendibilità. Quindi
\[ \begin{equation} \sigma^2_{\varepsilon} = \sigma^2_T + \left(\frac{\sigma_T^2}{\sigma_X^2}\right)^2 \sigma^2_X - 2 \frac{\sigma_T^2}{\sigma_X^2} \sigma_{XT}.\notag \end{equation} \]
Semplificando otteniamo
\[ \begin{equation} \begin{aligned} \sigma^2_{\varepsilon} &= \sigma^2_T + \frac{\sigma_T^4}{\sigma_X^4} \sigma^2_X - 2 \frac{\sigma_T^2}{\sigma_X^2} \sigma_{XT}\notag\\ &= \sigma^2_T + \sigma^2_T\frac{\sigma_T^2}{\sigma_X^2} - \sigma_T^2 2 \frac{\sigma_{XT}}{\sigma_X^2} \notag\\ &= \sigma^2_T \left(1 + \frac{\sigma_T^2}{\sigma_X^2} - 2 \frac{\sigma_{XT}}{\sigma_X^2}\right).\notag \end{aligned} \end{equation} \]
Dato che \(\sigma_{XT}=\sigma^2_T\), l’equazione precedente diventa uguale a
\[ \begin{equation} \begin{aligned} \sigma^2_{\varepsilon} &= \sigma^2_T \left(1 +\frac{\sigma_T^2}{\sigma_X^2} - 2 \frac{\sigma_{T}^2}{\sigma_X^2}\right)\notag\\ &= \sigma^2_T \left(1 - \frac{\sigma_{T}^2}{\sigma_X^2}\right). \end{aligned} \end{equation} \]
L’errore standard della stima è dunque uguale a
\[ \begin{equation} \begin{aligned} \sigma_{\varepsilon} &=\sigma_T \sqrt{1-\frac{\sigma^2_T}{\sigma^2_X}}\notag\\ &=\sigma_T \sqrt{\frac{\sigma^2_X - \sigma^2_T}{\sigma^2_X}}\notag\\ &=\frac{\sigma_T}{\sigma_X} \sqrt{\sigma^2_X - \sigma^2_T}. \end{aligned} \end{equation} \]
Dato che \(\sigma^2_X=\sigma^2_T+\sigma^2_E\), abbiamo
\[ \begin{equation} \begin{aligned} \sigma_{\varepsilon} &= \frac{\sigma_T}{\sigma_X} \sqrt{\sigma^2_E }\notag\\ &= \frac{\sigma_T}{\sigma_X} \sigma_E \notag\\ &= \sqrt{\rho_{XX^\prime}} \sigma_E. \notag \end{aligned} \end{equation} \]
Ricordando che l’errore standard della misurazione è \(\sigma_E = \sigma_X \sqrt{1 - \rho_{XX^\prime}}\), possiamo scrivere
\[ \begin{equation} \begin{aligned} \sigma_{\varepsilon} &= \sqrt{\rho_{XX^\prime}} \sigma_E \notag\\ &= \sqrt{\rho_{XX^\prime}} \sigma_X \sqrt{1-\rho_{XX^\prime}} \notag\\ &= \sigma_X \sqrt{\rho_{XX^\prime} (1 - \rho_{XX^\prime})}.\notag \end{aligned} \end{equation} \]
Per dati campionari, l’errore standard della stima si calcola nel modo seguente:
\[ s_{\hat{T}} = s_X \sqrt{r_{XX^\prime} (1-r_{XX^\prime})}, \]
dove \(s_X\) è deviazione standard del campione e \(r_{XX^\prime}\) è il coefficiente di attendibilità.