Appendice R — Derivazione della log-verosimiglianza nella regressione lineare
Questa appendice illustra, passo dopo passo, come si ottiene l’Equazione 22.2 a partire dalla verosimiglianza del modello di regressione lineare semplice. Lungo il percorso, ripasseremo le proprietà dei logaritmi e delle sommatorie che rendono possibile questa trasformazione.
R.1 Richiami sulle proprietà dei logaritmi
Prima di procedere con la derivazione, è necessario richiamare le proprietà del logaritmo naturale (indicato con \(\log\) o \(\ln\)) che verranno utilizzate. Tali proprietà derivano dalla definizione stessa del logaritmo come funzione inversa dell’esponenziale.
R.1.1 Proprietà 1: Logaritmo di un prodotto
\[ \log(a \cdot b) = \log a + \log b. \]
Il logaritmo di un prodotto è uguale alla somma dei logaritmi dei fattori. Questa proprietà si estende a un numero qualsiasi di fattori:
\[ \log(a \cdot b \cdot c) = \log a + \log b + \log c, \] e, più in generale, a un prodotto di \(n\) termini:
\[ \log\left(\prod_{i=1}^n a_i\right) = \sum_{i=1}^n \log a_i. \]
Questa è la proprietà fondamentale che ci permetterà di trasformare il prodotto nella verosimiglianza in una somma.
R.1.2 Proprietà 2: Logaritmo di un quoziente
\[ \log\left(\frac{a}{b}\right) = \log a - \log b. \]
Il logaritmo di un quoziente è uguale alla differenza tra il logaritmo del numeratore e il logaritmo del denominatore. Un caso particolare importante è:
\[ \log\left(\frac{1}{b}\right) = \log 1 - \log b = 0 - \log b = -\log b, \] poiché \(\log 1 = 0\) (dato che \(e^0 = 1\)).
R.1.3 Proprietà 3: Logaritmo di una potenza
\[ \log(a^k) = k \cdot \log a. \]
Il logaritmo di una potenza è uguale all’esponente moltiplicato per il logaritmo della base. Un caso particolare utile riguarda la radice quadrata, che può essere scritta come potenza con esponente \(1/2\):
\[ \log(\sqrt{a}) = \log(a^{1/2}) = \frac{1}{2} \log a. \]
R.1.4 Proprietà 4: Logaritmo dell’esponenziale
\[ \log(e^x) = x. \]
Il logaritmo naturale dell’esponenziale restituisce l’argomento dell’esponenziale. Questa proprietà deriva dal fatto che il logaritmo naturale e l’esponenziale sono funzioni inverse l’una dell’altra.
R.2 Richiami sulle sommatorie
Richiamiamo anche alcune proprietà delle sommatorie che utilizzeremo.
R.2.1 Somma di una costante
Se \(c\) è una costante (cioè un valore che non dipende dall’indice \(i\)), allora:
\[ \sum_{i=1}^n c = \underbrace{c + c + \cdots + c}_{n \text{ volte}} = n \cdot c. \]
R.2.2 Linearità della sommatoria
La sommatoria di una somma è pari alla somma delle singole sommatorie:
\[ \sum_{i=1}^n (a_i + b_i) = \sum_{i=1}^n a_i + \sum_{i=1}^n b_i. \]
Una costante moltiplicativa può essere estratta dall’operatore di sommatoria:
\[ \sum_{i=1}^n c \cdot a_i = c \cdot \sum_{i=1}^n a_i. \]
R.3 Derivazione della log-verosimiglianza
Siamo ora pronti per derivare la log-verosimiglianza. Partiamo dalla verosimiglianza nella sua forma esplicita:
\[ \mathcal{L}(\beta_0, \beta_1, \sigma \mid \mathbf{y}, \mathbf{x}) = \prod_{i=1}^n \frac{1}{\sqrt{2\pi \sigma^2}} \exp\left(-\frac{(y_i - \beta_0 - \beta_1 x_i)^2}{2\sigma^2}\right). \]
R.3.1 Passo 1: Applicare il logaritmo
Applichiamo il logaritmo naturale a entrambi i membri:
\[ \log \mathcal{L}(\beta_0, \beta_1, \sigma \mid \mathbf{y}, \mathbf{x}) = \log\left[\prod_{i=1}^n \frac{1}{\sqrt{2\pi \sigma^2}} \exp\left(-\frac{(y_i - \beta_0 - \beta_1 x_i)^2}{2\sigma^2}\right)\right]. \]
R.3.2 Passo 2: Trasformare il prodotto in somma
Utilizzando la Proprietà 1 (logaritmo di un prodotto), il logaritmo del prodotto diventa la somma dei logaritmi:
\[ \log \mathcal{L} = \sum_{i=1}^n \log\left[ \frac{1}{\sqrt{2\pi \sigma^2}} \exp\left(-\frac{(y_i - \beta_0 - \beta_1 x_i)^2}{2\sigma^2}\right)\right]. \]
R.3.3 Passo 3: Scomporre il logaritmo di ciascun termine
All’interno della sommatoria, ciascun termine è il prodotto di due fattori:
- il fattore \(\frac{1}{\sqrt{2\pi \sigma^2}}\);
- il fattore esponenziale \(\exp\left(-\frac{(y_i - \beta_0 - \beta_1 x_i)^2}{2\sigma^2}\right)\).
Applicando nuovamente la Proprietà 1, il logaritmo di questo prodotto diventa la somma dei logaritmi:
\[ \log \mathcal{L} = \sum_{i=1}^n \left[ \log\left(\frac{1}{\sqrt{2\pi \sigma^2}}\right) + \log\left(\exp\left(-\frac{(y_i - \beta_0 - \beta_1 x_i)^2}{2\sigma^2}\right)\right). \right] \]
R.3.4 Passo 4: Semplificare il primo termine
Consideriamo il termine \(\log\left(\frac{1}{\sqrt{2\pi \sigma^2}}\right)\). Procediamo in più passaggi.
Prima applichiamo la Proprietà 2 per il reciproco:
\[ \log\left(\frac{1}{\sqrt{2\pi \sigma^2}}\right) = -\log\left(\sqrt{2\pi \sigma^2}\right). \]
Poi applichiamo la Proprietà 3 per la radice quadrata:
\[ -\log\left(\sqrt{2\pi \sigma^2}\right) = -\frac{1}{2}\log(2\pi \sigma^2). \]
Infine, applichiamo la Proprietà 1 per separare i fattori all’interno del logaritmo:
\[ -\frac{1}{2}\log(2\pi \sigma^2) = -\frac{1}{2}\log(2\pi) - \frac{1}{2}\log(\sigma^2). \]
Per l’ultimo termine, applichiamo la Proprietà 3:
\[ -\frac{1}{2}\log(\sigma^2) = -\frac{1}{2} \cdot 2 \cdot \log\sigma = -\log\sigma. \]
In sintesi, il primo termine si semplifica in:
\[ \log\left(\frac{1}{\sqrt{2\pi \sigma^2}}\right) = -\frac{1}{2}\log(2\pi) - \log\sigma. \]
R.3.5 Passo 5: Semplificare il secondo termine
Consideriamo ora il termine esponenziale. Applicando la Proprietà 4:
\[ \log\left(\exp\left(-\frac{(y_i - \beta_0 - \beta_1 x_i)^2}{2\sigma^2}\right)\right) = -\frac{(y_i - \beta_0 - \beta_1 x_i)^2}{2\sigma^2}. \]
R.3.6 Passo 6: Combinare i risultati
Sostituendo i risultati dei Passi 4 e 5 nella sommatoria:
\[ \log \mathcal{L} = \sum_{i=1}^n \left[ -\frac{1}{2}\log(2\pi) - \log\sigma - \frac{(y_i - \beta_0 - \beta_1 x_i)^2}{2\sigma^2} \right]. \]
R.3.7 Passo 7: Separare la sommatoria
Utilizzando la linearità della sommatoria, possiamo separare i tre termini:
\[ \log \mathcal{L} = \sum_{i=1}^n \left(-\frac{1}{2}\log(2\pi)\right) + \sum_{i=1}^n \left(-\log\sigma\right) + \sum_{i=1}^n \left(- \frac{(y_i - \beta_0 - \beta_1 x_i)^2}{2\sigma^2}\right). \]
R.3.8 Passo 8: Semplificare le somme di costanti
I primi due termini sono somme di costanti (valori che non dipendono da \(i\)). Per il primo termine:
\[ \sum_{i=1}^n \left(-\frac{1}{2}\log(2\pi)\right) = n \cdot \left(-\frac{1}{2}\log(2\pi)\right) = -\frac{n}{2}\log(2\pi). \]
Per il secondo termine:
\[ \sum_{i=1}^n \left(-\log\sigma\right) = n \cdot (-\log\sigma) = -n\log\sigma. \]
R.3.9 Passo 9: Semplificare il terzo termine
Nel terzo termine, il fattore \(\frac{1}{2\sigma^2}\) è una costante rispetto all’indice \(i\), quindi può essere portato fuori dalla sommatoria:
\[ \sum_{i=1}^n \left(- \frac{(y_i - \beta_0 - \beta_1 x_i)^2}{2\sigma^2}\right) = -\frac{1}{2\sigma^2} \sum_{i=1}^n (y_i - \beta_0 - \beta_1 x_i)^2. \]
R.3.10 Risultato finale
Combinando tutti i termini, otteniamo la formula della log-verosimiglianza:
\[ \log \mathcal{L}(\beta_0, \beta_1, \sigma \mid \mathbf{y}, \mathbf{x}) = -\frac{n}{2}\log(2\pi) - n\log\sigma - \frac{1}{2\sigma^2} \sum_{i=1}^n (y_i - \beta_0 - \beta_1 x_i)^2. \]
R.4 Interpretazione dei termini
Vale la pena notare la struttura del risultato:
Il primo termine, \(-\frac{n}{2}\log(2\pi)\), è una costante che non dipende dai parametri del modello. Ai fini dell’ottimizzazione, può essere ignorato.
Il secondo termine, \(-n\log\sigma\), penalizza valori elevati della deviazione standard: quando \(\sigma\) aumenta, \(\log\sigma\) aumenta, e quindi la log-verosimiglianza diminuisce.
Il terzo termine contiene la somma dei quadrati dei residui \((y_i - \beta_0 - \beta_1 x_i)^2\). Massimizzare la log-verosimiglianza significa minimizzare questa somma, il che corrisponde al principio dei minimi quadrati.