Appendice R — Derivazione della log-verosimiglianza nella regressione lineare

Questa appendice illustra, passo dopo passo, come si ottiene l’Equazione 22.2 a partire dalla verosimiglianza del modello di regressione lineare semplice. Lungo il percorso, ripasseremo le proprietà dei logaritmi e delle sommatorie che rendono possibile questa trasformazione.

R.1 Richiami sulle proprietà dei logaritmi

Prima di procedere con la derivazione, è necessario richiamare le proprietà del logaritmo naturale (indicato con \(\log\) o \(\ln\)) che verranno utilizzate. Tali proprietà derivano dalla definizione stessa del logaritmo come funzione inversa dell’esponenziale.

R.1.1 Proprietà 1: Logaritmo di un prodotto

\[ \log(a \cdot b) = \log a + \log b. \]

Il logaritmo di un prodotto è uguale alla somma dei logaritmi dei fattori. Questa proprietà si estende a un numero qualsiasi di fattori:

\[ \log(a \cdot b \cdot c) = \log a + \log b + \log c, \] e, più in generale, a un prodotto di \(n\) termini:

\[ \log\left(\prod_{i=1}^n a_i\right) = \sum_{i=1}^n \log a_i. \]

Questa è la proprietà fondamentale che ci permetterà di trasformare il prodotto nella verosimiglianza in una somma.

R.1.2 Proprietà 2: Logaritmo di un quoziente

\[ \log\left(\frac{a}{b}\right) = \log a - \log b. \]

Il logaritmo di un quoziente è uguale alla differenza tra il logaritmo del numeratore e il logaritmo del denominatore. Un caso particolare importante è:

\[ \log\left(\frac{1}{b}\right) = \log 1 - \log b = 0 - \log b = -\log b, \] poiché \(\log 1 = 0\) (dato che \(e^0 = 1\)).

R.1.3 Proprietà 3: Logaritmo di una potenza

\[ \log(a^k) = k \cdot \log a. \]

Il logaritmo di una potenza è uguale all’esponente moltiplicato per il logaritmo della base. Un caso particolare utile riguarda la radice quadrata, che può essere scritta come potenza con esponente \(1/2\):

\[ \log(\sqrt{a}) = \log(a^{1/2}) = \frac{1}{2} \log a. \]

R.1.4 Proprietà 4: Logaritmo dell’esponenziale

\[ \log(e^x) = x. \]

Il logaritmo naturale dell’esponenziale restituisce l’argomento dell’esponenziale. Questa proprietà deriva dal fatto che il logaritmo naturale e l’esponenziale sono funzioni inverse l’una dell’altra.

R.2 Richiami sulle sommatorie

Richiamiamo anche alcune proprietà delle sommatorie che utilizzeremo.

R.2.1 Somma di una costante

Se \(c\) è una costante (cioè un valore che non dipende dall’indice \(i\)), allora:

\[ \sum_{i=1}^n c = \underbrace{c + c + \cdots + c}_{n \text{ volte}} = n \cdot c. \]

R.2.2 Linearità della sommatoria

La sommatoria di una somma è pari alla somma delle singole sommatorie:

\[ \sum_{i=1}^n (a_i + b_i) = \sum_{i=1}^n a_i + \sum_{i=1}^n b_i. \]

Una costante moltiplicativa può essere estratta dall’operatore di sommatoria:

\[ \sum_{i=1}^n c \cdot a_i = c \cdot \sum_{i=1}^n a_i. \]

R.3 Derivazione della log-verosimiglianza

Siamo ora pronti per derivare la log-verosimiglianza. Partiamo dalla verosimiglianza nella sua forma esplicita:

\[ \mathcal{L}(\beta_0, \beta_1, \sigma \mid \mathbf{y}, \mathbf{x}) = \prod_{i=1}^n \frac{1}{\sqrt{2\pi \sigma^2}} \exp\left(-\frac{(y_i - \beta_0 - \beta_1 x_i)^2}{2\sigma^2}\right). \]

R.3.1 Passo 1: Applicare il logaritmo

Applichiamo il logaritmo naturale a entrambi i membri:

\[ \log \mathcal{L}(\beta_0, \beta_1, \sigma \mid \mathbf{y}, \mathbf{x}) = \log\left[\prod_{i=1}^n \frac{1}{\sqrt{2\pi \sigma^2}} \exp\left(-\frac{(y_i - \beta_0 - \beta_1 x_i)^2}{2\sigma^2}\right)\right]. \]

R.3.2 Passo 2: Trasformare il prodotto in somma

Utilizzando la Proprietà 1 (logaritmo di un prodotto), il logaritmo del prodotto diventa la somma dei logaritmi:

\[ \log \mathcal{L} = \sum_{i=1}^n \log\left[ \frac{1}{\sqrt{2\pi \sigma^2}} \exp\left(-\frac{(y_i - \beta_0 - \beta_1 x_i)^2}{2\sigma^2}\right)\right]. \]

R.3.3 Passo 3: Scomporre il logaritmo di ciascun termine

All’interno della sommatoria, ciascun termine è il prodotto di due fattori:

  • il fattore \(\frac{1}{\sqrt{2\pi \sigma^2}}\);
  • il fattore esponenziale \(\exp\left(-\frac{(y_i - \beta_0 - \beta_1 x_i)^2}{2\sigma^2}\right)\).

Applicando nuovamente la Proprietà 1, il logaritmo di questo prodotto diventa la somma dei logaritmi:

\[ \log \mathcal{L} = \sum_{i=1}^n \left[ \log\left(\frac{1}{\sqrt{2\pi \sigma^2}}\right) + \log\left(\exp\left(-\frac{(y_i - \beta_0 - \beta_1 x_i)^2}{2\sigma^2}\right)\right). \right] \]

R.3.4 Passo 4: Semplificare il primo termine

Consideriamo il termine \(\log\left(\frac{1}{\sqrt{2\pi \sigma^2}}\right)\). Procediamo in più passaggi.

Prima applichiamo la Proprietà 2 per il reciproco:

\[ \log\left(\frac{1}{\sqrt{2\pi \sigma^2}}\right) = -\log\left(\sqrt{2\pi \sigma^2}\right). \]

Poi applichiamo la Proprietà 3 per la radice quadrata:

\[ -\log\left(\sqrt{2\pi \sigma^2}\right) = -\frac{1}{2}\log(2\pi \sigma^2). \]

Infine, applichiamo la Proprietà 1 per separare i fattori all’interno del logaritmo:

\[ -\frac{1}{2}\log(2\pi \sigma^2) = -\frac{1}{2}\log(2\pi) - \frac{1}{2}\log(\sigma^2). \]

Per l’ultimo termine, applichiamo la Proprietà 3:

\[ -\frac{1}{2}\log(\sigma^2) = -\frac{1}{2} \cdot 2 \cdot \log\sigma = -\log\sigma. \]

In sintesi, il primo termine si semplifica in:

\[ \log\left(\frac{1}{\sqrt{2\pi \sigma^2}}\right) = -\frac{1}{2}\log(2\pi) - \log\sigma. \]

R.3.5 Passo 5: Semplificare il secondo termine

Consideriamo ora il termine esponenziale. Applicando la Proprietà 4:

\[ \log\left(\exp\left(-\frac{(y_i - \beta_0 - \beta_1 x_i)^2}{2\sigma^2}\right)\right) = -\frac{(y_i - \beta_0 - \beta_1 x_i)^2}{2\sigma^2}. \]

R.3.6 Passo 6: Combinare i risultati

Sostituendo i risultati dei Passi 4 e 5 nella sommatoria:

\[ \log \mathcal{L} = \sum_{i=1}^n \left[ -\frac{1}{2}\log(2\pi) - \log\sigma - \frac{(y_i - \beta_0 - \beta_1 x_i)^2}{2\sigma^2} \right]. \]

R.3.7 Passo 7: Separare la sommatoria

Utilizzando la linearità della sommatoria, possiamo separare i tre termini:

\[ \log \mathcal{L} = \sum_{i=1}^n \left(-\frac{1}{2}\log(2\pi)\right) + \sum_{i=1}^n \left(-\log\sigma\right) + \sum_{i=1}^n \left(- \frac{(y_i - \beta_0 - \beta_1 x_i)^2}{2\sigma^2}\right). \]

R.3.8 Passo 8: Semplificare le somme di costanti

I primi due termini sono somme di costanti (valori che non dipendono da \(i\)). Per il primo termine:

\[ \sum_{i=1}^n \left(-\frac{1}{2}\log(2\pi)\right) = n \cdot \left(-\frac{1}{2}\log(2\pi)\right) = -\frac{n}{2}\log(2\pi). \]

Per il secondo termine:

\[ \sum_{i=1}^n \left(-\log\sigma\right) = n \cdot (-\log\sigma) = -n\log\sigma. \]

R.3.9 Passo 9: Semplificare il terzo termine

Nel terzo termine, il fattore \(\frac{1}{2\sigma^2}\) è una costante rispetto all’indice \(i\), quindi può essere portato fuori dalla sommatoria:

\[ \sum_{i=1}^n \left(- \frac{(y_i - \beta_0 - \beta_1 x_i)^2}{2\sigma^2}\right) = -\frac{1}{2\sigma^2} \sum_{i=1}^n (y_i - \beta_0 - \beta_1 x_i)^2. \]

R.3.10 Risultato finale

Combinando tutti i termini, otteniamo la formula della log-verosimiglianza:

\[ \log \mathcal{L}(\beta_0, \beta_1, \sigma \mid \mathbf{y}, \mathbf{x}) = -\frac{n}{2}\log(2\pi) - n\log\sigma - \frac{1}{2\sigma^2} \sum_{i=1}^n (y_i - \beta_0 - \beta_1 x_i)^2. \]

R.4 Interpretazione dei termini

Vale la pena notare la struttura del risultato:

  • Il primo termine, \(-\frac{n}{2}\log(2\pi)\), è una costante che non dipende dai parametri del modello. Ai fini dell’ottimizzazione, può essere ignorato.

  • Il secondo termine, \(-n\log\sigma\), penalizza valori elevati della deviazione standard: quando \(\sigma\) aumenta, \(\log\sigma\) aumenta, e quindi la log-verosimiglianza diminuisce.

  • Il terzo termine contiene la somma dei quadrati dei residui \((y_i - \beta_0 - \beta_1 x_i)^2\). Massimizzare la log-verosimiglianza significa minimizzare questa somma, il che corrisponde al principio dei minimi quadrati.