Minimi Quadrati Unbiased

fede161
Ciao a tutti!

Sto studiando ESE (Element of Statistical Learning), e mi sono imbattuto in questo problema:





Io ho capito che $ ε $ rappresenta un vettore di variabili casuali non osservate ( errori ) della i-esima osservazione. Tuttavia non ho capito come mai è proporzionale a quella quantità $ N(0,σ^2) $. Cioè, per quel motivo sbuca fuori quella sigma? A cosa è dovuta?

La seconda cosa che proprio non mi entra in testa è ciò che ho sottolineato in rosso (seconda parte). Da dove sbucano fuori quelle sommatorie di $l_i(x_0)$ ? Che motivo ha l'autore di introdurre quel concetto?

UN ringraziamento speciale a chi è in grado di aiutarmi.

Risposte
Lo_zio_Tom
a parte alcuni typo ed imprecisioni nel testo, a cominciare dal fatto che il modello è

$\mathbf(y)=X\mathbf(beta)+\mathbf(epsilon)$


$\mathbf(y)$ infatti è un vettore e non una matrice...

con semplici calcoli trovi che $hat(\mathbf(beta))=(X'X)^(-1)X'\mathbf(y)$ e quindi

$hat(\mathbf(y))=X hat(\mathbf(beta))=X(X'X)^(-1)X'\mathbf(y)=$

$=X(X'X)^(-1)X'[X \mathbf(beta) +\mathbf(epsilon)]=X \mathbf(beta)+X(X'X)^(-1)X' \mathbf(epsilon) $

Prendi un elemento del vettore $hat(\mathbf(y))$ ed hai il risultato richiesto. Ovviamente essendo un elemento di un vettore che esce da una serie di moltiplicazioni fra matrici, inverse e vettori, anche l'iesimo elemento del vettore sarà dato da somme e moltiplicazioni...prendi il modello di base che ti ho scritto in forma matriciale, sviluppalo in modo esteso e te ne renderai conto subito.

Inoltre l'ipotesi che si avanza (anche qui c'è un typo in quanto il vettore è una gaussiana multivariata)

$\mathbf(\epsilon)~ N(\mathbf(0);\sigma^2\mathbb(I)_n)$


E' un'ipotesi aggiuntiva rispetto a quelle di base e meno strette sul modello lineare di regressione funzionale (che dovresti già conoscere) e serve per affinare l'analisi che il libro spiegherà più avanti andando a calcolare, ad esempio, intervalli di confidenza.

Quel simbolo ~ non è "proporzionale a" ma significa "il vettore epsilon si distribuisce come una Gaussiana multivariata con vettore delle medie $mathbf(0)$ e matrice di varianze e covarianze come indicato..."

Domanda: sicuro che tu stia seguendo un corso regolare? con questi dubbi mi pare che tu abbia saltato qualche importante passaggio precedente...

Per favore evita di postare immagini in futuro...

fede161
Ciao
tommyk
!

Anzitutto grazie della risposta.
Ok non posterò più immagini come queste. Chiedo scusa, ma era più la fretta nel comprendere la cosa che altro.
Sto studiando da autodidatta su un libro che tratta di Machine Learning. Si chiama Element of Statistical Learning... by Friedman, Robert Tibshirani e Trevor Hastie, che da quanto ho capito sembra sia un po' il libro top per cominciare a comprendere il machine learning.
Ho studiato Fisica ed effettivamente dovrei avere queste basi, ma sono passati un po' di anni e sto cercando di fare come posso, anche se a tutti gli effetti non ci siamo mai soffermati più di tanto su questi argomenti di statistica.
Comunque... detto questo non c'è alcun typo, in quanto l'autore a inizio del libro specifica che "We will typically denote and input variable by the symbol $ X $. If $ X $ is a vector, its components can be accessed by subscripts $ X_j $. Quantitative outputs will be denoted by $ Y $ ... ecc

Quindi ci stiamo riferendo a un vettore (per quanto riguarda il primo typo)
Perchè il secondo typo dovrebbe essere un errore? Non avete scritto la stessa cosa tu e l'autore? (spero di non aver detto un'eresia :-D )

Infine, ho capito tutti i calcoli che mi hai scritto, a parte una cosa che non capisco perchè dovrei fare. Mi hai detto "prendi il modello di base che ti ho scritto in forma matriciale, sviluppalo in modo esteso e te ne renderai conto subito". Ma la domanda è: per fare cosa? Non ho già tutto in forma vettoriale?

Ti ringrazio ancora, molto gentile ;)

Lo_zio_Tom
"fede16":
... detto questo non c'è alcun typo..


sono un po' arrugginito sul modello lineare ma devo dire che la cosa mi incuiriosisce.

Di solito (questo è il primo link che ho trovato e dice le stesse cose che mi ricordavo io) il modello è quello che ti ho indicato,

$\mathbf(y)=X\mathbf(beta)+\mathbf(epsilon)$


dove:

$\mathbf(y)$ è un vettore colonna, diciamo $[n;1]$

$X$ è matrice $[n;k]$

$\mathbf(beta)$ è un vettore $[k;1]$

$\mathbb(epsilon)$ è un vettore $[n;1]$

...e le cose quadrano. Nota che con le lettere minuscole indico uno scalare, con le lettere minuscole in grassetto un vettore e con le maiuscole una matrice.

Nel tuo caso invece hai

$Y=X^Tbeta+epsilon$


e dici che $Y$ è vettore, così come $X$....posto che $epsilon$ deve essere anche lui vettore come $Y$, quindi diciamo vettore $[n;1]$ che dimensionii ha $beta$? mi pare che debba necessariamente essere uno scalare...piuttosto strano.

Punto 2

La notazione $N(0;sigma^2)$ è quella (universalmente adottata) di gaussiana univariata, ma se $epsilon$ è il vettore degli errori, nel modello lineare classico, si ha che


1. $E(\mathbb(epsilon))=\mathbb(0)$

2. $E(\mathbb(epsilon)\mathbb(epsilon)')=sigma^2\mathbb(I)_n$

3. Rango(X)=k

Ovvero: 1. gli errori hanno tutti media zero. (è un vettore di zeri). 2. la matrice di varianze e covarianze degli errori ha tutte le varianze uguali fra di loro (tutti $sigma^2$ sulla diagonale principale) e covarianze tutte nulle. In altri termini si fa l'ipotesi di omoschedasticità ed incorrelazione degli errori. 3. la matrice X ha rango pieno e ciò per escludere multicollinearità. Tale ipotesi è cruciale per poter applicare il metodo dei minimi quadrati (OLS) per stimare il VETTORE $beta$.

se, come si fa per altre questioni, si inserisce anche l'ipotesi aggiuntiva di normalità degli errori, la distribuzione diventa

$N(\mathbf(0);sigma^2\mathbb(I)_n)$ che non è affatto la stessa cosa di $N(0;\sigma^2)$


^^^^^^^^^^^^^^^^^^^^

Quindi ricapitolando: la modellizzazione del tuo testo non è la più comune, occorrerebbe leggere bene il testo. Ad ogni modo, le risposte alle domande sono

1. "da dove sbucano quelle sommatorie?"

Risposta: dalla scrittura per esteso del sistema originariamente scritto in forma matriciale

2. "Per quale motivo sbuca fuori quel $sigma$?

Risposta per l'ipotesi n. 2 sopra relativa ai comuni modelli di regressione lineare.

3. "come mai è proporzionale a quella quantità"? ovvero $epsilon ~ N(0;sigma^2)$

Risposta: premesso che il vettore degli errori si distribuisce in modo multivariato e quindi, ripeto, quell'assuzione non sta in piedi essendo una funzione $f: \mathbb(R) rarr \mathbb(R)$, è una ulteriore assunzione che permette di fare determinati conti e che non ci impegna moltissimo essendo una assunzione piuttosto logica...non significa "proporzionale" ma significa "si distribuisce come"

gabriella127
Premettendo che sono più arruginita di Tommik, il quale ne sa più di me a prescindere :), le mie reminiscenze sono uguali. La cosa ha incuriosito anche me e sono andata a controllare. Ho guardato su un libro di econometria, Johston, Econometrica, che è uno dei più noti, e il modello di regressione lineare multivariata è esattamente quello scritto da Tommik.


"fede16":

Quindi ci stiamo riferendo a un vettore (per quanto riguarda il primo typo)
Perchè il secondo typo dovrebbe essere un errore? Non avete scritto la stessa cosa tu e l'autore? (spero di non aver detto un'eresia :-D )


L'unica spiegazione che mi so dare è che il libro forse sta parlando del modello di regressione bivariato, e non multivariato, in cui in effetti $X$ è un vettore e non una matrice.

Non capisco però la trasposizione, ma bisognerebbe vedere meglio la notazione del libro (propendo anche io per un erore di stampa.

E la condizione sulla normalità degli errori si ridurrebbe a $ epsilon ~ N(0;sigma^2) $


P.s.comunque, volendo chiarezza su queste cose io mi riferirei a un libro di statistica, non conosco il libro in questione, ma può essere un libro ottimo in machine learning, ma che ha carenze di esposizione in queste cose statistiche, caso mai solo perché troppo sintetiico.

Edit Dopo avere scritto questo post credo di avere capito l'arcano, vedere mio post più sotto.
Comunque questo lo lascio, aiuta comunque la discussione (o almeno non nuoce, spero :) )

Studente Anonimo
Studente Anonimo
Mi sembra che la notazione (locale) venga chiarita all'inizio della sezione 2.4: "Let \( X \in \mathbb{R}^p \) denote a real valued random input vector, and \( Y \in \mathbb{R} \) a real valued random output variable, with joint distribution \( P(X,Y) \). We seek a function \(f(X)\) for predicting \(Y\) given values of the input \(X\). [...]"

Edit. Comunque il libro (bruttino) e' disponibile gratuitamente nella pagina degli autori.

gabriella127
Eh, ma bisognerebbe allora leggere tutto quello che dice il libro, da quello che dice 080e73990d22b9e30ee6fddddc45a902d78283e6 allora nel modello di regressione ci dovrebbe essere una matrice, visto che le variabili esplicative sono più d'una, quelle contenute nel vettore aleatorio $X$.

Sarebbero, per dire, $p$ variabili esplicative per $n$ osservazioni.


[EDIT] Credo di avere capito l'arcano.
La relazione (2.26) non sono le equazioni dei minimi quadrati, ma è la relazione teorica tra $Y$, variabile casuale univariata, e $X$ multivariata, a cui poi si applicano i minimi quadrati.

Quindi la trasposizione di $X$ lì nella (2.26) va bene, $X^Tbeta$ è uno scalare, dato dal prodotto di vettori $1xxp$ e $pxx1$.

fede161
Grazie mille a tutti del contributo.
A questo punto gradirei fare una domanda. Mi sapreste consigliare un buon libro di statistica (utile per poi comprendere i problemi di machine learning)?
Ogni consiglio è ben accetto.

Grazie ancora

Rispondi
Per rispondere a questa discussione devi prima effettuare il login.