Matrice trasposta e sistemi di equazioni lineari

Linux1987
Dato un sistema di equazioni lineari espresso nella forma matriciale $ Bx=y $ , e il sistema $ B^T *B*a=B^T*y $ tali sistemi sono equivalenti nel caso in cui la matrice dei coefficienti sia quadrata mentre nel caso in cui la matrice sia $ m*n $ con $ m>n $ allora risolvere il sistema $ B^T *B*a=B^T*y $ significa risolvere il problema di approssimazione nel senso dei minimi quadrati. Perchè questa differenza? Cioè perchè nel primo caso vado a risolvere un sistema equivalente a quello dato e nel secondo vado a risolvere un sistema sovradeterminato però nel senso dei minimi quadrati ? inoltre vorrei sapere se possibile, perchè se moltiplico una matrice per la sua trasposta ottengo una matrice simmetrica e quadrata ? Un ultima cosa le colonne di una matrice sono sempre ortogonali alle righe della sua trasposta ? se si perchè?

PS: a e y sono vettori colonna !

Risposte
dissonance
=D> Bello! Bravo Sergio!

Seneca1
[xdom="Seneca"]Sposto la discussione in Statistica e probabilità (come suggerito da Sergio).

pasqualinux, se hai altri dubbi del genere, più legati a questioni di approssimazione, non postarli in Geometria. Grazie.[/xdom]

Linux1987
non ho ancora letto la risposta di sergio lo ringrazio comunque, appena leggo rispondo. volevo solo dire che lo pubblico in algebra e geometria perchè per me queste cose fanno parte del corso di algebra lineare numerica, infatti il problema dei minimi quadrati viene spiegato con un approccio del tutto differente. Appena ho due secondi lo scrivo! Anche perchè ho dato un occhiata alla risposta di Sergio e avrei bisogno di alcune delucidazioni se possibile ! Comunque lo ringrazio

Linux1987
"Sergio":

Invece ne ammette il sistema:
\[\begin{cases} x_1+x_2 = 2 \\ 2x_1+x_2=3 \\ 2x_1+2x_2=4 \\ 4x_1+2x_2=6\end{cases}\]
ma si vede subito che le ultime due equazioni sono ridondanti (sono il doppio delle prime due).

Allora questa affermazione è vera in quanto i 4 vettori riga della matrice dei coefficienti , sono 4 vettori di $ R^2 $ e sono linearmente dipendenti per un teorema dell'algebra lineare ! Ma mi chiedo perchè mi fai notare questa cosa ?

"Sergio":


Questo perché, in realtà, in un modello lineare nessuna equazione è del tipo \(y_i=\beta_1x_{1i}+\beta_2x_{2i}\), in quanto:
a) si aggiunge spesso un'intercetta \(\alpha\) (quasi sempre, ma in alcuni casi è utile farne a meno);
b) soprattutto, si aggiunge un termine di errore;
quindi le equazioni sono del tipo: \(y_i=\alpha + \beta_1 x_{1i}+\beta_2 x_{2i} +\varepsilon_i\).


Il mio prof. ha detto che un modello lineare è una funzione che è determinata univocamente da n coefficienti che appaiono linearmente nell'espressione della funzione : $ f(x)=a_1*b_1(x)+a_2*b_2(x)+..+a_n*b_n(x) $ dove le $ b_i(x) $ sono funzioni di base , già note a priori , mentre le x sono i nodi , ovvero le ascisse del campionamento discreto che descrive il fenomeno continuo dal quale si suppone che i dati siano stati estratti . Adesso tu mi aggiungi un intercetta e un termine di errore. Non vedo alcun nesso tra la mia definizione e la tua. potresti aiutarmi ? Quello che tu definisci termine di errore potrebbe essere espresso come il residuo , ovvero come uno scostamento elementare pari a $ \varepsilon_i = f(x_i)-y_i $ dove le $ y_i $ sono i valori e le $ x _i $ sono i nodi e la f è un modello lineare .

"Sergio":

Il problema diventa: stimare i parametri (l'intercetta e i \(\beta_i\)).


Noi invece determiniamo gli $ a_i $ di $ f(x)=a_1*b_1(x)+a_2*b_2(x)+..+a_n*b_n(x) $ in modo tale che si minimizzi la norma 2 del vettore degli scostamenti elementari $ r $ o vettore residuo dove $ r_i =|(f(x_i)-y_i) | $ , naturalmente il problema è sempre lo stesso ,ovvero equivalente al tuo , però non vedo il nesso nella determinazione dei parametri.

"Sergio":

si tratta di minimizzare:
\[\sum_{i=1}^n (y_i-x^T_i\beta)^2=(y-X\beta)^T(y-X\beta)\]
e la condizione del primo ordine è proprio:
\[X^TX\beta=X^Ty\]

Potresti spiegarmi come hai ottenuto il termine a destra della sommatoria e il termine \[X^TX\beta=X^Ty\].

"Sergio":

che quindi non è un sistema matematico \(X\beta=y\) in cui premoltiplichi entrambi i membri per la trasposta di \(X\).

Il mio prof. dice che la risoluzione del problema dei minimi quadrati avviene risolvendo un sistema di equazioni lineari, definito come sistema delle equazioni normali, che si ottiene a partire dal sistem $ Ba=y $ dove B nel caso ad esempio della retta dei minimi quadrati che ha come modello lineare $ f(x) =a_1+a_2*x $, ha per righe gli $ f(x_i)=1*a_1+a_2*x_i $, quindi ad esempio nel caso della retta dei minimi quadrati e supponendo di avere per esempio 3 punti di coordinate $ (x_i,y_i) $ B avrà nella prima colonna il vettore $ (1,1,1) $ e nella seconda il vettore $ (x_1,x_2,x_3) $. Quindi devo risolvere il sistema $ Ba=y $ ,essendo il sistema sovradeterminato, la soluzione che permette di determinare i coefficienti $ a_i $ che minimizzano la norma del vettore residuo ,è quella di imporre che il vettore residuo sia ortogonale alle colonne della matrice B, ovvero alle righe di $ B^T $ , quindi essendo $ r=Ba-y $ e poichè vogliamo che $ B^T*r=0 $ allora otteniamo che $ B^T*B*a=B^T*y $ , che nel mio caso diventa un sistema quadrato. Allora mi chiedo perchè fai l'affermazione citata?


"Sergio":

In questo caso la stima non è più tale (ottiemi "stime" senza margini di errore), quindi inutile: in sostanza, ha solo risolto un sistema di equazioni. Soprattutto, nei casi non banali, quando le osservazioni sono decine, centinaia o migliaia, elimini ogni incertezza ma ti trovi un numero di parametri tale che una loro interpretazione è impossibile, quindi sei rimasto esattamete nella stessa ignoranza in cui eri prima di "stimare": prima dovevi intepretare n osservazioni, ora devi interpretare n parametri, quindi non è cambiato nulla.


Questa parte non mi è chiara mi fai qualche esempio ? che intendi per stima ? Che significa soprattutto nei casi non banali? Perpiacere sse puoi rispiegami meglio quest' ultimo periodo, in modo più dettagliato.

PS. E' chiaro adesso perchè posto il problema in algebra lineare ? Non è una volontaria violazione di regole !

hamming_burst
@Sergio:
davvero interessante come hai esposto l'approssimazione hai minimi-quadrati. Conosco il problema secondo un modello più algoritmico perciò ho una visione del problema in maniera più pratica. Per questo la tua esposizione legato alla statistica non lo avevo mai "vista", anche se intuibile parlando di fitting :)

[Mini-OT]

@pasqualinux: da come hai descritto il problema mi chiedo, nel tuo corso, si parla di matrice pseudo-inversa (denotata con $A^\text{*}$ di solito) che si utilizza nel calcolo (algoritmico) dei minimi-quadrati?

[/Mini-OT]

Linux1987
@hamming_burst: no parliamo semplicemente di sistema delle equazioni normali...anche se devo ammettere in tutta onestà , forse perchè conosco poco la statistica , che preferisco la spiegazioni del probema dei minimi quadrati , come esposta dal mio prof, semplicemente , perchè mi rende meglio l'idea di quello che dobbiamo fare, naturalmente provo grande ammirazione per Sergio e per la sua profonda conoscenza statistica, che non nego mi piacerebbe avere!!

dissonance
Mi sono ricordato che tempo fa scrissi pure io due righe sui minimi quadrati, moolto più terra-terra rispetto a quelle di Sergio:

post628717.html

Magari ti possono essere utili. Nel dubbio però preferisci sempre un buon libro a cose lette sui forum.

Linux1987
dissonance la spiegazione del mio profè simile alla tua , molto più vicina di quella di sergio... che ripeto è una cosa geniale

dissonance
Conosci il libro di Ghelardoni-Gheri-Marzulli?

http://users.dma.unipi.it/ghelardoni/li ... itoli.html

Prova a dare un'occhiata. Sull'algebra lineare numerica il testo più completo (e difficile) è il Bini-Capovani-Menchi.

Linux1987
Quindi avremmo duvuto postare in anilisi numerica e ricerca operativa sarebbe stato più adatto!!

Rispondi
Per rispondere a questa discussione devi prima effettuare il login.