Domande su fattorizzazione LU e minimi quadrati
Salve a tutti, avrei bisogno di chiarimenti sugli argomenti in oggetto.
1) le tecniche di Doolittle e Crout per il riempimento della matrice nella fattorizzazione LU, a cosa servono? Se è vero che si differenziano solo per l'ordine di riempimento di righe e colonne, cosa mi induce a preferire una tecnica all'altra?
2) nell'approssimazione polinomiale ai minimi quadrati, quando si applica la condizione necessaria affinchè un punto sia di minimo, il mio libro considera il sistema delle equazioni normali
dove $ Phi(alpha_0, alpha_1, ..., alpha_m; x) $ è la funzione di approssimazione nella variabile $ x $ che stiamo cercando (che dipende dagli $ m+1 $ coefficienti $ alpha_0, alpha_1, ..., alpha_m $). Fin qui tutto chiaro.
In seguito, considera $ Phi(alpha_0, alpha_1, ..., alpha_m; x) $ nella forma $ Phi(alpha_0, alpha_1, ..., alpha_m; x) = alpha_0varphi_0(x) + alpha_1varphi_1(x) + ... + alpha_mvarphi_m(x) = [ varphi_0(x) \ \ cdots \ \ varphi_m(x) ] [ ( a_0 ),( vdots ),( a_m ) ]$ ottenendo, per ogni nodo $ x_i $:
$ [ ( Phi(alpha_0, alpha_1, ..., alpha_m; x_0) ),( Phi(alpha_0, alpha_1, ..., alpha_m; x_1) ),(vdots ),( Phi(alpha_0, alpha_1, ..., alpha_m; x_n) ) ] = [ ( varphi_0(x_0) , varphi_1(x_0) , cdots , varphi_m(x_0) ),( varphi_0(x_1) , varphi_1(x_1) , cdots , varphi_m(x_1) ),( vdots , vdots , , vdots ),( varphi_0(x_n) , varphi_1(x_n) , cdots , varphi_m(x_n) ) ] [ ( alpha_0 ),( alpha_1 ),( vdots ),( alpha_m ) ] = A\mathbf(alpha)$
Infine, ricava l'espressione della funzione $ Q(a_0, ..., a_m) = sum_(i = 0)^(n) (Phi(alpha_0, alpha_1, ..., alpha_m; x_i)-y_i)^2 = norm(A\mathbf(alpha)^T-\mathbf(y))_2^2 $
Tutto chiaro anche qui.
Non ho capito questi passaggi: $ norm(A\mathbf(alpha)^T-\mathbf(y))_2^2 = (A\mathbf(alpha)-\mathbf(y))^T(A\mathbf(alpha)-\mathbf(y)) = (\mathbf(alpha)^TA^T-\mathbf(y)^T)(A\mathbf(alpha)-\mathbf(y)) = \mathbf(alpha)^TA^TA\mathbf(alpha)-2\mathbf(alpha)^TA^T\mathbf(y)+\mathbf(y)^T\mathbf(y) $
da cui, imponendo che $ (partial Q)/(partial alpha_i) = 0 rArr A^TA\mathbf(alpha)-A^T\mathbf(y) = 0 rArr A^TA\mathbf(alpha) = A^T\mathbf(y) $
Potreste, gentilmente, spiegarmeli? Vi ringrazio anticipatamente
1) le tecniche di Doolittle e Crout per il riempimento della matrice nella fattorizzazione LU, a cosa servono? Se è vero che si differenziano solo per l'ordine di riempimento di righe e colonne, cosa mi induce a preferire una tecnica all'altra?
2) nell'approssimazione polinomiale ai minimi quadrati, quando si applica la condizione necessaria affinchè un punto sia di minimo, il mio libro considera il sistema delle equazioni normali
$ (partial Q)/(partial alpha_k)(alpha_0, alpha_1, ..., alpha_m) = sum_(i = 0)^(n) (Phi(alpha_0, alpha_1, ..., alpha_m; x_i)-y_i)(partial Phi)/(partial alpha_k)(alpha_0, alpha_1, ..., alpha_m; x_i)=0 $, con $ k = 0, ..., m $
dove $ Phi(alpha_0, alpha_1, ..., alpha_m; x) $ è la funzione di approssimazione nella variabile $ x $ che stiamo cercando (che dipende dagli $ m+1 $ coefficienti $ alpha_0, alpha_1, ..., alpha_m $). Fin qui tutto chiaro.
In seguito, considera $ Phi(alpha_0, alpha_1, ..., alpha_m; x) $ nella forma $ Phi(alpha_0, alpha_1, ..., alpha_m; x) = alpha_0varphi_0(x) + alpha_1varphi_1(x) + ... + alpha_mvarphi_m(x) = [ varphi_0(x) \ \ cdots \ \ varphi_m(x) ] [ ( a_0 ),( vdots ),( a_m ) ]$ ottenendo, per ogni nodo $ x_i $:
$ [ ( Phi(alpha_0, alpha_1, ..., alpha_m; x_0) ),( Phi(alpha_0, alpha_1, ..., alpha_m; x_1) ),(vdots ),( Phi(alpha_0, alpha_1, ..., alpha_m; x_n) ) ] = [ ( varphi_0(x_0) , varphi_1(x_0) , cdots , varphi_m(x_0) ),( varphi_0(x_1) , varphi_1(x_1) , cdots , varphi_m(x_1) ),( vdots , vdots , , vdots ),( varphi_0(x_n) , varphi_1(x_n) , cdots , varphi_m(x_n) ) ] [ ( alpha_0 ),( alpha_1 ),( vdots ),( alpha_m ) ] = A\mathbf(alpha)$
Infine, ricava l'espressione della funzione $ Q(a_0, ..., a_m) = sum_(i = 0)^(n) (Phi(alpha_0, alpha_1, ..., alpha_m; x_i)-y_i)^2 = norm(A\mathbf(alpha)^T-\mathbf(y))_2^2 $
Tutto chiaro anche qui.
Non ho capito questi passaggi: $ norm(A\mathbf(alpha)^T-\mathbf(y))_2^2 = (A\mathbf(alpha)-\mathbf(y))^T(A\mathbf(alpha)-\mathbf(y)) = (\mathbf(alpha)^TA^T-\mathbf(y)^T)(A\mathbf(alpha)-\mathbf(y)) = \mathbf(alpha)^TA^TA\mathbf(alpha)-2\mathbf(alpha)^TA^T\mathbf(y)+\mathbf(y)^T\mathbf(y) $
da cui, imponendo che $ (partial Q)/(partial alpha_i) = 0 rArr A^TA\mathbf(alpha)-A^T\mathbf(y) = 0 rArr A^TA\mathbf(alpha) = A^T\mathbf(y) $
Potreste, gentilmente, spiegarmeli? Vi ringrazio anticipatamente
Risposte
Su 1) non so dire.
Su 2), quale passaggio non ti è chiaro? Mi sembrano tutti relativamente intuitivi, a parte che mi sembra manchi un 2 forse...
Su 2), quale passaggio non ti è chiaro? Mi sembrano tutti relativamente intuitivi, a parte che mi sembra manchi un 2 forse...
"Raptorista":
Su 1) non so dire.
Su 2), quale passaggio non ti è chiaro? Mi sembrano tutti relativamente intuitivi, a parte che mi sembra manchi un 2 forse...
Questi due:
$(\mathbf(alpha)^TA^T-\mathbf(y)^T)(A\mathbf(alpha)-\mathbf(y)) = \mathbf(alpha)^TA^TA\mathbf(alpha)-2\mathbf(alpha)^TA^T\mathbf(y)+\mathbf(y)^T\mathbf(y) $
$ (partial Q)/(partial alpha_i) = A^TA\mathbf(alpha)-A^T\mathbf(y) $
La prima è solo lo svolgimento del conto con l'utilizzo delle proprietà della trasposizione: \(x^T y = y^T x\).
Il secondo è la derivata rispetto ad \(\alpha\), che "moralmente" è come se fosse la derivata di \(A^2 \alpha^2 - 2 \alpha A y\).
Il secondo è la derivata rispetto ad \(\alpha\), che "moralmente" è come se fosse la derivata di \(A^2 \alpha^2 - 2 \alpha A y\).
"Raptorista":
a parte che mi sembra manchi un 2 forse...
Mi sono semplicemente limitato a riportare ciò che è presente nel libro. Forse non mi sono chiari i passaggi perché c'è qualche errore di battitura? Non ho capito come si effettuano la derivata su questi vettori e come si svolge il prodotto tra quelle due parentesi
Il prodotto tra le parentesi si fa esattamente come con numeri scalari: con la proprietà distributiva.
Ricorda che sono tutti scalari, quindi puoi scrivere \(Q\) "come sommatorie" e poi fare la derivata utilizzando la linearità.
La derivata di uno scalare rispetto ad un vettore è il vettore la cui \(i\)-esima componente è la derivata dello scalare rispetto alla \(i\)-esima componente del vettore.
Ricorda che sono tutti scalari, quindi puoi scrivere \(Q\) "come sommatorie" e poi fare la derivata utilizzando la linearità.
La derivata di uno scalare rispetto ad un vettore è il vettore la cui \(i\)-esima componente è la derivata dello scalare rispetto alla \(i\)-esima componente del vettore.
"Raptorista":
Il secondo è la derivata rispetto ad \(\alpha\), che "moralmente" è come se fosse la derivata di \(A^2 \alpha^2 - 2 \alpha A y\).
e quel "2" che manca dov'è finito? Quindi dovrebbe essere $ (partial (\mathbf(alpha)^TA^TA\mathbf(alpha)))/(partial alpha_i) = 2A^TA\mathbf(alpha)$ ?
"robe92":
e quel "2" che manca dov'è finito?
Semplificato col \(2\) dell'altro addendo.
"robe92":
Quindi dovrebbe essere $ (partial (\mathbf(alpha)^TA^TA\mathbf(alpha)))/(partial alpha_i) = 2A^TA\mathbf(alpha)$ ?
Sì.
"Raptorista":
[quote="robe92"]Quindi dovrebbe essere $ (partial (\mathbf(alpha)^TA^TA\mathbf(alpha)))/(partial alpha_i) = 2A^TA\mathbf(alpha)$ ?
Sì.[/quote]
E come mai compare quel "2"? Perdona la mia ignoranza, ma ho sostenuto l'esame di geometria e algebra lineare molto tempo fa e ormai non ricordo quasi nulla
