Dubbio Metodo del Gradiente

svuotapista
Gentili utenti buongiorno, faccio mea culpa di essere un Ingegnere alle prese con un corso di Calcolo Numerico e di essere fermo davanti ad un paio di spiegazioni che solo voi bravi matematici potreste darmi... Purtroppo la mia base matematica (soprattutto dell'algebra vettori-matrici) è un po' arrugginita, ma anche certi concetti...non passano e io prima di studiare a memoria vorrei CAPIRE...

Sto studiando la dimostrazione del metodo del gradiente e del gradiente coniugato e mi imbatto in due dubbi colossali per i quali è tre giorni che cerco cerco cerco in italiano, inglese, spagnolo e tutti danno per scontato queste due cose:

Dubbio n. 1:
Dalla dispensa del prof. leggo:
Definizione. Una direzione x(k) si dice ottimale rispetto ad una direzione p diverso da zero se:
$ phi (x^((k)))<= phi (x^((k))+lambda p), AA lambda in R $
Cosa significa e perché si può dire questo?

Dubbio n. 2:
Sia: $ phi (x^((k))+lambda p)=1/2(x^((k))+lambda p)^TA(x^((k))+lambda p)-(x^((k))+lambda p)b $
e sia la sua derivata rispetto a lambda:
$ (partial phi (x^((k))+lambda p))/(partial lambda)=p^T(Ax^((k))-b)+lambdap^TAp $
Qualcuno potrebbe illustrarmi i passaggi che stanno dietro questa derivazione?
Non vorrei impararla a memoria.

Molte grazie a chi volesse aiutarmi...

Risposte
gugo82
"svuotapista":
Dubbio n. 1:
Dalla dispensa del prof. leggo:
Definizione. Una direzione x(k) si dice ottimale rispetto ad una direzione p diverso da zero se:
$ phi (x^((k)))<= phi (x^((k))+lambda p), AA lambda in R $
Cosa significa e perché si può dire questo?

Dovresti ben sapere che non ha alcun senso chiedersi "perché si può dire questo?" davanti ad una definizione: infatti, una definizione fissa l'uso di un termine e nulla più.
Per fare un esempio in linguaggio naturale, è come se ti chiedessi perché si può chiamare "gatto" un gatto. :lol:

Una domanda sensata rispetto a questa definizione sarebbe "perché viene scelto il termine ottimale?", nel senso che l'aggettivo ottimale si porta già sul groppone tutta una serie di significati (matematici e non) e perciò vorresti capire se la definizione data concorda con i significati preesistenti ad essa.
[Attenzione! Questo problema non è affatto un problema matematico. Una definizione in Matematica può non avere alcun vincolo di attinenza con le definizioni del vocabolario né con l'intuizione. :wink:]

Nel caso in esame, la disuguaglianza:
\[
\phi (x^{(k)})\leq \phi (x^{(k)} + \lambda\ p)\; ,
\]
valida per ogni \(\lambda\in \mathbb{R}\) e ogni direzione \(p\), significa che:

    comunque tu ti voglia muovere in maniera rettilinea partendo dal punto \(x^{(k)}\), lungo il segmento di estremi \(x^{(k)}\) ed \(x^{(k)}+\lambda p\) il valore della tua funzione non decresce.[/list:u:99mlbwzm]

    Quindi, se stai cercando un minimo (come credo tu stia facendo), è meglio che rimani nel punto \(x^{(k)}\) piuttosto che muoverti lì intorno, perché in \(x^{(k)}\) il valore di \(\phi\) è già il più piccolo possibile.
    In questo senso il punto \(x^{(k)}\) è ottimale.

    "svuotapista":
    Dubbio n. 2:
    Sia: $ phi (x^((k))+lambda p)=1/2(x^((k))+lambda p)^TA(x^((k))+lambda p)-(x^((k))+lambda p)b $
    e sia la sua derivata rispetto a lambda:
    $ (partial phi (x^((k))+lambda p))/(partial lambda)=p^T(Ax^((k))-b)+lambdap^TAp $
    Qualcuno potrebbe illustrarmi i passaggi che stanno dietro questa derivazione?

    Si tratta di scriverti bene la funzione \(\phi\) e derivare con gli strumenti di Analisi I.
    Se interpreto bene, scrivendo \(\phi\) in maniera esplicita (cioé usando le coordinate) hai:
    \[
    \phi (x^{(k)}+\lambda\ p) = \frac{1}{2}\ \sum_{i,j=1}^n a_{i,j}\ (x_i^{(k)}+\lambda p_i)\ (x_j^{(k)}+\lambda p_j) - \sum_{i=1}^n (x_i^{(k)} + \lambda p_i)\ b_i
    \]
    da cui, derivando e riaggiustando i termini, ottieni senza sforzo quello che ti serve.

Rispondi
Per rispondere a questa discussione devi prima effettuare il login.