Differenziali e trasformazioni lineari
Devo fare un po' di pulizia concettuale. Scriverò qualche cosa intorno ai differenziali... Potreste verificarne la correttezza?
Cominciamo...
$f : U subseteq RR^n -> RR^m$
Allora 1. il differenziale $f'$ sarà una funzione $f' : U subseteq RR^n -> L( RR^n , RR^m)$
In particolare, se $a in U$, $f'(a) : RR^n -> RR^m$ ed è un operatore lineare la cui matrice è chiamata lo Jacobiano di $f$ nel punto $a$.
2. Il differenziale secondo $f''$ sarà una funzione $f'' : U subseteq RR^n -> L( RR^n , L (RR^n, RR^m) )$ (perché è il differenziale del differenziale primo).
In particolare, preso $a in U$, $f''(a) : RR^n -> L (RR^n, RR^m)$ ed è un operatore lineare la cui matrice è lo Jacobiano di $f'$ nel punto $a$.
Sia $h in RR^n$; $f''(a)[h]$ è un operatore lineare $f''(a)[h] : RR^n -> RR^m$.
E ancora $k in RR^n$ , $f''(a)[h][k] in RR^m$.
Epperò... $f'' : U subseteq RR^n -> L( RR^n , L (RR^n, RR^m) ) ~= L ( RR^n times RR^n , RR^m )$
quindi $f''(a) : RR^n times RR^n -> RR^m$; e ancora, detta $A in RR^n times RR^n$, $f''(a)[A] in RR^m$.
_____________________
Sono giuste le considerazioni fatte fin qui (sto cercando di capire come sono fatti i differenziali di ordine superiore al primo e come si lavora con queste trasformazioni lineari)...
Grazie.
Cominciamo...
$f : U subseteq RR^n -> RR^m$
Allora 1. il differenziale $f'$ sarà una funzione $f' : U subseteq RR^n -> L( RR^n , RR^m)$
In particolare, se $a in U$, $f'(a) : RR^n -> RR^m$ ed è un operatore lineare la cui matrice è chiamata lo Jacobiano di $f$ nel punto $a$.
2. Il differenziale secondo $f''$ sarà una funzione $f'' : U subseteq RR^n -> L( RR^n , L (RR^n, RR^m) )$ (perché è il differenziale del differenziale primo).
In particolare, preso $a in U$, $f''(a) : RR^n -> L (RR^n, RR^m)$ ed è un operatore lineare la cui matrice è lo Jacobiano di $f'$ nel punto $a$.
Sia $h in RR^n$; $f''(a)[h]$ è un operatore lineare $f''(a)[h] : RR^n -> RR^m$.
E ancora $k in RR^n$ , $f''(a)[h][k] in RR^m$.
Epperò... $f'' : U subseteq RR^n -> L( RR^n , L (RR^n, RR^m) ) ~= L ( RR^n times RR^n , RR^m )$
quindi $f''(a) : RR^n times RR^n -> RR^m$; e ancora, detta $A in RR^n times RR^n$, $f''(a)[A] in RR^m$.
_____________________
Sono giuste le considerazioni fatte fin qui (sto cercando di capire come sono fatti i differenziali di ordine superiore al primo e come si lavora con queste trasformazioni lineari)...
Grazie.
Risposte
P.S.: $L ( RR^n , RR^m )$ indica lo spazio degli operatori lineari $t$ , $t : RR^n -> RR^m$.
Si, si, sei sulla buona strada. Quando avrai il linguaggio del calcolo tensoriale le cose diventeranno più chiare. Comunque il differenziale di gran lunga più importante è il primo. Gli ordini superiori servono MOLTO meno.
Grazie Dissonance.
Mmmh, come mai?
Comunque sto studiando la dimostrazione della formula di Taylor con il resto di Lagrange (troncata al prim'ordine) per funzioni reali di più variabili. Si procede così:
$f : U subseteq RR^n -> RR$ , $f$ di classe $C^2$. Considero un punto $a in U$ ed un incremento $h in RR^n$.
Definisco una nuova funzione $phi : [0,1] -> RR$ nella seguente maniera $phi(t) = f ( a + t * h )$ e calcolo lo sviluppo di Taylor (con il resto di Lagrange) di $phi$ nel punto $t = 0$:
$phi(t) = phi(0) + phi'(0) * t + phi''(xi) * t^2/2$ , $xi in [0,1]$.
E calcolo $phi(1) = phi(0) + phi'(0) + phi''(xi) * 1/2$
Ovvero $f(a + h) = f(a) + f'(a)[h] +$ ... Ma ora non so scrivere $phi''(xi)$.
Come lo maneggio, in base alle considerazioni fatte sopra (nel primo post), per ottenere $< Hess f(a + xi * h ) h , h >$ ?
"dissonance":
Quando avrai il linguaggio del calcolo tensoriale le cose diventeranno più chiare.[...]
Mmmh, come mai?
Comunque sto studiando la dimostrazione della formula di Taylor con il resto di Lagrange (troncata al prim'ordine) per funzioni reali di più variabili. Si procede così:
$f : U subseteq RR^n -> RR$ , $f$ di classe $C^2$. Considero un punto $a in U$ ed un incremento $h in RR^n$.
Definisco una nuova funzione $phi : [0,1] -> RR$ nella seguente maniera $phi(t) = f ( a + t * h )$ e calcolo lo sviluppo di Taylor (con il resto di Lagrange) di $phi$ nel punto $t = 0$:
$phi(t) = phi(0) + phi'(0) * t + phi''(xi) * t^2/2$ , $xi in [0,1]$.
E calcolo $phi(1) = phi(0) + phi'(0) + phi''(xi) * 1/2$
Ovvero $f(a + h) = f(a) + f'(a)[h] +$ ... Ma ora non so scrivere $phi''(xi)$.
Come lo maneggio, in base alle considerazioni fatte sopra (nel primo post), per ottenere $< Hess f(a + xi * h ) h , h >$ ?
Sempre alla solita maniera. Intanto una osservazione importante che prima ho scordato: quando scrivi \(L(\mathbb{R}^n \times \mathbb{R}^n, \mathbb{R}^m)\) ricordati che stai parlando di mappe lineari in ogni variabile singolarmente. Ovvero, per \(a\in U\) fissato, \(f''(a)\) è una applicazione di due variabili lineare in ciascuna di esse. (Il calcolo tensoriale fornisce un linguaggio per gestire oggetti così. Ad esempio, qui diresti che \(f''(a)\) è un tensore di tipo \(1-2\). Ma non è obbligatorio).
Ciò detto, la regola per il differenziale delle funzioni composte è sempre quella. Nello specifico, \(f''(a)\) è una forma quadratica e
\[\phi''(\xi)=f''(a+\xi h)(h, h), \]
e a conti fatti la matrice associata a tale forma quadratica è proprio la matrice Hessiana di \(f\). Prova a consultare qui:
post505198.html#p505198
Ciò detto, la regola per il differenziale delle funzioni composte è sempre quella. Nello specifico, \(f''(a)\) è una forma quadratica e
\[\phi''(\xi)=f''(a+\xi h)(h, h), \]
e a conti fatti la matrice associata a tale forma quadratica è proprio la matrice Hessiana di \(f\). Prova a consultare qui:
post505198.html#p505198
Ho visto il post da te suggerito; però ancora non ho capito bene come usare la regola per il differenziale di funzioni composte...
Sotto le ipotesi del caso, la regola sarebbe questa: $(g circ f)'(a) = g'(f(a)) circ f'(a)$
Ma come la uso?
Sotto le ipotesi del caso, la regola sarebbe questa: $(g circ f)'(a) = g'(f(a)) circ f'(a)$
Ma come la uso?
Io la vedrei così:
$phi'(t) = f'(a + t h ) circ h$
$f'(a + t h )$ è, nel caso in esame, proprio il gradiente $grad f( a + t h ) in RR^n$; mentre $h = ( h_1 , ... , h_n )$ allora:
$phi'(t) = grad f(a + t h ) * ( h_1 , ... , h_n )^T = < grad f(a + t h ) , h > = f'(a + t h )[h]$ (*). Fin qui ci sono.
Ora $phi''(t) = d/(dt) f'(a + t h )[h] = f''( a + t h )[h][h]$ (che non so bene cosa significhi)
ma $f''(a + t h)$ (primo post) è la matrice hessiana di $f$ nel punto $a + t h$, dunque (vediamo $h$ come vettore colonna):
$f''( a + t h )[h][h] = (Hess f(a + t h) * h )[h] = < Hess f(a + t h) * h , h >$ ripetendo il ragionamento fatto prima (*).
E' giusto?
$phi'(t) = f'(a + t h ) circ h$
$f'(a + t h )$ è, nel caso in esame, proprio il gradiente $grad f( a + t h ) in RR^n$; mentre $h = ( h_1 , ... , h_n )$ allora:
$phi'(t) = grad f(a + t h ) * ( h_1 , ... , h_n )^T = < grad f(a + t h ) , h > = f'(a + t h )[h]$ (*). Fin qui ci sono.
Ora $phi''(t) = d/(dt) f'(a + t h )[h] = f''( a + t h )[h][h]$ (che non so bene cosa significhi)
ma $f''(a + t h)$ (primo post) è la matrice hessiana di $f$ nel punto $a + t h$, dunque (vediamo $h$ come vettore colonna):
$f''( a + t h )[h][h] = (Hess f(a + t h) * h )[h] = < Hess f(a + t h) * h , h >$ ripetendo il ragionamento fatto prima (*).
E' giusto?
Mi pare che in questo caso le due funzioni siano \(f'(a+\cdot)(h)\colon U \to \mathbb{R} \) e \(\cdot h\colon \mathbb{R}\to U\). Controlla però che sono più di là che di qua. Quindi applicando la chain rule otteniamo
\[\phi''(\xi)=\big(f'(a+\xi h)(h)\big)'(h)=\big(f''(a+ \xi h)(h)\big)(h), \]
ovvero \(f''(a+\xi h)(h, h)\), stando all'identificazione che abbiamo fatto prima di \(L(\mathbb{R}^n; L(\mathbb{R}^n, \mathbb{R})\) e \(L(\mathbb{R}^n, \mathbb{R}^n; \mathbb{R})\).
PS: Ho scritto contemporaneamente a te. Questo qui riportato è il procedimento astratto, senza passare da gradienti né matrici di alcun genere.
\[\phi''(\xi)=\big(f'(a+\xi h)(h)\big)'(h)=\big(f''(a+ \xi h)(h)\big)(h), \]
ovvero \(f''(a+\xi h)(h, h)\), stando all'identificazione che abbiamo fatto prima di \(L(\mathbb{R}^n; L(\mathbb{R}^n, \mathbb{R})\) e \(L(\mathbb{R}^n, \mathbb{R}^n; \mathbb{R})\).
PS: Ho scritto contemporaneamente a te. Questo qui riportato è il procedimento astratto, senza passare da gradienti né matrici di alcun genere.
D'accordo... In pratica il tuo $f''(a + t h )(h,h)$ è il mio $f''(a + t h )[h][h]$. Vedo bene?
Allora direi, a naso, che va bene il discorso che ho fatto. Grazie mille ancora per l'aiuto.
Allora direi, a naso, che va bene il discorso che ho fatto. Grazie mille ancora per l'aiuto.
Ho controllato, è corretto. Di solito non si va oltre il secondo ordine perché da quel punto in poi il differenziale non si può più rappresentare con un vettore (come \(f'\)) o una matrice (come \(f''\)) ma occorrerebbe un oggetto a tre o più indici.
Grazie ancora Dissonance.
Qualcuno di voi utilizza ancora la notazione seguente?
$z = z ( x_1 , ... , x_n )$
$d z = (del z)/(del x_1) dx_1 + (del z)/(del x_2) dx_2 + ... + (del z)/(del x_n) dx_n$
P.S.: $d z$ è chiamato il differenziale totale.
EDIT: Penso che in termini moderni $d z = < grad f , dx >$ , ove $dx = ( dx_1 , ... , dx_n )$.
$z = z ( x_1 , ... , x_n )$
$d z = (del z)/(del x_1) dx_1 + (del z)/(del x_2) dx_2 + ... + (del z)/(del x_n) dx_n$
P.S.: $d z$ è chiamato il differenziale totale.
EDIT: Penso che in termini moderni $d z = < grad f , dx >$ , ove $dx = ( dx_1 , ... , dx_n )$.
Certo. Si usa un sacco, e non solo in senso urang-utang. Anzi, in geometria differenziale quella formula ha un significato ben preciso e completamente rigoroso.