Concavità e convessità
Ciao ragazzi, ho bisogno di due chiarimenti:
1) Perchè una funzione $f(x,y)$ è convessa su un insieme $A$ anch'esso convesso se e solo se la sua matrice Hessiana è semidefinita positiva per ogni punto appartenente ad $A$?
2) Se la funzione avesse l'Hessiano semidefinito positivo per ogni punto appartenente ad $A$, ma con $A$ concavo e non convesso, cosa succede? (non capisco perchè $A$ debba essere necessariamente convesso).
Grazie!!!
Alexp
1) Perchè una funzione $f(x,y)$ è convessa su un insieme $A$ anch'esso convesso se e solo se la sua matrice Hessiana è semidefinita positiva per ogni punto appartenente ad $A$?
2) Se la funzione avesse l'Hessiano semidefinito positivo per ogni punto appartenente ad $A$, ma con $A$ concavo e non convesso, cosa succede? (non capisco perchè $A$ debba essere necessariamente convesso).
Grazie!!!
Alexp
Risposte
Anzitutto la 1 per come e' scritta non e' vera: infatti non si dice che la funzione debba essere cosi' regolare da ammettere matrica hessiana. La definizione di convessita' dice che una funzione e' convessa se e solo se vale:
$f(tv+(1-t)w) \le tf(v)+(1-t)f(w)$ per ogni $t \in [0,1]$ e per ogni $v,w \in A$ che quindi deve essere convesso per dar senso al primo membro della disuguaglianza.
Se $f$ e' di classe $C^2$ allora la convessita' equivale alla semidefinita positivita' della matrice hessiana, e questo si dimostra, e' l'analogo del fatto che in una variabile una funzione $C^2$ e' convessa su un intervallo se e solo se $f''\geq 0$.
Nel caso in cui $A$ non sia un insieme convesso e l'hessiana sia semidefinita positiva, allora si conclude la convessita' di $f$ in ogni sottoinsieme convesso di $A$, ma non in tutto $A$, che non ha senso dal momento che la definizione di convessita' perde significato.
$f(tv+(1-t)w) \le tf(v)+(1-t)f(w)$ per ogni $t \in [0,1]$ e per ogni $v,w \in A$ che quindi deve essere convesso per dar senso al primo membro della disuguaglianza.
Se $f$ e' di classe $C^2$ allora la convessita' equivale alla semidefinita positivita' della matrice hessiana, e questo si dimostra, e' l'analogo del fatto che in una variabile una funzione $C^2$ e' convessa su un intervallo se e solo se $f''\geq 0$.
Nel caso in cui $A$ non sia un insieme convesso e l'hessiana sia semidefinita positiva, allora si conclude la convessita' di $f$ in ogni sottoinsieme convesso di $A$, ma non in tutto $A$, che non ha senso dal momento che la definizione di convessita' perde significato.
Luca 3 cose:
1) Perchè dici (nell'ultima riga della risposta) che la convessità perde di significato? perchè l'insieme deve essere necessariamente convesso per non far perdere di significato alla convesità?
2) Nel caso si ha determinante hessiano che vale zero, se si studia la traccia di tale matrice e si determinano i "settori" del piano in cui essa (la traccia) è ad esempio positiva, significa che in quei punti la funzione è convessa? anche se in quei punti il determinante della matrice non vale più zero?
3) Io ho un esempio di esercizio in cui il graciente della superficie si annulla lungo 3 rette, $x-y=3, x-y=-3, x-y=0$....lungo i punti di queste rette anche il determinante hessiano vale sempre zero, quindi studiano la traccia della matrice e trovano che: per A1=$x-ysqrt3$ Hf è sempre semidefinito positivo, mentre in A3=$-sqrt3
dopo di che l'esempio dice: essendo A1 e A2 aperti e convessi ed Hf sempre semipositivo allora f in A1 e A2 è convessa, mentre essendo A3 aperto e convesso, ma Hf sempre semidefinito negativo allora f in A3 è concava.
Il mio dubbio è: se per esempio considero la funzione $z=x^3+y^3$ (specifico che non è la stessa funzione dell'esempio sopra) in A1=$x>-y$ avrò che la funzione è sempre convessa, ma nonostante ciò in alcuni punti di A1 ad esempio (2,-1) anche se la funzione è convessa, mi risultano gli autovalori uno positivo ed uno negativo.....quindi anche se non è sempre semipositivo Hf la funzione può essere covessa? o si intende che i punti devono necessariamente essere stazionari? (però il teorema non esplicita i punti devono essere stazionari, esso dice solamente che se $A$ è convesso, ecc...ecc...allora la f è convessa se e solo se in tutti i punti di $A$ è semidefinita positiva)
1) Perchè dici (nell'ultima riga della risposta) che la convessità perde di significato? perchè l'insieme deve essere necessariamente convesso per non far perdere di significato alla convesità?
2) Nel caso si ha determinante hessiano che vale zero, se si studia la traccia di tale matrice e si determinano i "settori" del piano in cui essa (la traccia) è ad esempio positiva, significa che in quei punti la funzione è convessa? anche se in quei punti il determinante della matrice non vale più zero?
3) Io ho un esempio di esercizio in cui il graciente della superficie si annulla lungo 3 rette, $x-y=3, x-y=-3, x-y=0$....lungo i punti di queste rette anche il determinante hessiano vale sempre zero, quindi studiano la traccia della matrice e trovano che: per A1=$x-y
Il mio dubbio è: se per esempio considero la funzione $z=x^3+y^3$ (specifico che non è la stessa funzione dell'esempio sopra) in A1=$x>-y$ avrò che la funzione è sempre convessa, ma nonostante ciò in alcuni punti di A1 ad esempio (2,-1) anche se la funzione è convessa, mi risultano gli autovalori uno positivo ed uno negativo.....quindi anche se non è sempre semipositivo Hf la funzione può essere covessa? o si intende che i punti devono necessariamente essere stazionari? (però il teorema non esplicita i punti devono essere stazionari, esso dice solamente che se $A$ è convesso, ecc...ecc...allora la f è convessa se e solo se in tutti i punti di $A$ è semidefinita positiva)
1) La definizione di convessita' non ha senso se $f$ non viene definita su un insieme non convesso: infatti devi valutare $f(tv+(1-t)w)$ e se $A$ non e' convesso non e' detto che per ogni $v,w \in A$ e per ogni $t \in [0,1]$ si abbia $tv+(1-t)w \in A$.
2) Se il determinante hessiano e' nullo allora l'hessiano ha almeno un autovalore nullo. Se la traccia e' positiva poco si puo' dire in generale sul segno degli altri autovalori, a meno che non sia il caso della dimensione $2$. In tal caso c'e' solo un altro autovalore che e' per forza positivo (sempre se la traccia e' positiva), e quindi l'hessiana viene una forma quadratica semidefinita positiva.
3) A me non sembra proprio che $z=x^3+y^3$ sia convessa in ${x>y}$.
2) Se il determinante hessiano e' nullo allora l'hessiano ha almeno un autovalore nullo. Se la traccia e' positiva poco si puo' dire in generale sul segno degli altri autovalori, a meno che non sia il caso della dimensione $2$. In tal caso c'e' solo un altro autovalore che e' per forza positivo (sempre se la traccia e' positiva), e quindi l'hessiana viene una forma quadratica semidefinita positiva.
3) A me non sembra proprio che $z=x^3+y^3$ sia convessa in ${x>y}$.
Non in $x>y$, ma in $x>-y$
Ma i punti in cui la traccia risulta positiva, significa che la superficie in quei punti è convessa?
Ma i punti in cui la traccia risulta positiva, significa che la superficie in quei punti è convessa?
E che intendi con quel simbolo?
Poi la definizione di convessita' non e' una definizione puntuale, ma globale. Si da' la convessita' su un insieme, non in un punto.
Poi la definizione di convessita' non e' una definizione puntuale, ma globale. Si da' la convessita' su un insieme, non in un punto.
Ok
Te lo scrivo in lettere......la funzione $z=x^3+y^3$ è convessa per x maggiore di meno y.

Potevi scrivere $x+y>0$... comunque non va bene, ad esempio in $(3,-2)$ l'hessiana non e' semidefinita positiva per cui, per continuita', in tutta una palla (che e' convessa) centrata in $(3,-2)$ la funzione $f$ non e' convessa.
Scusami, ma non ho capito.....il punto (2,-1) corrisponde a $x+y>0$.....ora la funzione $z=x^3+y^3$ in quel punto vale 7 e la concavità è rivolta verso l'alto, nel senso se limitiamo la superficie alla retta $y=-1/2x$ passante per il punto (2,-1) otteniamo $z=x^3-(1/8)x^3$ ora studiando la concavità ossia calcolando la derivata seconda otteniamo $z"=6x-(6/8)x$ per $x=2$ otteniamo $z"=12-(12/8)$ che è un valore positivo.....dunque in quel punto è convessa!
dove sbaglio?
dove sbaglio?
Una funzione non e' mai convessa in un punto, ma in un insieme convesso. A parte questo, il tuo ragionamento non regge, indipendentemente dal fatto che $z$ sia convessa o no, poiche' hai concluso la convessita' di $z$ limitandoti ad una sezione lungo una retta. E le altre sezioni?
Hai perfettamente ragione!!!
Provo a ragionare se queste info che mi hai fornito....poi se ho dei dubbi nuovi ti scrivo.....nel caso non apro un post nuovo, continuo in questo!!!!
ok?

Provo a ragionare se queste info che mi hai fornito....poi se ho dei dubbi nuovi ti scrivo.....nel caso non apro un post nuovo, continuo in questo!!!!

Luca una cosa, mi "illustreresti" meglio (in modo semplice) il perchè se in ogni punto di $A$ Hf è semidefinito (ad esempio) positivo sicuramente, su $A$ f è convessa?
L'idea di fondo e' quella di considerare la funzione $\phi(t)=f(w+t(v-w))$ definita su $[0,1]$ e di studiare la derivata seconda di $\phi$ la quale si scrive in termini dell'hessiano di $f$.
La dimostrazione tecnica sarebbe da scrivere per bene, se vuoi la posso scrivere nel dettaglio, ma l'idea e' quella di ricondursi al caso delle funzioni convesse in una variabile.
La dimostrazione tecnica sarebbe da scrivere per bene, se vuoi la posso scrivere nel dettaglio, ma l'idea e' quella di ricondursi al caso delle funzioni convesse in una variabile.
Caspita.....non riesco a collegare le cose!!! Non voglio obbligarti a scrivermi tutta la dimostrazione.....mi basterebbe anche un idea intuitiva del perchè..... altrimenti se hai qualcosa in rete a riguardo mi puoi inserire un link
Va dimostrato che se $A$ e' un aperto convesso in $\RR^n$ ed $f \in C^2(A)$ allora $f$ e' convessa se e solo se $Hf \ge 0$, ovvero per ogni $v \in RR^n$ si ha $v^T(Hf) v \ge 0$.
Idea della dimostrazione: supponiamo $f$ convessa; sia $x \in A$ e $v \in RR^n$. Sia $\phi(t)=f(x+tv)$ per $t$ piccolo. Allora si vede che $\phi$ e' convessa in un intervallo centrato in $0$, per cui $\phi''(0) \ge 0$. Ma $\phi''(0)=v^T (Hf) v$ da cui la tesi. (Qui l'idea e' quella di ricondursi, per sezioni, alla convessita' in una variabile, e usare il fatto che la derivata seconda della sezione si puo' vedere come l'hessiano della $f$ che agisce sulla direzione).
Viceversa supponiamo che valga $v^T(Hf)v \ge 0$ per ogni $v \in RR^n$; anche in tal caso ragioniamo per sezioni considerando la funzione $\psi(t)=f(x+t(y-x))$, ben definita se $t \in [0,1]$. Anche in tal caso si vede che risulta $psi''(t)=(y-x)^T(Hf)(y-x)$, dove $Hf$ e' valutato in $x+t(y-x)$. Dunque $\psi$ e' convessa e scrivendo la convessita' di $psi$ si trova la convessita' di $f$. (Anche qui l'idea e' la stessa, sappiamo che $Hf \ge 0$ per cui cerchiamo di vederlo come derivata seconda di una funzione di una variabile per la quale la convessita' da' la convessita' di $f$).
Idea della dimostrazione: supponiamo $f$ convessa; sia $x \in A$ e $v \in RR^n$. Sia $\phi(t)=f(x+tv)$ per $t$ piccolo. Allora si vede che $\phi$ e' convessa in un intervallo centrato in $0$, per cui $\phi''(0) \ge 0$. Ma $\phi''(0)=v^T (Hf) v$ da cui la tesi. (Qui l'idea e' quella di ricondursi, per sezioni, alla convessita' in una variabile, e usare il fatto che la derivata seconda della sezione si puo' vedere come l'hessiano della $f$ che agisce sulla direzione).
Viceversa supponiamo che valga $v^T(Hf)v \ge 0$ per ogni $v \in RR^n$; anche in tal caso ragioniamo per sezioni considerando la funzione $\psi(t)=f(x+t(y-x))$, ben definita se $t \in [0,1]$. Anche in tal caso si vede che risulta $psi''(t)=(y-x)^T(Hf)(y-x)$, dove $Hf$ e' valutato in $x+t(y-x)$. Dunque $\psi$ e' convessa e scrivendo la convessita' di $psi$ si trova la convessita' di $f$. (Anche qui l'idea e' la stessa, sappiamo che $Hf \ge 0$ per cui cerchiamo di vederlo come derivata seconda di una funzione di una variabile per la quale la convessita' da' la convessita' di $f$).

$v$ e' un vettore colonna, $v^T$ e' quindi un vettore riga e $Hf$ e' una matrice simmetrica $nxn$; quindi e' un prodotto di 3 matrici.
Ahhhh....T indica il trasposto!!! non avevo capito! grazie
Luca un'altra cosa.....
perchè $Hf \ge 0$ equivale a $v^T(Hf) v \ge 0$?..... con $v$ si intende un vettore che indica la direzione della sezione?
perchè $Hf \ge 0$ equivale a $v^T(Hf) v \ge 0$?..... con $v$ si intende un vettore che indica la direzione della sezione?
Si' $v$ denota la direzione della sezione. La scrittura $Hf \ge 0$ e' solo una notazione comoda per dire che la matrice $Hf$ e' semidefinita positiva, ovvero per ogni $v \in RR^n$ vale $v^T (Hf)v \ge 0$.
Dunque, correggimi se sbaglio....Hf per essere semidefinita in un punto deve valere $v^T (Hf)v \ge 0$ per ogni $v$ (direzione della sezione) avente origine nel punto in questione....e così via per tutti i punti di $A$?