Dimostrazione teorema di Fritz John
Salve a tutti,
sto studiando la dimostrazione del seguente teorema di Fritz John.
Sia [tex]I[/tex] un sottoinsieme di [tex]\mathbb{R}^n[/tex] e siano [tex]f:I \to \mathbb{R}[/tex], [tex]g:I \to \mathbb{R}^m[/tex], [tex]h:I \to \mathbb{R}^p[/tex] funzioni di classe [tex]C^1(I)[/tex]. Se esiste un intorno [tex]U \subset \mathbb{R}^n[/tex] di [tex]x_0 \in I[/tex] tale che:
[tex]f(x_0)\leq f(x), \; \; \forall x \in U \cap \{ x \in I |g(x) \leq 0, h(x)=0 \}[/tex]
allora esistono [tex]\lambda_0 \in \mathbb{R}[/tex], [tex]\lambda \in \mathbb{R}^m[/tex] e [tex]\mu \in \mathbb{R}^p[/tex] tali che:
[tex]\left\{\begin{matrix}
\lambda_0 \nabla f(x_0)+ \sum_{i=1}^{m} \lambda_i \nabla g_i(x_0)+\sum_{i=1}^{p} \mu_i \nabla h_i(x_0)=0
\\
\lambda_i g_i(x_0)=0, \; i=1,...,m
\\
x_0 \in \{ x \in I |g(x) \leq 0, h(x)=0 \}
\end{matrix}\right.[/tex]
La dimostrazione l'ho studiata da qui (pagina 29 - 2.2.2) e qui (pagina 60 - 20).
La domanda è: la dimostrazione mi sembra chiara e credo di averla capita; l'unico punto oscuro per me è che a quanto pare c'è la possibilità che il moltiplicatore [tex]\lambda_0[/tex] possa risultare nullo, ma a me sembra che per come è definito quest'ultimo sia sempre strettamente positivo.
Ovviamente sicuramente sono io a sbagliare, poiché mi sembra di aver capito che il caso (particolare e non generale) in cui [tex]\lambda_0 \neq 0[/tex] venga sfruttato per ricavare le condizioni KKT.
Qualcuno che magari già conosce il problema (o che ha voglia di leggersi la dimostrazione) può aiutarmi a capire quando può accadere che [tex]\lambda_0 =0[/tex]?
Grazie anticipatamente.
sto studiando la dimostrazione del seguente teorema di Fritz John.
Sia [tex]I[/tex] un sottoinsieme di [tex]\mathbb{R}^n[/tex] e siano [tex]f:I \to \mathbb{R}[/tex], [tex]g:I \to \mathbb{R}^m[/tex], [tex]h:I \to \mathbb{R}^p[/tex] funzioni di classe [tex]C^1(I)[/tex]. Se esiste un intorno [tex]U \subset \mathbb{R}^n[/tex] di [tex]x_0 \in I[/tex] tale che:
[tex]f(x_0)\leq f(x), \; \; \forall x \in U \cap \{ x \in I |g(x) \leq 0, h(x)=0 \}[/tex]
allora esistono [tex]\lambda_0 \in \mathbb{R}[/tex], [tex]\lambda \in \mathbb{R}^m[/tex] e [tex]\mu \in \mathbb{R}^p[/tex] tali che:
[tex]\left\{\begin{matrix}
\lambda_0 \nabla f(x_0)+ \sum_{i=1}^{m} \lambda_i \nabla g_i(x_0)+\sum_{i=1}^{p} \mu_i \nabla h_i(x_0)=0
\\
\lambda_i g_i(x_0)=0, \; i=1,...,m
\\
x_0 \in \{ x \in I |g(x) \leq 0, h(x)=0 \}
\end{matrix}\right.[/tex]
La dimostrazione l'ho studiata da qui (pagina 29 - 2.2.2) e qui (pagina 60 - 20).
La domanda è: la dimostrazione mi sembra chiara e credo di averla capita; l'unico punto oscuro per me è che a quanto pare c'è la possibilità che il moltiplicatore [tex]\lambda_0[/tex] possa risultare nullo, ma a me sembra che per come è definito quest'ultimo sia sempre strettamente positivo.
Ovviamente sicuramente sono io a sbagliare, poiché mi sembra di aver capito che il caso (particolare e non generale) in cui [tex]\lambda_0 \neq 0[/tex] venga sfruttato per ricavare le condizioni KKT.
Qualcuno che magari già conosce il problema (o che ha voglia di leggersi la dimostrazione) può aiutarmi a capire quando può accadere che [tex]\lambda_0 =0[/tex]?
Grazie anticipatamente.
Risposte
Una nota. Tra Fritz e John non ci va il trattino: sono nome (Fritz) e cognome (John) di una persona... Tipo Beppo Levi.
Ho corretto, grazie.
tl;dr: Non lo so.
Però queste cose non sono altro che la specializzazione agli insiemi determinati da vincoli di disuguaglianze del metodo dei moltiplicatori di Lagrange. In quel caso il moltiplicatore potrebbe benissimo annullarsi, e questo accade quando il punto critico è un punto critico anche senza vincolo. Per esempio considera la funzione \(f(x, y)=y^2\) sul vincolo \(g(x, y)=x^2+y^2-1\). Il metodo dei moltiplicatori di Lagrange dà quattro punti critici: \((0,\pm 1), (\pm 1, 0)\). Di questi, due hanno moltiplicatore nullo, perché sono punti critici di \(f\) su \(\mathbb R^2\).
Però queste cose non sono altro che la specializzazione agli insiemi determinati da vincoli di disuguaglianze del metodo dei moltiplicatori di Lagrange. In quel caso il moltiplicatore potrebbe benissimo annullarsi, e questo accade quando il punto critico è un punto critico anche senza vincolo. Per esempio considera la funzione \(f(x, y)=y^2\) sul vincolo \(g(x, y)=x^2+y^2-1\). Il metodo dei moltiplicatori di Lagrange dà quattro punti critici: \((0,\pm 1), (\pm 1, 0)\). Di questi, due hanno moltiplicatore nullo, perché sono punti critici di \(f\) su \(\mathbb R^2\).
In sostanza è la condizione di complementarietà per vincoli inattivi particolareggiata nel caso di un solo vincolo, nello specifico un vincolo di uguaglianza.
Allora vediamo se qualcun altro ci illumina entrambi
Intanto grazie di essere intervenuto.
Ne approfitto intanto per chiederti un'altra cosa: Fritz John generalizza il metodo di Lagrange a quanto ho capito, ma se non ricordo male Lagrange in $\mathbb{R}^2$ fornisce una condizione necessaria e sufficiente per trovare i punti [strike]estremali[/strike] stazionari condizionati a un solo vincolo. Non so se in \(\displaystyle \mathbb{R}^n \) vale ancora il se e solo se (sempre con un solo vincolo).
Fritz John invece è solo una condizione necessaria. Quindi dopo averlo utilizzato, devo ricorrere a ulteriori verifiche sui punti stazionari che ho trovato per capire se sono estremali, e in tal caso per capire anche se sono di massimo o minimo (locali).
Dico bene?
Non lo so.
Allora vediamo se qualcun altro ci illumina entrambi

Intanto grazie di essere intervenuto.
Ne approfitto intanto per chiederti un'altra cosa: Fritz John generalizza il metodo di Lagrange a quanto ho capito, ma se non ricordo male Lagrange in $\mathbb{R}^2$ fornisce una condizione necessaria e sufficiente per trovare i punti [strike]estremali[/strike] stazionari condizionati a un solo vincolo. Non so se in \(\displaystyle \mathbb{R}^n \) vale ancora il se e solo se (sempre con un solo vincolo).
Fritz John invece è solo una condizione necessaria. Quindi dopo averlo utilizzato, devo ricorrere a ulteriori verifiche sui punti stazionari che ho trovato per capire se sono estremali, e in tal caso per capire anche se sono di massimo o minimo (locali).
Dico bene?
Mi correggo: anche il classico metodo di Lagrange per soli vincoli di uguaglianza fornisce solo una condizione necessaria.
Direi che si può affermare informalmente che, nel caso più generale possibile:
Fritz John : p.ti stazionari vincolati = Fermat : p.ti stazionari liberi
...rimane da capire la questione del \(\displaystyle \lambda_0 =0 \)
Direi che si può affermare informalmente che, nel caso più generale possibile:
Fritz John : p.ti stazionari vincolati = Fermat : p.ti stazionari liberi
...rimane da capire la questione del \(\displaystyle \lambda_0 =0 \)

Ma si, il fatto di $\lambda_0=0$ può avvenire già per i moltiplicatori di Lagrange. Perché ti stupisce ritrovarlo qui?
Tra l'altro, il metodo dei moltiplicatori di Lagrange è esso stesso una condizione solo necessaria affinché un punto sia di massimo o di minimo, esattamente come per i punti critici delle funzioni di una sola variabile. In ultima analisi tutta questa roba non è altro che il teorema di Fermat.
Tra l'altro, il metodo dei moltiplicatori di Lagrange è esso stesso una condizione solo necessaria affinché un punto sia di massimo o di minimo, esattamente come per i punti critici delle funzioni di una sola variabile. In ultima analisi tutta questa roba non è altro che il teorema di Fermat.
Nel caso di Lagrange, non c'è un moltiplicatore che moltiplica \(\displaystyle f \), invece esso moltiplica il vincolo.
Quindi nel caso di Fritz John il moltiplicatore di Lagrange corrisponderebbe a $\mu_1$.
\(\displaystyle \lambda_0 \) invece, moltiplicatore di $f$, non esiste nel classico metodo di Lagrange (è come se fosse sempre 1).
Se mi sto sbagliando ti chiedo scusa, evidentemente ancora non ho capito.
Quindi nel caso di Fritz John il moltiplicatore di Lagrange corrisponderebbe a $\mu_1$.
\(\displaystyle \lambda_0 \) invece, moltiplicatore di $f$, non esiste nel classico metodo di Lagrange (è come se fosse sempre 1).
Se mi sto sbagliando ti chiedo scusa, evidentemente ancora non ho capito.
Uuh è vero, sono io che non ho capito un tubo, allora. Hai ragione, è una fenomeno nuovo rispetto ai moltiplicatori di Lagrange standard. Secondo me, se \(\lambda_0=0\) allora il punto \(x_0\) è una sorta di singolarità del vincolo. Per esempio, nel metodo dei moltiplicatori di Lagrange bisogna considerare anche i punti angolosi del vincolo; considera, che so, la funzione \(f(x, y)=xy\) vincolata al quadrato di lato \(1\) e centro in \((0,0)\). Punti critici non ce ne sarebbero se non fosse per gli angoli del quadrato, dove infatti cascano il massimo e il minimo.
Ok come interpretazione, però davvero non vedo proprio -per come è stato definito- come possa accadere che si annulli.
È stato infatti definito nella dimostrazione del teorema come il limite dell'inverso di una quantità sempre maggiore di 1, ma limitata.
È stato infatti definito nella dimostrazione del teorema come il limite dell'inverso di una quantità sempre maggiore di 1, ma limitata.
Non ho letto con attenzione la dimostrazione, ma non vedo perché gli $L^k$ debbano essere limitati, giacché contengono roba che (potenzialmente) può andare a $oo$ con $sqrt(k)$.
Inoltre, per capire perché $lambda_0$ è necessariamente $!=0$ basta indagare su cosa succede quando $lambda_0=0$. Hai provato?
Inoltre, per capire perché $lambda_0$ è necessariamente $!=0$ basta indagare su cosa succede quando $lambda_0=0$. Hai provato?
Non so perché inconsciamente pensavo che in quel vettore a norma unitaria per ogni k, una componente fosse rappresentata proprio da $L^k$..
Invece no, $L^k$ può divergere nonostante quel vettore continui ad avere norma unitaria.
Non ho smesso di dare per scontato questa cosa sbagliata finché non me l'hai fatto notare esplicitamente.
Ti ringrazio.
Invece no, $L^k$ può divergere nonostante quel vettore continui ad avere norma unitaria.
Non ho smesso di dare per scontato questa cosa sbagliata finché non me l'hai fatto notare esplicitamente.
Ti ringrazio.
Prego, per così poco...

Scusate se torno a rompere le scatole, mi sta salendo uno di quei dubbi criptici.
Vi chiedo senza mezzi termini: conoscete una definizione soddisfacente di punto stazionario vincolato per una funzione $f: I \subset \mathbb{R}^n \to \mathbb{R}$ soggetta a $m$ vincoli di disuguaglianza e a $p$ vincoli di uguaglianza?
Nel caso semplice di una $f: I \subset \mathbb{R}^2 \to \mathbb{R}$ soggetta a un solo vincolo di uguaglianza ad esempio è facile definire un p.s.v., supponendo che il vincolo sia schematizzabile come una curva regolare di parametro $t$:
$(x_0, y_0)=(x(t_0),y(t_0)) \in I$ p.s.v. $\Leftrightarrow \frac{\text{d}f(x(t), y(t))}{\text{d}t}(t_0)=0$
Ma come si definisce invece nel caso generale?
Ad esempio non saprei come definirlo già nel caso semplice precedente quando la curva non si può parametrizzare.
Vi chiedo senza mezzi termini: conoscete una definizione soddisfacente di punto stazionario vincolato per una funzione $f: I \subset \mathbb{R}^n \to \mathbb{R}$ soggetta a $m$ vincoli di disuguaglianza e a $p$ vincoli di uguaglianza?
Nel caso semplice di una $f: I \subset \mathbb{R}^2 \to \mathbb{R}$ soggetta a un solo vincolo di uguaglianza ad esempio è facile definire un p.s.v., supponendo che il vincolo sia schematizzabile come una curva regolare di parametro $t$:
$(x_0, y_0)=(x(t_0),y(t_0)) \in I$ p.s.v. $\Leftrightarrow \frac{\text{d}f(x(t), y(t))}{\text{d}t}(t_0)=0$
Ma come si definisce invece nel caso generale?
Ad esempio non saprei come definirlo già nel caso semplice precedente quando la curva non si può parametrizzare.
Non capisco cosa ti importi di dare questa definizione. Il tuo obiettivo è quello di risolvere i problemi di ottimizzazione, una simile definizione non mi sembra ti sia utile.
In ogni caso, la teoria generale dei punti critici si fa sulle varietà differenziabili, dove un punto critico è definito nella maniera naturale. Se la varietà è una sottovarietà di $\mathbb R^n$, un punto è critico nel senso delle varietà se e solo se esso è un punto critico nel senso dei moltiplicatori di Lagrange. Ma in presenza di punti singolari (come nell'esempio precedente del quadrato) tale definizione perde molta utilità, visto che i punti di ottimo possono cascare nei punti singolari. Nel tuo contesto, i punti singolari abbondano, e penso che sia per questo motivo che John ha trovato questa formulazione del metodo dei moltiplicatori di Lagrange.
Conclusione: concentrati sul risolvere problemi, non ne creare di nuovi a livello concettuale.
In ogni caso, la teoria generale dei punti critici si fa sulle varietà differenziabili, dove un punto critico è definito nella maniera naturale. Se la varietà è una sottovarietà di $\mathbb R^n$, un punto è critico nel senso delle varietà se e solo se esso è un punto critico nel senso dei moltiplicatori di Lagrange. Ma in presenza di punti singolari (come nell'esempio precedente del quadrato) tale definizione perde molta utilità, visto che i punti di ottimo possono cascare nei punti singolari. Nel tuo contesto, i punti singolari abbondano, e penso che sia per questo motivo che John ha trovato questa formulazione del metodo dei moltiplicatori di Lagrange.
Conclusione: concentrati sul risolvere problemi, non ne creare di nuovi a livello concettuale.
Giusto, grazie.