Esempi di funzioni coniugate

deino1
Ciao a tutti, ho una domanda sui primi esempi - che dovrebbero quindi essere molto banali - di funzione coniugata.
Definiamo coniugata $ f^* $ di $f : \mathbb{R}^d \to \mathbb{R}$ la funzione definita da
$$
f^*(\theta) = \sup_{w \in \mathbb{R}^d} (\langle w, \theta \rangle - f(w)).
$$
Il primo esempio è quello di coniugata della funzione $ f(w) = \frac{|| w ||^2}{2}$: dovrebbe essere $f^* (\theta) = \frac{|| w ||^2}{2}$, vale a dire la funzione ottenuta ponendo $ w = \theta$. Questa scelta certamente massimizza il prodotto scalare, ma non capisco come si possa mostrare che si tratti della scelta migliore per la funzione nella sua totalità.

Il secondo esempio, è invece la funzione $f (w) = \frac{w^TQw}{2}$ la cui coniugata dovrebbe essere $f^*(\theta) = \frac{\theta^TQ^{-1}\theta}{2}$, ma non riesco ad arrivare a questo riusltato ponendo, come prima $w = \theta$, e non avendo capito come fare a minimizzare non so da che parte cominciare per cercare un'altra soluzione.

Sapreste suggerirmi qualcosa?

Risposte
Paolo902
"deino":

Definiamo coniugata $ f^* $ di $f : \mathbb{R}^d \to \mathbb{R}$ la funzione definita da
$$
f^*(\theta) = \sup_{w \in \mathbb{R}^d} (\langle w, \theta \rangle - f(w)).
$$
Il primo esempio è quello di coniugata della funzione $ f(w) = \frac{|| w ||^2}{2}$: dovrebbe essere $f^* (\theta) = \frac{|| w ||^2}{2}$, vale a dire la funzione ottenuta ponendo $ w = \theta$. Questa scelta certamente massimizza il prodotto vettoriale, ma non capisco come si possa mostrare che si tratti della scelta migliore per la funzione nella sua totalità.


Immagino volessi dire prodotto scalare. In ogni caso, il mio consiglio è questo: considera la funzione
\[
h(w) = \langle w, \theta \rangle - f(w)
\]
(sottolineo che la variabile è $w$). Per risolvere il tuo problema devi studiare i punti critici di $h$ con i tradizionali strumenti del calcolo differenziale e in particolare cercarne il sup; il valore massimo assunto ti darà la tua funzione coniugata.

Più precisamente, comincia a calcolare il gradiente di $h$ e vedi dove si annulla e ricordati che la convessità è tua amica :P

deino1
Grazie del sufferimento. Ho provato a studiare il gradiente come da te suggerito, ma ho ottenuto un risultato diverso da quello atteso, infatti
$$
\frac{d}{dw}\left(\langle w, \theta) - \frac{|| w ||^2_2}{2}\right) = \theta - \frac{w}{2||w||^2_2} \Rightarrow w = 2||w||^2_2\theta
$$
e sostituendo ottengo
$$
f^* (\theta) = 2||w||^2_2||\theta||^2_2 - \frac{||\theta||^2_2}{2}
$$
che non è proprio il risultato atteso... qualcuno riesce a vedere dov'è che sbaglio?

P.S. grazie per la segnalazione del vettoriale, vado subito a sistemare il primo post

Paolo902
Mi sa che hai sbagliato a calcolare il gradiente. Fai tutti i passaggi componente per componente:
\[
\frac{\partial}{\partial w_i} h(w) = \frac{\partial}{\partial w_i} \left[\sum_j \theta_j \omega_j - \frac{1}{2}\sum_j \omega_j^2 \right] = \theta_i - \omega_i
\]
da cui... :wink:

deino1
Grazie mille! Non avevo considerato il quadrato, e probabilmente avevo fatto anche degli altri errori. Ora applicando la stessa idea al secondo esempio, ho scritto
\[
\frac{\partial}{\partial w_i} h(w) = \frac{\partial}{\partial w_i} \left[\sum_j \theta_j \omega_j - \frac{1}{2}\sum_{i,j} \omega_i q_{ij} \omega_j\right] = \theta_i - \frac{1}{2}\omega_i \sum_{j} q_{ij}\omega_j
\]

ma poi da qui non so se esista un modo di ricostruire un vettore senza restare al livello delle componenti e quindi scrivere

\[
\omega_i = \theta_i \frac{1}{\sum_j q_{ij}\omega_j}
\]

e continuare da qui.

Paolo902
"deino":
Grazie mille! Non avevo considerato il quadrato, e probabilmente avevo fatto anche degli altri errori. Ora applicando la stessa idea al secondo esempio, ho scritto
\[
\frac{\partial}{\partial w_i} h(w) = \frac{\partial}{\partial w_i} \left[\sum_j \theta_j \omega_j - \frac{1}{2}\sum_{i,j} \omega_i q_{ij} \omega_j\right] = \theta_i - \frac{1}{2}\omega_i \sum_{j} q_{ij}\omega_j
\]


Prego, figurati! Comunque temo che tu abbia sbagliato a derivare: c'è una $i$ che compare tre volte :P Se vuoi ragionare in componenti ti conviene chiamare i coefficienti della forma bilineare $q_{\alpha\beta}$ così da non scambiare indici.... :wink:

deino1
Ho "scoperto" che il differenziale di una forma bilineare $w^TQw$ è
\[
(Q + Q^T)w
\]
che nel nio caso darebbe come punto critico
\[
\theta - \frac{1}{2}(Q + Q^T)w \Rightarrow w = 2(Q + Q^T)^{-1}\theta
\]
che non mi pare mi avvicini molto alla soluzione.... :oops:

Rispondi
Per rispondere a questa discussione devi prima effettuare il login.