Perché il logaritmo come misura dell'informazione?
Salve, ho letto che la misura dell'informazione è data da
I = -$ log_2(P_i) $
e varie spiegazioni sulla scelta della funzione logaritmo legate alle proprietá
di questa funzione e di come si adattavano bene a quanto si voleva esprimere con il concetto di informazione come ad esempio l'additivitá, il fatto che log 1 valesse 0 ad indicare che l'informazione associata alla "certezza" è nulla, etc.
Nulla peró che mi spiegasse un po piú "tecnicamente" come si sia arrivati a definire, a partire da un elenco di simboli ciascuno con probabilità $P_i$ di essere trasmesso, ad arrivare alla formula di cui sopra.
Qualcuno sa darmi qualche delucidazione in merito?
Grazie
I = -$ log_2(P_i) $
e varie spiegazioni sulla scelta della funzione logaritmo legate alle proprietá
di questa funzione e di come si adattavano bene a quanto si voleva esprimere con il concetto di informazione come ad esempio l'additivitá, il fatto che log 1 valesse 0 ad indicare che l'informazione associata alla "certezza" è nulla, etc.
Nulla peró che mi spiegasse un po piú "tecnicamente" come si sia arrivati a definire, a partire da un elenco di simboli ciascuno con probabilità $P_i$ di essere trasmesso, ad arrivare alla formula di cui sopra.
Qualcuno sa darmi qualche delucidazione in merito?
Grazie
Risposte
Ciao dw 
Allora, premesso che la funzione che Shannon (il padre della teoria dell'informazione per eccellenza) ricercava per potersi adattare maggiormente al concetto di quantità di informazione doveva soddisfare i requisiti che tu hai correttamente citato più altri la scelta è ricaduta inizialmente sulla funzione logaritmo. L'unico requisito che la stessa non rispetta è però la convessità poiché come ben sappiamo tale funzione è concava. Ecco allora che si è scelto di considerare la funzione logaritmo cambiata di segno (se $f(x)$ è convessa allora $-f(x)$ sarà concava per via del segno della derivata seconda). Ecco dunque che risulta l'espressione che tu hai scritto. Riguardo alla stessa mi sento però di fare un'importante precisazione: la base che tu hai messo ($2$) è soltanto quella più largamente usata ma, a seconda di quante unità si usano per l'informazione si possono tranquillamente utilizzare altre basi maggiori di $1$. Nel caso della base $2$ abbiamo infatti il noto "bit" come misura della quantità di informazione.

Allora, premesso che la funzione che Shannon (il padre della teoria dell'informazione per eccellenza) ricercava per potersi adattare maggiormente al concetto di quantità di informazione doveva soddisfare i requisiti che tu hai correttamente citato più altri la scelta è ricaduta inizialmente sulla funzione logaritmo. L'unico requisito che la stessa non rispetta è però la convessità poiché come ben sappiamo tale funzione è concava. Ecco allora che si è scelto di considerare la funzione logaritmo cambiata di segno (se $f(x)$ è convessa allora $-f(x)$ sarà concava per via del segno della derivata seconda). Ecco dunque che risulta l'espressione che tu hai scritto. Riguardo alla stessa mi sento però di fare un'importante precisazione: la base che tu hai messo ($2$) è soltanto quella più largamente usata ma, a seconda di quante unità si usano per l'informazione si possono tranquillamente utilizzare altre basi maggiori di $1$. Nel caso della base $2$ abbiamo infatti il noto "bit" come misura della quantità di informazione.
Quindi la scelta della funzione è "arbitraria", cioè si sceglie quella che risponde meglio alle esigenze di una determinata situazione? Se la funzione sen(x) avesse avuto proprietà simili a quelle di log(x) sarebbe potuta essere presa in considerazione? Non c'è una motivazione più profonda a giustificarne la scelta, solo una questione di comodità pratica? Potete fornirmi un altro esempio di una situazione simile?
P.S: Vi prego di perdonare la mia, stupidità.
P.S: Vi prego di perdonare la mia, stupidità.
Esatto, è dettata semplicemente dal fatto che la funzione rispetta i predetti requisiti. Tranquillo comunque, nessuna domanda è stupida ed il paragone che hai fatto con la funzione seno calza perfettamente. Anzi, ti dirò di più: ben venga la curiosità. Nel mio caso ad esempio quando ho seguito il corso di teoria dell'informazione in cui ho affrontato tali argomenti ho avuto la fortuna che molto mi è rimasto perché la spiegazione del professore è stata davvero buona se non ottima.
Un altro esempio che mi viene in mente potrebbe essere utilizzare la funzione seno in elettronica per descrivere i segnali: serve una funzione periodica che vari entro un certo range di valori.
Un altro esempio che mi viene in mente potrebbe essere utilizzare la funzione seno in elettronica per descrivere i segnali: serve una funzione periodica che vari entro un certo range di valori.
Beh, non posso che ringraziarti
Per altre domande stupide ho aperto un altro thread in questa sezione. Forse lì sono ancora più stupide...


Figurati, prego
Domande più che lecite ed interessantissime invece che sono una dimostrazione del fatto che vuoi andare a fondo nei concetti senza limitarsi ad imparare le formule (tant'è che come hai visto mi sono lasciato coinvolgere anche nell'altro thread che hai aperto).
