Entropia di un file

Fai una domanda Tutte le categorie

stefano8612

27 feb 2016, 18:31

Ciao a tutti,
devo scrivere un programma che sia in grado di stimare la probabilità di ogni simbolo di un file e che valuti l'entropia del file.

So che l'entropia rappresenta il numero minimo di bits necessari per rappresentare un simbolo della sorgente di informazione.

Chiamo $P_{i}^{m}$ la probabilità dell'$i$-esimo simbolo del file dove $m$ rappresenta la lunghezza dei simboli.
Queste probabilità possono essere stimate numericamente guardando le rispettive frequenze.
A partire poi dalle frequenze, posso calcolare l'entropia di ordine $m$.

Quindi ciò che dovrei fare è scrivere un programma che sia in grado di stimare l'entropia di ordine $m$ di un file testuale, per valori di $m<=16 bit$.

Bene, non so da che parte iniziare.

La mia idea è:

Risposte

apatriarca

29 feb 2016, 11:22

Io credo che il problema ti chieda esclusivamente di calcolarti l'entropia usando la classica formula
\[ - \sum_{s \in \Sigma} P(s)\,\log_2 P(s). \]
dove $\Sigma$ è il tuo alfabeto di simboli (singoli byte nel file di testo) e la probabilità sia stata calcolata in qualche modo. Non credo sia richiesto il calcolo di ordine maggiore di uno, ma a dire il vero non vedo alcun problema nell'implementarli. È sufficiente considerare come simboli del tuo alfabeto sequenze di caratteri invece che singoli caratteri. Che cosa non ti è chiaro?

stefano8612

29 feb 2016, 17:22

Non mi è chiaro come faccio in Java a considerare un file come sequenza di bit, sequenza di bit, o più, in generale, sequenza di m bit...

apatriarca

1 mar 2016, 11:11

Puoi per esempio dare una occhiata qui (pagina trovata con una veloce ricerca con Google..). Tendenzialmente leggi i byte di un file e non i singoli bit.. Di fatto sono pochissimi i file in cui i simboli presi in considerazione non siano multipli di bytes per cui lavorerei con byte e basta. Ma se proprio vuoi lavorare con i bit è sufficiente leggere i singoli bit dai byte. Non credo ci sia un modo più comodo: non è qualcosa che si fa spesso.

stefano8612

1 mar 2016, 14:25

Si infatti leggo il file come flusso di byte, il problema è proprio suddividere il byte in sequenze di m bits..

apatriarca

1 mar 2016, 14:30

Secondo me ti stai complicando la vita. Non credo che l'esercizio ti chieda di lavorare su sequenze di m bit generiche.. Ti consiglio di chiedere chiarimenti.

stefano8612

2 mar 2016, 08:13

Purtroppo si invece, per sequenze di 8 bit è facile, per gli altri casi no e non so come fare..

apatriarca

2 mar 2016, 08:52

Ma hai chiesto al professore? Per la maggior parte dei file (file compressi esclusi) non ha alcun senso considerare simboli che non siano multipli di un byte. In ogni caso devi usare operazioni bitwise per estrarre i singoli bit. Il modo più semplice è quello di estrarre un bit per volta. Se devi estrarre il bit k dal file consideri il byte k/8 e il resto ti dirà quale bit estrarre. Dopodiché calcoli il resto k%m e vai inserire il bit in quella posizione del simbolo. Probabilmente è più comodo fare un ciclo di simboli e calcolati k piuttosto che considerare direttamente k ma il discorso rimane più o meno lo stesso.

stefano8612

2 mar 2016, 10:06

Grazie per l'aiuto, si ho chiesto. Provero' a fare come dici sperando di riuscirci

Rispondi

Per rispondere a questa discussione devi prima effettuare il login.

Entropia di un file

Segnala Post di

Aggiungi immagine

Aggiungi allegato

Aggiungi Link

Aggiungi formula matematica