Indice di eterogeneita di gini
Perchè il mio prof. esprime l'indice di Gini come $ (m-1)/m* sum_(i = 1)^( m) f_i*(1-f_i)$ dove $m$ è il numero di categorie o modalità, e $f_i$ la frequenza relativa all'iesima modalità. Inoltre dice che tale indice che chiamo $G$ appartiene $in [0,1]$ . aiuto please
Risposte
In teoria dovrebbe essere $m/(m-1)*sum_{i=1}^{m} f_i(1-f_i)$
Di per sè l'indice di Gini è $sum_{i=1}^{m} f_i(1-f_i)$ o se preferisci (io lo preferisco) $1-sum_{i=1}^{m} f_i^2$.
Se c'è eterogeneità minima, una modalità ha frequenza relativa pari a $1$ e tutte le altre pari a $0$. Quindi è facile vedere che esce $1-(1^2+0^2+...0^2)=0$.
Viceversa, se c'è eterogeneità massima, tutte le $m$ modalità hanno la stessa frequenza relativa pari a $1/m$. Quindi:
$1-((1/m)^2+(1/m)^2+...(1/m)^2) = 1-(m*1/m^2) = 1-(1/m) = (m-1)/m$
Quindi se facciamo $(sum_{i=1}^{m} f_i(1-f_i))/((m-1)/m)$, cioè $m/(m-1)*sum_{i=1}^{m} f_i(1-f_i)$, questa quantità assumerà al massimo il valore $1$.
Di per sè l'indice di Gini è $sum_{i=1}^{m} f_i(1-f_i)$ o se preferisci (io lo preferisco) $1-sum_{i=1}^{m} f_i^2$.
Se c'è eterogeneità minima, una modalità ha frequenza relativa pari a $1$ e tutte le altre pari a $0$. Quindi è facile vedere che esce $1-(1^2+0^2+...0^2)=0$.
Viceversa, se c'è eterogeneità massima, tutte le $m$ modalità hanno la stessa frequenza relativa pari a $1/m$. Quindi:
$1-((1/m)^2+(1/m)^2+...(1/m)^2) = 1-(m*1/m^2) = 1-(1/m) = (m-1)/m$
Quindi se facciamo $(sum_{i=1}^{m} f_i(1-f_i))/((m-1)/m)$, cioè $m/(m-1)*sum_{i=1}^{m} f_i(1-f_i)$, questa quantità assumerà al massimo il valore $1$.
ma il numero di dati ddeve essere uguale al numero di categorie?
Dipende cosa intendi con "dati". Facciamo finta che hai delle osservazioni che vengono suddivise in 3 categorie (tipo: alto, medio, basso). Diciamo che hai 32 osservazioni che fanno parte della categoria "alto", 25 per il "medio" e 40 per il "basso".
Quindi c'hai 97 osservazioni e 3 categorie.
Quindi c'hai 97 osservazioni e 3 categorie.