Distribuzione doppia, condizionata per un carattere, eterogeneità, varianza between e within
[15-25) | [25-29) | [29-31) | |
---|---|---|---|
63 | 105 | 42 | Non lavora |
a)Calcolare la distribuzione doppia di frequenze percentuali
(b) Costruire la distribuzione condizionata di frequenze percentuali della condizione lavortiva
(c) Calcolare l'eterogeneita della condizione lavorativa
(d) Calcolare la classe modale per l'età
(f) Calcolare la media aritmetica dell'eta
(g) Calcolare la varianza dell'eta.
(h) Calcolare la varianza between e within per la variabile eta.
(i) Calcolare un opportuno indice di associazione. Commentare il risultato
Inanzitutto non ho capito se i dati in tabella sono frequenze assolute o densità di frequenza e per questo motivo non sono convinto di come ho svolto l' esercizio.
A)Considerandoli freq. assolute le frequenze percentuali che mi trovo non danno somma 100, se considero come densità di frequenza danno 99,9.
B)Stesso dilemma. Ho costruito la distribuzione condizionata e da anche qui 99,9.
C)Per l' eterogeneità ho calcolato l' entropia assoluta e poi quella relativa.
$ E= -sum[fln(f)]=0.86 $ dove f: frequenze relative
$ e=E/K=0.86/3=0.28 $ K: numero di modalità
Qui le frequenze relative che ho calcolato sono:
P | f | |
---|---|---|
55,55 | 0,55 | [25-29) |
0,37 | [29-31) | 7,407 |
D)Ho sommato le densità di frequenza di quelli appartenenti alla stessa classe => Classe modale: [25-29) perchè ha la densità maggiore, cioè 150.
F)Anche qui ho considerato le densità di freq. sommate. Ho calcolato i valori centrali e per trovare la media ho utilizzato la formula $ mu =(sum(Cn)n)/(popolazio) = 37800/1620=23.33 $
C: valore centrale n: frequenza assoluta
G) La varianza --> $ (sigma)^2=sum((C - mu)n)/(popolazio)=23385.6/1620=14.43 $
H e I non ancora iniziati.
Risposte
"Stefano41094":
a)Calcolare la distribuzione doppia di frequenze percentuali
A)Considerandoli freq. assolute le frequenze percentuali che mi trovo non danno somma 100, se considero come densità di frequenza danno 99,9.
a) come vedi passando dalle frequenze assolute della tabella a quelle % il totale fa esattamente 100%
Click sull'immagine per visualizzare l'originale

b) idem
c) Utilizzo l'indice di Gini
$G=1-0.7^2-0.3^2=0.42$
L'indice normalizzato viene $84%$, quindi decisamente alto.
PS: il numero di modalità della condizione lavorativa sono due: Lavora oppure Non lavora....quale sarebbe la terza? Inoltre dai tuoi calcoli che conclusione trai? l'eterogeneità della variabile (anzi mutabile) è alta o bassa?
"Stefano41094":
$ e=E/K=0.86/3=0.28 $ K: numero di modalità
d) f) g): la media viene 25.5 la varianza 14.25 e la classe modale è giusta ma non capisco il ragionamento che hai fatto: basta considerare la classe con la densità più alta. La densità più alta è 0.125.
Click sull'immagine per visualizzare l'originale

Tu dici che la densità è 150...come hai ragionato? hai il concetto di densità? (anche non a livello statistico...) 150 sono il numero assouto di individui nella popolazione, ovvero il totale dei giovani fra i 25 e i 29 anni su una popolazione di 300 individui....come fa ad essere una densità?
Inoltre la somma delle percentuali non fa nemmeno uno....insomma c'è parecchia confusione
Per il penultimo punto puoi usare la spiegazione che ti ho fornito nell'altro topic
L'ultimo mi pare tu lo sappìa fare (visto l'altro topic)
ciao
Sarà stato l' orario, ma ieri sera non me ne riusciva una.
A) e B) Avevo calcolato erratamente una frequenza percentuale.
C) Il nostro prof. di statistica ha detto che non ci spiegava l' indice di Gini ma soltanto l' entropia, la quale è compresa tra 0 e 1. 0 rappresenta la massima omogeneità e 1 la massima eterogeneità. Le uniche due formule che ci ha detto di applicare sono le seguenti (prima le avevo scritte pure errate).
*Entropia assoluta
$ E= -sumflnf= 1.025 $
*Entropia relativa
$ e=E/lnK=1.025/1.098=0.93 $
Dato che l' entropia relativa è molto vicina a 1 siamo quasi alla massima eterogeneità.
Per quanto riguarda K, ti spiego come ho ragionato io così mi dici dove sbaglio.
L' esercizio chiede l' eterogeneità della condizione lavorativa, quindi riferito alla sola prima riga della tabella ed esclusa la riga di chi NON lavora. Quindi per modalità ho inteso quante sono le classi, cioè 3. In sostanza ho ragionato su questi dati:
D)La densità di frequenza (utilizzando le f. relative) viene come dici tu. Domanda: potevo calcolare anche con le f. assolute?
F) G) La varianza e la media mi vengono come hai detto.
H)I) Le frequenze teoriche e quelle osservate coincidono, quindi i caratteri sono indipendenti, quindi la varianza between è uguale a zero, la within è 14.25.
A) e B) Avevo calcolato erratamente una frequenza percentuale.
C) Il nostro prof. di statistica ha detto che non ci spiegava l' indice di Gini ma soltanto l' entropia, la quale è compresa tra 0 e 1. 0 rappresenta la massima omogeneità e 1 la massima eterogeneità. Le uniche due formule che ci ha detto di applicare sono le seguenti (prima le avevo scritte pure errate).
*Entropia assoluta
$ E= -sumflnf= 1.025 $
*Entropia relativa
$ e=E/lnK=1.025/1.098=0.93 $
Dato che l' entropia relativa è molto vicina a 1 siamo quasi alla massima eterogeneità.
Per quanto riguarda K, ti spiego come ho ragionato io così mi dici dove sbaglio.
L' esercizio chiede l' eterogeneità della condizione lavorativa, quindi riferito alla sola prima riga della tabella ed esclusa la riga di chi NON lavora. Quindi per modalità ho inteso quante sono le classi, cioè 3. In sostanza ho ragionato su questi dati:
freq.relat. | ln(f) | fln(f) | |
---|---|---|---|
0,3 | -1.20 | -0.36 | [25-29) |
-0.69 | -0.345 | [29-31) | 0.2 |
D)La densità di frequenza (utilizzando le f. relative) viene come dici tu. Domanda: potevo calcolare anche con le f. assolute?
F) G) La varianza e la media mi vengono come hai detto.
H)I) Le frequenze teoriche e quelle osservate coincidono, quindi i caratteri sono indipendenti, quindi la varianza between è uguale a zero, la within è 14.25.
"Stefano41094":
Per quanto riguarda K, ti spiego come ho ragionato io così mi dici dove sbaglio.
la tabella a doppia entrata rappresenta la distribuzione di probabilità di una variabile bidimensionale: Condizione lavorativa (Sì / No) e Età della popolazione (in questo caso espressa numericamente).
Dalla tabella a doppia entrata si possono facilmente ricavare le distribuzioni marginali, ovvero le distribuzioni univariate che dividono la popolazione secondo i seguenti caratteri:
Età: $X-={{: ( [15;25) , [25;29] , [29;31)),( 0.3 , 0.5 , 0.2 ) :}$
questa è una vera e propria variabile, essendo quantitativa. Calcolerai media, varianza ecc ecc
mentre per la variabile "condizione lavorativa" devi definire l'altra variabile marginale
Condizione Lavorativa: $Y-={{: ( L a v o r a , N o nL a v o r a ),( 0.7 , 0.3 ) :}$
in questo caso non puoi calcolare media e varianza perché la "variabile" non è quantitativa (e infatti si chiama correttamente mutabile statistica). Per avere un'idea dell'indice di posizione puoi calcolare la mediana ma per la variabilità devi utilizzare un indice di eterogeneità (l'indice di Gini si usa spesso, anche nella pratica; l'indice di entropia ho dovuto andare a riguardarlo: l'avevo in un cassetto della memoria tutto impolverato.....comunque va bene anche quello)
entropia : $~~88%$
indice di Gini: $84%$
(entrambi normalizzati)
Spero di essere stato chiaro
Ok. In sostanza ho sbagliato variabile.
In generale quindi, se ho capito bene l' entropia ha senso calcolarla per i caratteri qualitativi perchè per questi non è possibile calcolare media e varianza. Ma tralasciando l' esercizio, ciò non toglie che l' entropia può essere calcolata anche per i quantitavi, sbaglio?
In generale quindi, se ho capito bene l' entropia ha senso calcolarla per i caratteri qualitativi perchè per questi non è possibile calcolare media e varianza. Ma tralasciando l' esercizio, ciò non toglie che l' entropia può essere calcolata anche per i quantitavi, sbaglio?
sì ma per variabili quantitative hai altri indici migliori (es: varianza) e vedrai in seguito perché sono migliori.
Ok, grazie.