$ chi^2 $ Mi aiutate a capire il chi quadro?
Ho una spiegazione del $ chi^2 $ che mi da due tabella la prima dei valori osservati
$ {: ( 20 , 8 , 28 ),( 16 , 13 , 29 ),( 36 , 21 , 57 ) :} $
e la seconda dei valori attesi che è
$ {: ( 17.68 ,10.32 , 28 ),( 18.32 , 10.68 , 29 ),( 36 , 21 , 57 ) :} $
ora ho capito come si fa a ricavare i valori attesi ma il libro mi da come valore $ chi^2 $= 0.203
Da dove è uscito? come faccio a ricavarlo?
Grazie mille anticipatamente...se qualcuno può anche spiegarmi semplicemente a cosa serve il $ chi^2 $ gli sarei grato infinitamente (sto messo male in statistica)
$ {: ( 20 , 8 , 28 ),( 16 , 13 , 29 ),( 36 , 21 , 57 ) :} $
e la seconda dei valori attesi che è
$ {: ( 17.68 ,10.32 , 28 ),( 18.32 , 10.68 , 29 ),( 36 , 21 , 57 ) :} $
ora ho capito come si fa a ricavare i valori attesi ma il libro mi da come valore $ chi^2 $= 0.203
Da dove è uscito? come faccio a ricavarlo?
Grazie mille anticipatamente...se qualcuno può anche spiegarmi semplicemente a cosa serve il $ chi^2 $ gli sarei grato infinitamente (sto messo male in statistica)
Risposte
Il $chi^2$ è un indice dovuto a Karl Pearson e misura l'intensità della dipendenza stocastica tra due caratteri A e B, di qualsiasi natura, quindi sia qualitativi (mutabili), sia quantitativi (variabili).
Le due tabelle che hai postato sono delle distribuzioni doppie o congiunte di frequenze assolute, rispettivamente delle frequenze empiriche e delle frequenze teoriche. In ciascuna delle due tabelle la 'figura' costituita dalle quattro caselle in alto a sinistra è chiamata corpo della tavola e contiene quattro distribuzione condizionate: le due righe e le due colonne. Ciascuna casella del corpo della tavola indica il numero di unità statistiche (frequenza assoluta) che assumono per il carattere A la modalità (attributo o valore numerico) della riga e per il carattere B la modalità della colonna (modalità che però nella tabella che hai postato non sono presenti). Quindi, per esempio, le caselle contenenti le frequenze 20 e 16 costituiscono la distribuzione del carattere A condizionata alla modalità di B individuata dalla colonna; la seconda colonna, contenente le frequenze 8 e 13, è la distribuzione di A condizionata alla seconda modalità di B; la prima riga, 20 e 8, è la distribuzione del carattere B condizionata alla modalità di A individuata dalla prima riga etc.
Le caselle contenenti le frequenze 36 e 21 formano la distribuzione marginale (non condizionata alle modalità di A) del carattere B: 36 è la somma delle frequenze della prima colonna condizionata (20+16), 21 è la somma delle frequenze della seconda colonna condizionata. Lo stesso discorso vale per la marginale di A (28, 29).
Infine il termine 57 indica il numero totale di unità statistiche, ottenuto sommando le frequenze di una delle due marginali.
A questo punto occorre definire il concetto di indipendenza in distribuzione o stocastica: il carattere A è indipendente in distribuzione da B se le distribuzioni di A condizionate alle modalità di B sono tra loro simili e simili alla marginale.
Due distribuzioni si dicono simili quando hanno gli stessi valori delle frequenze relative in corrispondenza delle medesime modalità. Quindi, in altre parole, A è indipendente da B quando le distribuzioni condizionate delle frequenze relative di A (ottenute rapportando ciascuna frequenza assoluta del corpo della tavola per la frequenza assoluta corrispondente nella marginale di B) e la distribuzione marginale di A delle frequenze relative (ottenuta rapportando ciascuna frequenza assoluta della marginale per il numero di unità statistiche totali) presentano gli stessi valori in corrispondenza delle medesime modalità.
Affinché ci sia indipendenza in distribuzione deve verificarsi, per ogni casella del corpo della tavola:
$n_(it)/n_(0t)=n_(i0)/n$
Il primo membro dell'equazione corrisponde alla frequenza relativa della generica casella del corpo della tavola, mentre il secondo membro indica la corrispondente frequenza relativa della marginale: $n_(it)$ indica la generica frequenza assoluta del corpo della tavola, $n_(0t)$ indica la corrispondente frequenza assoluta della marginale di B, $n_(i0)$ indica la corrispondente frequenza assoluta della marginale di A, e $n$ la numerosità del collettivo, il numero di unità statistiche
Il pedice 'i' scorre tra le righe del corpo della tavola (quindi nel tuo caso assume i valori 1 e 2), il pedice 't' scorre le colonne (1 e 2).
Se isoli il termine $n_(it)$ ottieni la frequenza assoluta che dovrebbe comparire nella generica casella del corpo della tavola, casella individuata dai due pedici, in presenza di indipendenza in distribuzione.
Il valore $n_(it)$ è chiamato frequenza teorica: $nt_(it)$.
La seconda tabella che hai postato è costruita con le frequenze teoriche, in cui la generica frequenza teorica del corpo della tavola è calcolata con l'equazione che ho postato sopra. Come vedi le marginali non cambiano. Infatti costruendo la tabella delle frequenze teoriche non viene alterato il numero di unità statistiche; le frequenze vengono invece ripartire in modo da giungere alla condizione di indipendenza.
Il $chi^2$ misura l'intensità della dipendenza tra i due caratteri; in particolare, misura l'allontanamento della tabella dei valori empirici dalla tabella di indipendenza; la sua espressione analitica è:
$ chi^2=sum_(i=1)^2 sum_(t=1)^2 (n_(it)-nt_(it))^2/(nt_(it)) $
dove il generico addendo della somma è una misura locale - quindi riferita alla singola casella - della differenza tra frequenza empirica e frequenza teorica.
Spero di esserti stato d'aiuto.. forse mi sono dilungato un po' troppo, ma .. pazienza!
Le due tabelle che hai postato sono delle distribuzioni doppie o congiunte di frequenze assolute, rispettivamente delle frequenze empiriche e delle frequenze teoriche. In ciascuna delle due tabelle la 'figura' costituita dalle quattro caselle in alto a sinistra è chiamata corpo della tavola e contiene quattro distribuzione condizionate: le due righe e le due colonne. Ciascuna casella del corpo della tavola indica il numero di unità statistiche (frequenza assoluta) che assumono per il carattere A la modalità (attributo o valore numerico) della riga e per il carattere B la modalità della colonna (modalità che però nella tabella che hai postato non sono presenti). Quindi, per esempio, le caselle contenenti le frequenze 20 e 16 costituiscono la distribuzione del carattere A condizionata alla modalità di B individuata dalla colonna; la seconda colonna, contenente le frequenze 8 e 13, è la distribuzione di A condizionata alla seconda modalità di B; la prima riga, 20 e 8, è la distribuzione del carattere B condizionata alla modalità di A individuata dalla prima riga etc.
Le caselle contenenti le frequenze 36 e 21 formano la distribuzione marginale (non condizionata alle modalità di A) del carattere B: 36 è la somma delle frequenze della prima colonna condizionata (20+16), 21 è la somma delle frequenze della seconda colonna condizionata. Lo stesso discorso vale per la marginale di A (28, 29).
Infine il termine 57 indica il numero totale di unità statistiche, ottenuto sommando le frequenze di una delle due marginali.
A questo punto occorre definire il concetto di indipendenza in distribuzione o stocastica: il carattere A è indipendente in distribuzione da B se le distribuzioni di A condizionate alle modalità di B sono tra loro simili e simili alla marginale.
Due distribuzioni si dicono simili quando hanno gli stessi valori delle frequenze relative in corrispondenza delle medesime modalità. Quindi, in altre parole, A è indipendente da B quando le distribuzioni condizionate delle frequenze relative di A (ottenute rapportando ciascuna frequenza assoluta del corpo della tavola per la frequenza assoluta corrispondente nella marginale di B) e la distribuzione marginale di A delle frequenze relative (ottenuta rapportando ciascuna frequenza assoluta della marginale per il numero di unità statistiche totali) presentano gli stessi valori in corrispondenza delle medesime modalità.
Affinché ci sia indipendenza in distribuzione deve verificarsi, per ogni casella del corpo della tavola:
$n_(it)/n_(0t)=n_(i0)/n$
Il primo membro dell'equazione corrisponde alla frequenza relativa della generica casella del corpo della tavola, mentre il secondo membro indica la corrispondente frequenza relativa della marginale: $n_(it)$ indica la generica frequenza assoluta del corpo della tavola, $n_(0t)$ indica la corrispondente frequenza assoluta della marginale di B, $n_(i0)$ indica la corrispondente frequenza assoluta della marginale di A, e $n$ la numerosità del collettivo, il numero di unità statistiche
Il pedice 'i' scorre tra le righe del corpo della tavola (quindi nel tuo caso assume i valori 1 e 2), il pedice 't' scorre le colonne (1 e 2).
Se isoli il termine $n_(it)$ ottieni la frequenza assoluta che dovrebbe comparire nella generica casella del corpo della tavola, casella individuata dai due pedici, in presenza di indipendenza in distribuzione.
Il valore $n_(it)$ è chiamato frequenza teorica: $nt_(it)$.
La seconda tabella che hai postato è costruita con le frequenze teoriche, in cui la generica frequenza teorica del corpo della tavola è calcolata con l'equazione che ho postato sopra. Come vedi le marginali non cambiano. Infatti costruendo la tabella delle frequenze teoriche non viene alterato il numero di unità statistiche; le frequenze vengono invece ripartire in modo da giungere alla condizione di indipendenza.
Il $chi^2$ misura l'intensità della dipendenza tra i due caratteri; in particolare, misura l'allontanamento della tabella dei valori empirici dalla tabella di indipendenza; la sua espressione analitica è:
$ chi^2=sum_(i=1)^2 sum_(t=1)^2 (n_(it)-nt_(it))^2/(nt_(it)) $
dove il generico addendo della somma è una misura locale - quindi riferita alla singola casella - della differenza tra frequenza empirica e frequenza teorica.
Spero di esserti stato d'aiuto.. forse mi sono dilungato un po' troppo, ma .. pazienza!
sei stato gentilissimo e ti ringrazio ma, anche dopo la spiegazione molto dettagliata, non riesco a capire matematicamente come è uscito quel $ chi^2 $=0.203.
Quindi se ho capito bene il $ chi^2 $ serve per misurare di quanto si distanzia la tabella dei valori osservati da quella degli ideali?
Quindi se ho capito bene il $ chi^2 $ serve per misurare di quanto si distanzia la tabella dei valori osservati da quella degli ideali?
Sì hai capito bene.
Ho provato a calcolare il $chi^2$ sulle tabelle che hai postato, ed è venuto fuori il valore 1.624:
$chi^2= ((20-17.68)^2/17.68)+((8-10.32)^2/10.32)+((16-18.32)^2/18.32)+((13-10.68)^2/10.68)=1.624$.
Strano che il libro riporti 0.203..
Ho provato a calcolare il $chi^2$ sulle tabelle che hai postato, ed è venuto fuori il valore 1.624:
$chi^2= ((20-17.68)^2/17.68)+((8-10.32)^2/10.32)+((16-18.32)^2/18.32)+((13-10.68)^2/10.68)=1.624$.
Strano che il libro riporti 0.203..