Dubbio sui gradi di libertà
Salve a tutti.
Sono riuscito a capire, dopo una dimostrazione presa da youtube, il motivo per cui lo stimatore della varianza campionaria è $ S^2 = sum_(i = 1 )^(n) ( X_i - barX )^(2) / ( n - 1 ) $ quando la media $ mu $ della popolazione non è nota (sono dovuto ricorrere a internet perchè il mio libro non tratta la questione in maniera approfondita).
Purtroppo il mio libro di testo sorvola anche sui gradi di libertà.
Da quello che ho capito i gradi di libertà indicano il numero minimo di variabili (necessarie per calcolare una statistica) che "sono libere" di variare. Non so se sbaglio, ma banalizzando si potrebbe dire che se devo calcolare la media di 5 numeri e "tengo fisso" il valore della media, allora 4 valori sono "liberi di variare" mentre uno solo "dipende" dagli quattro e dal valore della media? Se così fosse il numero di gradi di libertà sarebbe $ n - 1 $...
Anche lo stimatore della varianza campionaria ha un numero di gradi di libertà pari a $ n - 1 $, tuttavia il mio libro di testo non mi spiega chiaramente il motivo. Sempre che il ragionamento che ho esposto sia corretto allora anche nella "formula" della varianza campionaria ci dovrebbe essere un paramentro dipendente dagli altri $ n - 1 $ e dal valore dello stimatore della media campionaria, solo che non riesco a individuarlo.
Sto per caso sbagliando tutto il ragionamento?
Sono riuscito a capire, dopo una dimostrazione presa da youtube, il motivo per cui lo stimatore della varianza campionaria è $ S^2 = sum_(i = 1 )^(n) ( X_i - barX )^(2) / ( n - 1 ) $ quando la media $ mu $ della popolazione non è nota (sono dovuto ricorrere a internet perchè il mio libro non tratta la questione in maniera approfondita).
Purtroppo il mio libro di testo sorvola anche sui gradi di libertà.
Da quello che ho capito i gradi di libertà indicano il numero minimo di variabili (necessarie per calcolare una statistica) che "sono libere" di variare. Non so se sbaglio, ma banalizzando si potrebbe dire che se devo calcolare la media di 5 numeri e "tengo fisso" il valore della media, allora 4 valori sono "liberi di variare" mentre uno solo "dipende" dagli quattro e dal valore della media? Se così fosse il numero di gradi di libertà sarebbe $ n - 1 $...
Anche lo stimatore della varianza campionaria ha un numero di gradi di libertà pari a $ n - 1 $, tuttavia il mio libro di testo non mi spiega chiaramente il motivo. Sempre che il ragionamento che ho esposto sia corretto allora anche nella "formula" della varianza campionaria ci dovrebbe essere un paramentro dipendente dagli altri $ n - 1 $ e dal valore dello stimatore della media campionaria, solo che non riesco a individuarlo.
Sto per caso sbagliando tutto il ragionamento?
Risposte
Ho letto la discussione ma mi sono confuso ancora di più...
Sono riuscito a capire perchè si divide per n-1 tramite la dimostrazione matematica:
- se è nota la media della popolazione il valore atteso della varianza campionaria (al cui denominatore c'è "n") è la varianza della popolazione, quindi lo stimatore è corretto;
- se non è nota la media il valore atteso della varianza campionaria non è la varianza della popolazione; la varianza deve essere quindi corretta, dividendo per $ n - 1 $ anzichè per $ n $.
Mi sorge un nuovo dubbio: il valore per cui si divide ( $ n - 1 $ o $ n $) ha in qualche modo a che fare con i gradi di libertà?
Tuttavia ho ancora difficoltà a capire quale tra gli "n" valori utilizzato nella varianza campionaria è strettamente dipendente dagli altri "n-1" nonchè dalla varianza stessa, se questa è fissata. Per "valori" in questo caso si intendono gli scarti quadratici? Nel senso, se fisso il valore della varianza campionaria corretta, tutti gli scarti quadratici possono assumere qualsiasi valore tranne uno; quindi uno scarto quadratico non può variare.
Sempre se assumessi esatto questo ragionamento allora sia la varianza campionaria che la varianza campionaria corretta dovrebbero avere n - 1 gradi di libertà...
Sono riuscito a capire perchè si divide per n-1 tramite la dimostrazione matematica:
- se è nota la media della popolazione il valore atteso della varianza campionaria (al cui denominatore c'è "n") è la varianza della popolazione, quindi lo stimatore è corretto;
- se non è nota la media il valore atteso della varianza campionaria non è la varianza della popolazione; la varianza deve essere quindi corretta, dividendo per $ n - 1 $ anzichè per $ n $.
Mi sorge un nuovo dubbio: il valore per cui si divide ( $ n - 1 $ o $ n $) ha in qualche modo a che fare con i gradi di libertà?
Tuttavia ho ancora difficoltà a capire quale tra gli "n" valori utilizzato nella varianza campionaria è strettamente dipendente dagli altri "n-1" nonchè dalla varianza stessa, se questa è fissata. Per "valori" in questo caso si intendono gli scarti quadratici? Nel senso, se fisso il valore della varianza campionaria corretta, tutti gli scarti quadratici possono assumere qualsiasi valore tranne uno; quindi uno scarto quadratico non può variare.
Sempre se assumessi esatto questo ragionamento allora sia la varianza campionaria che la varianza campionaria corretta dovrebbero avere n - 1 gradi di libertà...
Non capisco nemmeno come si possa parlare di un valore dipendente dagli altri. Se prendi tre numeri la cui somma è \(x\), ciascuno dei tre numeri è dipendente dagli altri nel senso che è uguale a \(x\) meno la somma degli altri due.
Perdonami, evidentemente ho frainteso la definizione di gradi di libertà.
Ciò che vorrei capire è perchè $((n-1) S_n^2/\sigma^2)$ si distribuisce come una chi quadro con \(n-1\) gradi di libertà.
So che per definizione una variabile aleatoria chi quadrato con "n" gradi di libertà è dalla sommatoria di "n" variabili aleatorie normali standard elevate al quadrato. Esiste una dimostrazione matematica di questo concetto? Cioè di quello che dice che $((n-1) S_n^2/\sigma^2)$ si distribuisce come una chi-quadrato con n-1 gradi di libertà? Il mio libro non la tratta e non sono riuscito a trovarla nemmeno su internet.
La dimostrazione che sono riuscito a capire riguarda il calcolo del valore atteso della varianza campionaria corretta, che porta proprio alla varianza che si vorrebbe stimare (e quindi è uno stimatore corretto); tuttavia in questa dimostrazione non viene spiegata la distribuzione chi quadrato della varianza campionaria stessa.
Non so se mi sono spiegato bene...
Per definizione, se ho una variabile $ W $ data da:
$ W = sum_(i = \1)^(n)Z_(i)^2 $
- dove: $Z_(1) , Z_(2), Z_(3) ... Z_(n) $ sono variabili aletore normali standard indipendenti tra di loro
allora $ W ~ chi_(n)^(2) $
Ma allora perchè
$ (n-1)S_(0)^2 / sigma^(2) ~ chi_(n-1)^(2) $
Vorrei una dimostrazione che spieghi quest'ultima affermazione. Se non capisco questo non credo proprio di poter andare avanti con i miei studi di statistica...
Per definizione, se ho una variabile $ W $ data da:
$ W = sum_(i = \1)^(n)Z_(i)^2 $
- dove: $Z_(1) , Z_(2), Z_(3) ... Z_(n) $ sono variabili aletore normali standard indipendenti tra di loro
allora $ W ~ chi_(n)^(2) $
Ma allora perchè
$ (n-1)S_(0)^2 / sigma^(2) ~ chi_(n-1)^(2) $
Vorrei una dimostrazione che spieghi quest'ultima affermazione. Se non capisco questo non credo proprio di poter andare avanti con i miei studi di statistica...