Intervallo di confidenza

jcarlopiscitelli
Salve a tutti!
Devo svolgere il seguente esercizio che mi chiede, dato un campione di 20 persone, media 180 e devianza 150, di trovare l'intervallo di confidenza della media per l'intera popolazione tale che la stima possa essere errata al massimo all'1%.
Sono autodidatta dunque chiedo se magari il mio approccio è corretto.

Innanzitutto abbiamo la devianza campionaria da cui ci calcoliamo la deviazione standard campionaria $ S=sqrt((SS)/(n-1))$

Dove SS è appunto la devianza campionaria. Non sono sicuro di questo passaggio onestamente. La deviaz. standard campionaria sarebbe 2.81.

Dovendo stimare un intervallo per la media con la media campionaria nota e la varianza ignota, considero una distribuzione di t student con n-1 gradi di libertà. Dovendo trovare un intervallo di confidenza con errore al massimo dell'1%, Considero l'indervallo bilaterale al 99% e cerco la t di 0.005 con 19 gradi di liberta ossia 2.86.
Uso la formula secondo cui l'errore è dato da
$+-t*(S)/(sqrt(N))$

Ossia

$+-2.86*2.81/4.41$

Giacché l'intervallo è
$180+-1.79$

Ecco mi sembrerebbe un intervallo molto piccolo, penso di aver sbagliato qualcosina. Pareri? Grazie.

Risposte
Lo_zio_Tom
Il metodo è corretto. Non ho verificato i conti ma se li hai controllati tu non vedo perché dubitarne. Il fatto che l'intervallo sia piccolo o grande dipende dalla varianza campionaria.

Piuttosto giova osservare che sarebbe opportuno specificare che la distribuzione sorgente è gaussiana. Non basta avere un campione di ampiezza 20 per assumere tout court la normalità della popolazione

jcarlopiscitelli
Ma distribuzione gaussiana non sarebbe un sinonimo di distribuzione normale? Ti riferisci alla distribuzione campionaria? Perché penso sia indubbiamente normale o sbaglio? Grazie.

Lo_zio_Tom
Sì gaussiana e normale sono sinonimi. Stai calcolando un intervallo di confidenza per la media dell'intera popolazione. Non voglio entrare in tecnicismi ( che comunque trovi sul forum, basta cercare) ma l'esercizio può essere risolto come hai fatto tu SOLO assumendo che la popolazione sia gaussiana e di ciò non vi è traccia nel testo.

La formula $(bar(X)_n-mu)/S_n sqrt(n)~t_(n-1)$ non vale sempre; vale sicuramente se $X$ si distribuisce come una gaussiana. Avrò dimostrato questa cosa decine di volte sul forum... basta cercare

E comunque trovi queste cose su qualunque testo serio di Statistica. Studiare da autodidatta non significa "non leggere libri seri".... ;)

jcarlopiscitelli
Beh ci sono alternative? Intendo, non considerando che la popolazione si distribuisce come una normale, ci sono altre possibilità? Il professore ama traccie del genere, nel corso degli anni sono tutte uguali, cambiano solo i numeri, quindi non vorrei sbagliare.
Non mi convince poi il passaggio dalla devianza del campione alla devianza standard? E' corretto?

Lo_zio_Tom
Ci sono alternative ma non mi sembra il caso di affrontarle. L'esercizio è semplicemente mal scritto e la tua soluzione va bene. Non tutti i "professori" di Statistica sono dei professori.

"carpox":
nel corso degli anni [ le tracce] sono tutte uguali, cambiano solo i numeri


.... intelligenti pauca. Penso che eviterò in futuro di rispondere a questi quesiti per manifesta allergia

Lo_zio_Tom
Dato che l'esercizio proposto (ammesso che quello postato sia il testo originale) fa acqua da tutte le parti, come moderatore della Stanza di Statistica mi sembra corretto commentare le possibili soluzioni al problema.

Troppo spesso infatti in dispense sciatte si leggono frasi del tipo: "per stimare la media con varianza nota si usa lo z-score, mentre per stimare la media con varianza ignota si usa la t di Student".

E' più o meno il caso dell'esercizio in questione. Si suppone implicitamente (ma non si può fare!) che il modello della popolazione sia gaussiano e si usa la seguente quantità pivotale

$(\bar(X)_n-mu)/S_n sqrt(n)~T_(n-1) $


e quindi si risolve rispetto a $mu$ la seguente doppia disuguaglianza

$-t_(alpha/2)<(\bar(X)_n-mu)/S_n sqrt(n)< t_(alpha/2)$


Ora il problema sta nel fatto che, la t di student con m gdl è definita come

$Z/sqrt(Y/m)$


dove $Z~Phi$, $Y~chi_(m)^2$ e, ultimo ma non ultimo, $Z$ e $Y$ sono indipendenti

E' facile ricondurre la statistica test precedentemente proposta alla definizione di una $t_(n-1)$ in quanto


$(\bar(X)_n-mu)/S_n sqrt(n)=( (\bar(X)_n-mu)/sigma sqrt(n))/sqrt(((n-1)S_n^2)/(sigma^2(n-1))$


Infatti IN UN MODELLO GAUSSIANO, il numeratore (Z) è una gaussiana standard, la quantità

$Y=((n-1)S_n^2)/sigma^2$ è una chi quadro con $n-1$ gdl ed inoltre:

$\bar(X)_n$ è CSS (Complete and Sufficient Statistic) per $mu$ mentre $Y$ è ancillare per $mu$ quindi si applica il teorema di BASU che ci garantisce l'indipendenza stocastica fra $Y$ e $Z$ e possiamo tranquillamente calcolare l'intervallo di confidenza usando i quantili della t di student.

MA, nell'esercizio in questione, non si fa menzione della normalità della popolazione, né vengono forniti i dati grezzi dell'esperimento. Infatti, se avessimo ALMENO a disposizione i dati potremmo pensare di fare prioritariamente un test non parametrico per provare la "gaussianità" del campione, insomma quel che si dice un "goodness of fit test", ad esempio un test chi-quadro, un test di Kolmogorov Smirnov ecc ecc.

^^^^^^^^^^^^^^^^^^^^^^

In altre parole, se uno statistico dovesse realmente risolvere questo problema molte sarebbero le domande da porsi e, l'unica alternativa possibile, mi sembra quella di invocare l'intervento del CLT, il teorema del limite centrale.

Tale teorema afferma che, sotto particolari condizioni abbastanza generali, la media campionaria ha distribuzione asintotica gaussiana...$n=20$ non è grandissimo, empiricamente si chiede di avere almeno $n=32$, ma in moltissimi casi il CLT funziona anche con un'ampiezza campionaria molto molto più piccola...ma anche qui per operare correttamente occorre fare riferimento a ciò che la teoria ci propone...non siamo al bar eh... stiamo risolvendo esercizi di livello universiario!

Supponiamo dunque che valga il CLT e dunque che

$(\bar(X)_n-mu)/sigma sqrt(n)\stackrel(" "\mathcal(L)" ")rarr \Phi$


Il problema nostro è che però non conosciamo $sigma$ e quindi dobbiamo farci venire un'idea ( e presto anche se fossimo ad un esame...)

allora osserviamo che

$(\bar(X)_n-mu)/sigma sqrt(n)=S_n/sigma\cdot(\bar(X)_n-mu)/S_n sqrt(n)$



ci ricordiamo (e comunque è facile da provare) che

$S_n^2\stackrel(" "\mathcal(P)" ")rarrsigma^2$


(in realtà ci converge anche quasi certamente, ma ci basta questa convergenza più debole)

Usiamo il teorema di conservazione della continuità (Continuous Mapping Theorem) ottenendo

$S_n\stackrel(" "\mathcal(P)" ")rarr sigma$


e con un piccolo sforzo (che lascio per esercizio) dimostriamo anche che

$sigma/S_n\stackrel(" "\mathcal(P)" ")rarr 1$



A questo punto ci basta invocare il teorema di Slutsky per essere certi che anche

$(\bar(X)_n-mu)/S_nsqrt(n)\stackrel(" "\mathcal(L)" ")rarr \Phi$



CIO' PREMESSO: il modo più corretto di risolvere l'esercizio è calcolare un intervallo di confidenza ASINTOTICO usando i quantili della gaussiana invece di quelli della t di student, anche se la varianza è incognita...e quindi sostituire nella formuletta i valori $pm2.86$ con $pm 2.58$

Rispondi
Per rispondere a questa discussione devi prima effettuare il login.