Distribuzione e valori distorsivi

marcohub1
Ciao a tutti!

E' il mio primo messaggio e spero non mi ignorerete.

Ho sottomano un elenco di circa 200 osservazioni, casuali. Alcuni valori sono decisamente distorsivi della media, e vorrei identificare un RANGE di valori rappresentativo della distribuzione.

Potrei pensare ad una Normale (che mi permetterebbe quindi di escludere i valori minori di un certo numero e maggiori di un altro)?

Se sì, mi spiegate per sommi capi come dovrei procedere?

Thanks.

Risposte
elgiovo
Se pensi che i valori siano distribuiti normalmente puoi provare a verificarlo con un probability plot Gaussiano. Qui trovi le informazioni:
http://en.wikipedia.org/wiki/Probability_plot
Mi pare che nel link non lo dica, comunque nelle carte per i probability plot gaussiani (ma anche per altre distribuzioni) trovi anche delle stime per il valor medio $mu$ e per lo scarto $sigma$. Dati questi due valori, hai che l'espressione della distribuzione è come noto

$f(x)=1/(sqrt(2pi) sigma) e^(-(x-mu)^2/(2 sigma))$

e che i dati si distribuiscono quasi interamente nell'intervallo $[mu-3sigma,mu+3sigma]$, ovvero il range che cerchi.

marcohub1
Scusa, come faccio ad ottenere quel grafico? E soprattutto, come stimare media e scarto quadratico medio (non conosco quelli della popolazione)?

Grazie

EconMax
Un modo forse piu' preciso e' quello di fare un semplice test, tipo quello di Kolmogorov-Smirnov (lo trovi su wikipedia, o su qualsiasi libro di statistica). Per stimare media e varianza della popolazione basta che ti calcoli quelle del campione.

olaxgabry
"EconMax":
Un modo forse piu' preciso e' quello di fare un semplice test, tipo quello di Kolmogorov-Smirnov (lo trovi su wikipedia, o su qualsiasi libro di statistica). Per stimare media e varianza della popolazione basta che ti calcoli quelle del campione.

Condivido. Io darei un'occhiata anche all'istogramma perequato ed anche al test di Normalità di Jarque-Bera: l'ipotesi nulla è che le tue osservazioni si distribuiscano normalmente (anche per il test di kolmogorov-Smirnov); vedi il valore del p-value ed avrai un'indicazione sulla distribuzione delle tue osservazioni.

elgiovo
"marcohub":
Scusa, come faccio ad ottenere quel grafico? E soprattutto, come stimare media e scarto quadratico medio (non conosco quelli della popolazione)?

Grazie


Ti scrivo l'algoritmo da seguire:

- ordina i dati dal più piccolo al più grande: i dati $x_1,ldots,x_n$ diventano $x_((1)),ldots,x_((n))$;
- assegna ad ogni valore ordinato $x_((i))$ la cosiddetta plotting position: $p_i=i/n$. In realtà è stato dimostrato che con $p_i=(i-3/8)/(n+1/4)$ si ottengono risultati migliori, quindi se hai a disposizione mezzi di calcolo usa l'ultima che ho scritto;
- plotta in un grafico le coppie di valori $(x_((i)),y_i)$, dove $y_i=Phi^(-1)(i/n)$ o meglio $y_i=Phi^(-1)((i-3/8)/(n+1/4))$;
- se i dati si dispongono all'incirca in linea retta puoi affermare che sono distribuiti normalmente, altrimenti no;
- traccia una retta che approssimi l'andamento delle coppie (puoi usare ad esempio il metodo dei minimi quadrati, ma si fa agevolmente a occhio);
- traccia la retta orizzontale $y=1/2$; dal punto di intersezione di quest'ultima con la retta trovata in precedenza traccia una retta verticale; l'intersezione con l'asse $x$ fornisce una stima $hat mu$ del valor medio $mu$.
- per la stima di $sigma$ traccia le rette $y=1/2 pm "erf"(sqrt2/2)$ e come prima trova le intersezioni con la retta dei dati e traccia la verticale: sull'asse $x$ avrai i valori $hat mu pm hat sigma$, ovvero le stime di $mu pm sigma$.

Rispondi
Per rispondere a questa discussione devi prima effettuare il login.