Statistica base: varianza,deviazione standard e boxplot
ciao a tutti, so che è un argomento seplicissimo ma mi sto perdendo sui calcoli. Devo calcolare semplicemente varianza e deviaz.standard ma i miei risultati non coincidono col libro. questi i dati: 38,40,41,42,42,43,44,45,45,48,50,54,56,57,57,61,63,64,64,65,65,65,66,66,68,68,69,69,70,70,70,71,71,72,73,73,73,74,77,78.
Risultati: varianza:145.251
deviazione stand.: 12.052
a me la varianza viene 147,248 e di conseguenza non riesco a standardizzare i dati con questo risultato errato.
pOI, PER COSTRUIRE IL BOXPLOT mi dice che devo calcolare i 3 quartili della distribuzione e la loro gamma. cosa sono questi quartili? come si calcolano? grazie mille
Risultati: varianza:145.251
deviazione stand.: 12.052
a me la varianza viene 147,248 e di conseguenza non riesco a standardizzare i dati con questo risultato errato.
pOI, PER COSTRUIRE IL BOXPLOT mi dice che devo calcolare i 3 quartili della distribuzione e la loro gamma. cosa sono questi quartili? come si calcolano? grazie mille
Risposte
Dato un campione discreto composto da
seguenti quantità:
Per verifica vedi: media aritmetica, varianza, deviazione standard.
Ora, l'intervallo
questo intervallo, cioè la quantità
sione, che ha il vantaggio di essere facile da calcolare. E' però un indice gros-
solano, molto sensibile agli errori che frequentemente sono presenti nei dati.
Un indice di dispersione più efficiente è invece l'ampiezza dell'intervallo inter-
quartile. Se
dove
uguale al numero intero immediatamente più piccolo oppure più grande di
la funzione parte intera. Grosso modo
sto senso la mediana è il quantile
interno dunque metà delle osservazioni. L'ampiezza
interquartile è una misura della dispersione che non ha i difetti che si riscontrano
invece con il range.
A partire dalla mediana e dai quantili è possibile costruire un grafico che dà un'idea
abbastanza immediata del valore di centralità e della dispersione del campione, ed
anche di confrontare più campioni tra loro. Per ogni campione viene costruita una
scatola le cui estremità inferiori e superiori sono rispettivamente il primo e il terzo
quartile. All'interno della scatola è tracciata una linea in corrispondenza della media-
na; al di fuori della scatola vengono tracciati due segmenti rispettivamente tra il primo
quartile ed il più piccolo valore delle osservazioni ed il terzo quartile ed il valore più
grande. La distanza tra le estremità di questi segmenti è dunque il range. In lettera-
tura questo tipo di grafici si chiama boxplot, oppure box and whiskers (scatola con i
baffi).
Per verifica vedi: quartili, scatola con i baffi.
Spero sia sufficientemente chiaro. ;)
Fonte: Introduzione alla probabilità (con elementi di statistica) - Paolo Baldi.
[math]N[/math]
valori [math] x_i[/math]
, si definiscono le seguenti quantità:
[math]\begin{aligned}\bar{x} := \frac{1}{N}\sum_{i = 1}^N x_i, \; \; s_N^2 := \frac{1}{N}\sum_{i = 1}^N \left(x_i - \bar{x}\right)^2, \; \; s_N := \sqrt{s_N^2}\,. \end{aligned}\\[/math]
Per verifica vedi: media aritmetica, varianza, deviazione standard.
Ora, l'intervallo
[math]\left[x_1, \;x_n\right][/math]
contiene tutti i dati. Si chiama range l'ampiezza di questo intervallo, cioè la quantità
[math]x_n - x_1[/math]
; si tratta di un indice di disper-sione, che ha il vantaggio di essere facile da calcolare. E' però un indice gros-
solano, molto sensibile agli errori che frequentemente sono presenti nei dati.
Un indice di dispersione più efficiente è invece l'ampiezza dell'intervallo inter-
quartile. Se
[math]\small 0 < \alpha < 1[/math]
, si chiama quantile di ordine [math]\small \alpha[/math]
il numero [math]\small q_{\alpha} = x_i[/math]
, dove
[math]i = \alpha\,(N + 1)[/math]
se [math]\alpha\,(N + 1)[/math]
è intero; altrimenti si sceglierà [math]i[/math]
_ uguale al numero intero immediatamente più piccolo oppure più grande di
[math]\alpha\,(N + 1)[/math]
(a seconda dei testi le definizioni possono variare un po'), cioè [math]i = \lfloor \alpha\,(N+1) \rfloor[/math]
, oppure [math]i = \lfloor \alpha\,(N+1) \rfloor + 1[/math]
, dove [math]\lfloor \,\rfloor[/math]
indica la funzione parte intera. Grosso modo
[math]q_{\alpha}[/math]
è un numero che ha alla sua sinistra [math]\alpha\,N[/math]
elementi del campione (e dunque [math](\alpha - 1)\,N[/math]
alla sua destra). In que-sto senso la mediana è il quantile
[math]q_{1/2}[/math]
. Si chiamano invece quartili i quantili [math]q_{1/4}, \; q_{2/4}, \; q_{3/4}[/math]
. L'intervallo interquartile [math][q_{1/4}, \; q_{3/4}][/math]
contiene al suo interno dunque metà delle osservazioni. L'ampiezza
[math]q_{3/4} - q_{1/4}[/math]
dell'intervallo interquartile è una misura della dispersione che non ha i difetti che si riscontrano
invece con il range.
A partire dalla mediana e dai quantili è possibile costruire un grafico che dà un'idea
abbastanza immediata del valore di centralità e della dispersione del campione, ed
anche di confrontare più campioni tra loro. Per ogni campione viene costruita una
scatola le cui estremità inferiori e superiori sono rispettivamente il primo e il terzo
quartile. All'interno della scatola è tracciata una linea in corrispondenza della media-
na; al di fuori della scatola vengono tracciati due segmenti rispettivamente tra il primo
quartile ed il più piccolo valore delle osservazioni ed il terzo quartile ed il valore più
grande. La distanza tra le estremità di questi segmenti è dunque il range. In lettera-
tura questo tipo di grafici si chiama boxplot, oppure box and whiskers (scatola con i
baffi).
Per verifica vedi: quartili, scatola con i baffi.
Spero sia sufficientemente chiaro. ;)
Fonte: Introduzione alla probabilità (con elementi di statistica) - Paolo Baldi.
mmmm...ti ringrazio però non mi hai aiutata con l esercizio. è quello il punto...comunque sia apprezzo
# dodda :
non mi hai aiutata con l esercizio. è quello il punto...
Ma stai facendo sul serio?? Più che spiegarti filo per segno i vari conti da fare cosa
ti aspettavi di ricevere? Per calcolare la varianza la formula è quella lì, non rimane che
armarsi di calcolatrice o pc e svolgere quella serie di addizioni senza commettere errori
di conto. Se ti va posta i vari passaggi scritti ordinatamente (ossia i parziali della somma-
toria) che vediamo di trovare l'errore. ;)
Questa discussione è stata chiusa