Esercizio già risolto su varianza scomposta: il significato?

michele.c.-votailprof
Si consideri una popolazione divisa in due gruppi in cui il primo gruppo ha una numerosità tripla rispetto al secondo. Sapendo che $bar x_1=4$, $bar x=4$, $s_1^2=4$, $s_2^2=4$, calcolare la media del secondo gruppo e la varianza totale $s^2$.

SVOLGIMENTO:

$n_1=3n_2$ con$n=3n_2+ n_2 = 4n_2$ (e fino a qui tutto chiaro)

$bar x= (n_1/n)bar x_1 + (n_2/n) bar x_2$ con $n_1/n= 3/4$ e $n_2/n= 1/4$

( prima domanda: questa sembrerebbe una scomposizione della media, ma è una formula che esiste in statistica? Io non l'ho vista prima d'ora. Qual'è il significato nella sua più pura essenza? Pensavo che si dovesse fare $(bar x_1 + bar x_2)/2$ per ottenere la media totale)

$4 = 3/4*4+1/4*bar x_2$ , quindi $bar x_2=16 -12=4$

POI l'esercizio mi risolve la varianza within con la formula sottostante:

$S_w^2 = (n_1/n)S_1^2+ (n_2/n)S_2^2$ = $3/4*4+1/4*4=4$
(seconda domanda: la varianza within è la media delle varianze interne a ciascun gruppo.
Quindi se chiamiamo la varianza del j-imo gruppo costituito da $n_j$ osservazioni, $S_j^2= (1/n_j)\sum_{j=1}^(n_j) (x_ij^2- bar x_j)^2$. Dati k gruppi di osservazioni, la varianza within non
dovrebbe essere la medie di esse? Ovvero $S_w^2= \sum_{j=1}^(k) S_j^2f_j$ ???)


Anche la varianza between me la calcola così:
$S_b^2= n_1/n*( bar x_1- bar x)^2 + n_2/n*( bar x_2 - bar x)^2$ = $3/4(4-4)^2 + 1/4(4-4)^2 = 0$

( varianza between = varianza media tra i singoli gruppi: si prende il valor medio di ogni gruppo e si calcola la varianza di esso rispetto alla media di tutte le osservazioni, per ogni gruppo. Poi si fa la media di tutte le varianze. Perciò dovrebbe essere $S_b^2= \sum_{j=1}^(k) (bar x_j - bar x)^2* f_j$. Perchè secondo voi qui non è così?).


Poi vabè il fatto che $S_x^2= S_b^2 + S_w^2= 4 $ l'ho capito....E' tutto il resto che non riesco a comprendere!

Aspetto chiarimenti raga...Grazie in anticipo.

Risposte
adaBTTLS1
la prima formula della media, se la scrivi senza parentesi e sotto forma di un'unica frazione, ti dovrebbe essere più familiare.
per quanto riguarda la varianza, io non l'ho mai sentita chiamare "within" e "between"...
però, sia per la media sia per la varianza, devi considerare "tutti gli individui", quindi se parti dai dati calcolati di singole popolazioni non puoi fare la brutale media aritmetica, ma una "media pesata": nell'esempio il primo gruppo "pesa" il triplo del secondo... OK? ciao.

michele.c.-votailprof
la prima formula diventa: $(n_1* bar x_1 + n_2* bar x_2)/n =(n_1* bar x_1 + n_2* bar x_2)/(n_1 + n_2) $ ACCIDENTI HAI RAGIONE!!! E' LA MEDIA DELLE MEDIE!!! è come scrivere $(bar x_1 + bar x_1 + ...+ bar x_1 + bar x_2 + bar x_2 + ... + bar x_2)/n$ ovviamente $n_1x_1$ al numeratore è la somma delle medie del gruppo 1, sommate $n_1$ volte, mentre $n_2x_2$ al numeratore è la somma delle medie del gruppo 2 , sommate a loro volta $n_2$ volte (sommate per la numerosità del gruppo cui appartengono) . Tutte queste medie a loro volta divise per il numero totale di osservazioni. Dovrebbe essere questo il significato di media ponderata....La mia media brutale penso che si possa usare solo nel caso in cui tutti i gruppi siano costituiti dallo stesso numero di osservazioni. Giusto?

Per la varianza poi credo sia la stessa cosa, ma non ne sono sicuro... Sembrerebbe una varianza ponderata... Perché quando calcolo la varianza all'interno di ciascun gruppo, devo fare poi la media con la varianza INTERNA agli altri gruppi (varianza within). Sommo quindi le varianze interne a ciascun gruppo ( $S_j^2$ con j = 1,...,k) per dare il giusto peso alla media di esse, e poi divido il numeratore per il numero complessivo di osservazioni (in questo caso i gruppi sono due, e quindi il giusto peso è $(S_1^2n_1 + S_2^2n_2) /(n_1 + n_2)$.

Per varianza between, non devo valutare la media tra le varianze interne ai gruppi, ma la varianza che c'è tra i gruppi, e per compiere questa operazione devo prendere un valore stimato per ogni gruppo, che in questo caso è la media campionaria di ciascuno e poi calcolare la varianza stimata tra ciascun gruppo. Quindi in questo caso pondero, con la formula $(n_1(bar x_1 - bar x)^2 +n_2(bar x_2 - bar x)^2)/n$ ( con $ bar x_1$ = media campionaria del primo gruppo e $ bar x_2 $= media campionaria del secondo gruppo). E' ANCH'ESSA UNA MEDIA TRA VARIANZE DANDO IL GIUSTO PESO A CIASCUN GRUPPO. Spero di aver capito AdaBttls. Ti prego dimmi che ho capito, anche se forse ho impostato il discorso in maniera un pò contorta e ridondante..:-D

adaBTTLS1
hai capito bene.
la media brutale la puoi fare quando le popolazioni hanno lo stesso peso ($n_1=n_2=1/2n$).
non ti posso essere di conforto sul significato dei due tipi di varianza, ma il discorso ora pare che fili liscio...
ciao.

michele.c.-votailprof
:-D :-D :-D :-D GRAZIE MILLE ADABTTLS!

adaBTTLS1
prego!

Rispondi
Per rispondere a questa discussione devi prima effettuare il login.