Varianza
Ciao,
sto calcolando la varianza di un dataset molto grande. Ho calcolato il valore medio dell'intero dataset.
Per problemi computazionali, adesso vorrei spezzare il dataset in più parti di uguale dimensione e poi calcolare la varianza totale, secondo voi è corretto calcolare le varie varianza del singolo blocco e poi calcolare la media delle varianze per avere il valore della varianza come se l'avessi calcolato sull'intero dataset?
Grazie
sto calcolando la varianza di un dataset molto grande. Ho calcolato il valore medio dell'intero dataset.
Per problemi computazionali, adesso vorrei spezzare il dataset in più parti di uguale dimensione e poi calcolare la varianza totale, secondo voi è corretto calcolare le varie varianza del singolo blocco e poi calcolare la media delle varianze per avere il valore della varianza come se l'avessi calcolato sull'intero dataset?
Grazie
Risposte
.
Però mi sembra che forse con una piccola correzione si possa fare.
Sia $m$ il numero di campioni di ciascuna parte (tutte della stessa dimensione) e $n$ è il numero totale di parti, per cui $n*m$ rappresenta il numero di campioni totale del data set.
Sia $mu$ la media dell'intero dataset. La varianza campionaria corretta sarà:
$sigma^2 = (sum_(j=1)^n sum_(i=1)^m (x_(ij) - mu)^2)/(n*m-1) *$
essendo $x_(ij)$ il campione i-simo del raggruppamento j-simo.
Posta $sigma_j^2= sum_(i=1)^m (x_(ij) - mu)^2/(m-1)$ la varianza campionaria corretta del raggruppamento j-simo, si potrà ancora scrivere
$sigma^2 = (m-1)/(n*m-1) * (sum_(j=1)^n sigma_j^2)$
ma per definizione la media delle varianze è:
$mu_(sigma^2) = (sum_(j=1)^n sigma_j^2)/n$
per cui:
$sigma^2 = (n(m-1))/(n*m-1)*mu_(sigma^2)$
Se poi la varianza di ogni singolo raggruppamento fosse calcolata senza correzione, si avrebbe
$sigma^2 = (n*m)/(n*m-1)*mu_(sigma^2)$
e infine nel caso di dataset molto grande ovvero con $n m$ >>1 si avrebbe effettivamente:
$sigma^2 approx mu_(sigma^2)$
Sia $m$ il numero di campioni di ciascuna parte (tutte della stessa dimensione) e $n$ è il numero totale di parti, per cui $n*m$ rappresenta il numero di campioni totale del data set.
Sia $mu$ la media dell'intero dataset. La varianza campionaria corretta sarà:
$sigma^2 = (sum_(j=1)^n sum_(i=1)^m (x_(ij) - mu)^2)/(n*m-1) *$
essendo $x_(ij)$ il campione i-simo del raggruppamento j-simo.
Posta $sigma_j^2= sum_(i=1)^m (x_(ij) - mu)^2/(m-1)$ la varianza campionaria corretta del raggruppamento j-simo, si potrà ancora scrivere
$sigma^2 = (m-1)/(n*m-1) * (sum_(j=1)^n sigma_j^2)$
ma per definizione la media delle varianze è:
$mu_(sigma^2) = (sum_(j=1)^n sigma_j^2)/n$
per cui:
$sigma^2 = (n(m-1))/(n*m-1)*mu_(sigma^2)$
Se poi la varianza di ogni singolo raggruppamento fosse calcolata senza correzione, si avrebbe
$sigma^2 = (n*m)/(n*m-1)*mu_(sigma^2)$
e infine nel caso di dataset molto grande ovvero con $n m$ >>1 si avrebbe effettivamente:
$sigma^2 approx mu_(sigma^2)$