Ljung-Box test di randomicità
Volendo valutare l'ipotesi che un segnale temporale residuo che ottengo da un'analisi sia white noise ho trovato in rete che un test che fa al mio caso è il Ljung-Box portmanteau test. Esso consiste nel calcolare il parametro $Q$:
[tex]Q= n(n+2) \sum_{ \tau=1}^m \frac{ \rho_{ \tau}^2}{n- \tau}[/tex]
dove [tex]\rho_{ \tau}^2[/tex] è l'autocorrelazione con lag [tex]\tau[/tex], [tex]m[/tex] è il numero di lags usati, ed [tex]n[/tex] è il numero di dati della serie temporale (se ho ben capito).
L'ipotesi che il residuo sia white noise è accettabile se [tex]Q < \chi_{1- \alpha, h}^2[/tex], dove [tex]\chi_{1- \alpha, h}^2[/tex] è l'[tex]\alpha[/tex]-quantile della distribuzione del chi quadrato con [tex]h[/tex] gradi di libertà.
Nonostante la spiegazione non ho ben capito cosa sia [tex]\chi_{1- \alpha, h}^2[/tex] e come si calcoli.
Faccio un esempio pratico, per vedere fino a che punto ho capito correttamente:
Voglio stabilire se la seguente successione può temporale può essere classificata come white noise:
[tex]-5 \quad -4 \quad -3 \quad -2 \quad -1 \quad 0 \quad 1 \quad 2 \quad 3 \quad 4 \quad 5[/tex]
Decido di usare lags [tex]1[/tex], [tex]2[/tex], [tex]3[/tex] e [tex]4[/tex]. Dunque le autocorrelazioni sono:
[tex]\rho_1^2 = (-5)*(-4) + (-4)*(-3) + (-3)*(-2) + (-2)*(-1) + (-1)*0 + 0*1 + 1*2 + 2*3 + 3*4 + 4*5 = 80[/tex]
[tex]\rho_2^2 = (-5)*(-3) + (-4)*(-2) + (-3)*(-1) + (-2)*0 + (-1)*1 + 0*2 + 1*3 + 2*4 + 3*5 = 51[/tex]
[tex]\rho_3^2 = (-5)*(-2) + (-4)*(-1) + (-3)*0 + (-2)*1 + (-1)*2 + 0*3 + 1*4 + 2*5 = 24[/tex]
[tex]\rho_4^2 = (-5)*(-1) + (-4)*0 + (-3)*1 + (-2)*2 + (-1)*3 + 0*4 + 1*5 = 0[/tex]
Dunque dovrebbe essere:
[tex]Q=11*13 \left ( \frac{80}{10} + \frac{51}{9} + \frac{24}{8} + \frac{0}{7} \right )[/tex]
Fin qui è corretto?
A questo come calcolo [tex]\chi_{1- \alpha, h}^2[/tex]? Quanti sono i gradi di libertà? (Direi che sono 7)
Vanno bene anche risposte parziali, dato che ho necessità di capire in fretta questo test.
[tex]Q= n(n+2) \sum_{ \tau=1}^m \frac{ \rho_{ \tau}^2}{n- \tau}[/tex]
dove [tex]\rho_{ \tau}^2[/tex] è l'autocorrelazione con lag [tex]\tau[/tex], [tex]m[/tex] è il numero di lags usati, ed [tex]n[/tex] è il numero di dati della serie temporale (se ho ben capito).
L'ipotesi che il residuo sia white noise è accettabile se [tex]Q < \chi_{1- \alpha, h}^2[/tex], dove [tex]\chi_{1- \alpha, h}^2[/tex] è l'[tex]\alpha[/tex]-quantile della distribuzione del chi quadrato con [tex]h[/tex] gradi di libertà.
Nonostante la spiegazione non ho ben capito cosa sia [tex]\chi_{1- \alpha, h}^2[/tex] e come si calcoli.
Faccio un esempio pratico, per vedere fino a che punto ho capito correttamente:
Voglio stabilire se la seguente successione può temporale può essere classificata come white noise:
[tex]-5 \quad -4 \quad -3 \quad -2 \quad -1 \quad 0 \quad 1 \quad 2 \quad 3 \quad 4 \quad 5[/tex]
Decido di usare lags [tex]1[/tex], [tex]2[/tex], [tex]3[/tex] e [tex]4[/tex]. Dunque le autocorrelazioni sono:
[tex]\rho_1^2 = (-5)*(-4) + (-4)*(-3) + (-3)*(-2) + (-2)*(-1) + (-1)*0 + 0*1 + 1*2 + 2*3 + 3*4 + 4*5 = 80[/tex]
[tex]\rho_2^2 = (-5)*(-3) + (-4)*(-2) + (-3)*(-1) + (-2)*0 + (-1)*1 + 0*2 + 1*3 + 2*4 + 3*5 = 51[/tex]
[tex]\rho_3^2 = (-5)*(-2) + (-4)*(-1) + (-3)*0 + (-2)*1 + (-1)*2 + 0*3 + 1*4 + 2*5 = 24[/tex]
[tex]\rho_4^2 = (-5)*(-1) + (-4)*0 + (-3)*1 + (-2)*2 + (-1)*3 + 0*4 + 1*5 = 0[/tex]
Dunque dovrebbe essere:
[tex]Q=11*13 \left ( \frac{80}{10} + \frac{51}{9} + \frac{24}{8} + \frac{0}{7} \right )[/tex]
Fin qui è corretto?
A questo come calcolo [tex]\chi_{1- \alpha, h}^2[/tex]? Quanti sono i gradi di libertà? (Direi che sono 7)
Vanno bene anche risposte parziali, dato che ho necessità di capire in fretta questo test.
Risposte
Riprendo questo vecchio post per cercare chiarimenti su come usare questo test per valutare la randomicità di un segnale.
Ho provato ad applicarlo sia a dei residui di un modello testato su dati reali, sia a serie random generate con matlab.
Ho confrontato i correlogrammi e i grafici relativi ai p-valori.
Per quanto riguarda i correlogrammi non noto particolari differenze tra i residui reali e le serie random, i dati reali, almeno in un caso, hanno un picco leggermente più alto (del $20-30%$) rispetto agli altri picchi. Questa potrebbe essere un'indicazione, ma è quantificabile?
Per quanto riguarda i p-valori noto che variano molto anche tra una serie random e un'altra, sia nell'andamento generale che nel valore medio. Osservo che da un certo posto in poi saturano a 0. Un p-valore basso indica una scarsa randomicità? Se è così, una serie è "più random" di un'altra se la saturazione a 0 dei p-valori avviene dopo? Perchè comunque in ogni caso, oltre un certo lag i p-valori vanno a 0?
Ovviamente se sapete suggerirmi delle dispense o libri che trattano abbastanza bene questi argomenti (autocorrelazioni, p-valori, ecc.) sia dal punto di vista concettuale che pratico sarebbe l'ideale.
Piccola nota tecnica:
quelle che ho calcolato nel post precedente credo siano le $\rho_i$, $i=1,...,4$, non le $rho_i^2$. Corretto?
Ho provato ad applicarlo sia a dei residui di un modello testato su dati reali, sia a serie random generate con matlab.
Ho confrontato i correlogrammi e i grafici relativi ai p-valori.
Per quanto riguarda i correlogrammi non noto particolari differenze tra i residui reali e le serie random, i dati reali, almeno in un caso, hanno un picco leggermente più alto (del $20-30%$) rispetto agli altri picchi. Questa potrebbe essere un'indicazione, ma è quantificabile?
Per quanto riguarda i p-valori noto che variano molto anche tra una serie random e un'altra, sia nell'andamento generale che nel valore medio. Osservo che da un certo posto in poi saturano a 0. Un p-valore basso indica una scarsa randomicità? Se è così, una serie è "più random" di un'altra se la saturazione a 0 dei p-valori avviene dopo? Perchè comunque in ogni caso, oltre un certo lag i p-valori vanno a 0?
Ovviamente se sapete suggerirmi delle dispense o libri che trattano abbastanza bene questi argomenti (autocorrelazioni, p-valori, ecc.) sia dal punto di vista concettuale che pratico sarebbe l'ideale.
Piccola nota tecnica:
quelle che ho calcolato nel post precedente credo siano le $\rho_i$, $i=1,...,4$, non le $rho_i^2$. Corretto?