Regressione e fit
Buonasera.
Sto provando ad eseguire un fit di dati raccolti durante un esperimento e da simulazioni effettuate, ma ho qualche perplessità sul modo di operare.
In pratica, ho un set di dati presi in laboratorio e un set di dati ottenuti da alcune simulazioni. Devo verificare se ciò che ottengo dalle simulazioni è compatibile con quello ottenuto durante l'esperimento.
Ciò che mi sto proponendo di fare è un fit dei dati, utilizzando tecniche di regressione.
Sia per i dati sperimentali sia per quelli delle simulazioni ho calcolato intercetta e pendenza.
Mi chiedo, però, se sia corretto procedere in questo modo o se sia preferibile eseguire il confronto dei dati utilizzando altri metodi. Una volta ottenuti, infatti, i valori di intercetta e pendenza per il caso 'esperimento' e per quello 'simulazione', come faccio a trarre opportune conclusioni?
I miei dati sono:
$x$ 1 2 3 4 5 6 7 8
$y$ 2.7 3.1 3.0 4.1 3.8 3.9 4.8 5.1
Ho calcolato $x^2$ e $xy$, $\sumx$, $\sumy$, $\sumx^2$, $\sumxy$.
Vi ringrazio
Sto provando ad eseguire un fit di dati raccolti durante un esperimento e da simulazioni effettuate, ma ho qualche perplessità sul modo di operare.
In pratica, ho un set di dati presi in laboratorio e un set di dati ottenuti da alcune simulazioni. Devo verificare se ciò che ottengo dalle simulazioni è compatibile con quello ottenuto durante l'esperimento.
Ciò che mi sto proponendo di fare è un fit dei dati, utilizzando tecniche di regressione.
Sia per i dati sperimentali sia per quelli delle simulazioni ho calcolato intercetta e pendenza.
Mi chiedo, però, se sia corretto procedere in questo modo o se sia preferibile eseguire il confronto dei dati utilizzando altri metodi. Una volta ottenuti, infatti, i valori di intercetta e pendenza per il caso 'esperimento' e per quello 'simulazione', come faccio a trarre opportune conclusioni?
I miei dati sono:
$x$ 1 2 3 4 5 6 7 8
$y$ 2.7 3.1 3.0 4.1 3.8 3.9 4.8 5.1
Ho calcolato $x^2$ e $xy$, $\sumx$, $\sumy$, $\sumx^2$, $\sumxy$.
Vi ringrazio
Risposte
con le comuni tecniche della regressione lineare trovi un valore di $R^2=89%$ che è un buon indice di fitting
l'indice può essere calcolato in molti modi diversi....ad esempio $(cov(X,Y))/(V(X)V(Y))$
con semplici manipolazioni algebriche non è difficile verificare che tale indice di bontà della regressione può essere riscritto nel seguente modo
$R^2=(nSigmaxy-SigmaxSigmay)^2/((nSigmax^2-(Sigmax)^2)(nSigmay^2-(Sigmay)^2))$
Esistono comunque diverse forme equipollenti per calcolare tale indice....
ciao
l'indice può essere calcolato in molti modi diversi....ad esempio $(cov(X,Y))/(V(X)V(Y))$
con semplici manipolazioni algebriche non è difficile verificare che tale indice di bontà della regressione può essere riscritto nel seguente modo
$R^2=(nSigmaxy-SigmaxSigmay)^2/((nSigmax^2-(Sigmax)^2)(nSigmay^2-(Sigmay)^2))$
Esistono comunque diverse forme equipollenti per calcolare tale indice....
ciao
Ti ringrazio, tommik, per la tua risposta.
Io ho utilizzato la prima formula che hai riportato, trovando come valori di $R^2$:
- per l'esperimento: $0.39$
- per la simulazione: $0.31$
Può bastare, oppure occorre fare dell'altro, per verificare la compatibilità dei dati delle simulazioni con quelli dell'esperimento?
Tra l'altro, non so come muovermi in caso di situazioni in cui i dati ottenuti non sono 'perfettamente' appartenenti ad una qualche funzione, del tipo:
y
95
84
70
92
84
67
81
61
con i valori della x che vanno sempre da 1 a 8
Io ho utilizzato la prima formula che hai riportato, trovando come valori di $R^2$:
- per l'esperimento: $0.39$
- per la simulazione: $0.31$
Può bastare, oppure occorre fare dell'altro, per verificare la compatibilità dei dati delle simulazioni con quelli dell'esperimento?
Tra l'altro, non so come muovermi in caso di situazioni in cui i dati ottenuti non sono 'perfettamente' appartenenti ad una qualche funzione, del tipo:
y
95
84
70
92
84
67
81
61
con i valori della x che vanno sempre da 1 a 8

"bad.alex":
Può bastare, oppure occorre fare dell'altro, per verificare la compatibilità dei dati delle simulazioni con quelli dell'esperimento?
la regressione (la mia risposta tra l'altro era riferità solo alla regressione lineare) è ovviamente solo uno degli strumenti che la Statistica ci mette a disposizione (ad esempio test di omogeneità fra campioni diversi)
Ciò che ti posso dire è di applicare tutte le tecniche statistiche che ti sono state spiegate a lezione.
Grazie mille, tommik.
Scusate se riprendo questo topic, ma stavo svolgendo dei calcoli quando ho trovato delle discordanze tra quanto da me calcolato e quanto riportato come soluzione sul testo.
Ho la seguente serie di dati:
$(x;y)= {(1;71), (2;47), (3;38), (4;99), (5;51), (6;39), (7;64), (8;46)}$
Ho calcolato l'intercetta q utilizzando la formula $y-mx$, dove in questo caso x e y indicano i valori medi delle variabili x e y (scusate ma non sono riuscito a mettere la barra in alto) e hanno valori rispettivamente uguali a 4.5 e a 57.05.
Il valore di $m$ l'ho ricavato dalla formula $\frac{cov(x,y)}{var(x)}$.
Il valore di $R^2$ a me risulta essere maggiore di 1, mentre sul testo è riportato (in percentuale) 61.6.
Potreste dirmi se sto sbagliando qualcosa nel calcolare i coefficienti?
$R^2$ lo trovo utilizzando la formula $\sum{y_i-Y_i}^2$, dove $Y_i$ è calcolato come $Y_i=q+mx_i$ (in questo caso, x varia da 1 a 8).
Vi ringrazio per l'aiuto e i consigli.
Ho la seguente serie di dati:
$(x;y)= {(1;71), (2;47), (3;38), (4;99), (5;51), (6;39), (7;64), (8;46)}$
Ho calcolato l'intercetta q utilizzando la formula $y-mx$, dove in questo caso x e y indicano i valori medi delle variabili x e y (scusate ma non sono riuscito a mettere la barra in alto) e hanno valori rispettivamente uguali a 4.5 e a 57.05.
Il valore di $m$ l'ho ricavato dalla formula $\frac{cov(x,y)}{var(x)}$.
Il valore di $R^2$ a me risulta essere maggiore di 1, mentre sul testo è riportato (in percentuale) 61.6.
Potreste dirmi se sto sbagliando qualcosa nel calcolare i coefficienti?
$R^2$ lo trovo utilizzando la formula $\sum{y_i-Y_i}^2$, dove $Y_i$ è calcolato come $Y_i=q+mx_i$ (in questo caso, x varia da 1 a 8).
Vi ringrazio per l'aiuto e i consigli.
"tommik":
$R^2=(nSigmaxy-SigmaxSigmay)^2/((nSigmax^2-(Sigmax)^2)(nSigmay^2-(Sigmay)^2))$
sicuramente c'è qualche cosa che non quadra...sia nei tuoi calcoli che nel risultato del testo.
Applicando la formula che ti ho indicato ieri (che è effettivamente molto comoda quando hai note le somme e le somme dei quadrati, e che comunque ho ricavato semplicemente manipolando la formula $R^2=(cov^2(X,Y))/(V(X)V(Y))$ )
ottieni subito $R^2=(8*1980-36*455)^2/((8*204-36^2)(8*28829-455^2))=0.0368$
...ed anche con un qualunque foglio elettronico (io ho usato Excel) trovi lo stesso risultato

ciao
Ti ringrazio moltissimo, tommik. Avevo provato a svolgere i calcoli più volte, ma non riuscivo per l'appunto a darmi una spiegazione di tali risultati.