Aiuto Urgente: Interpolazione lineare?Stimatore lineare?

r1chard
Ciao, devo fare una tesina di statistica+informatica (l'esame si chiama così). Mi viene data una lista di dati pluviometrici (pioggia giornaliera nel corso di un anno), in cui ci sono una serie di giorni dove le varie stazioni non hanno registrato nulla. Devo fare in modo di stimare i valori in tali giorni in cui non è avvenuta la registrazione utilizzando i metodi di Interpolazione Lineare e Stimatore Lineare. Non ho la minima idea di come si possa fare :oops: In effetti mi è anche venuto il dubbio che sia una cosa fattibile con i dati che devo trattare. Se mi dite come fare ad allegare un file al messaggio, vi posto i dati su cui devo lavorare, in formato excel perchè capisco che spiegarlo così non è molto chiaro quello che devo fare :-D
Spero possiate aiutarmi, siete la mia ultima chance :wink:

Allego, in alternativa due screenshot dei dati. E' un pò lento a caricare...

I parte

II parte

Risposte
r1chard
up!! Raga vi prego datemi una mano!!! :( :(

itpareid
prova con il metodo dei minimi quadrati...

r1chard
"itpareid":
prova con il metodo dei minimi quadrati...


Grazie per avermi risposto! Ho dato uno sguardo in rete, ma non ho capito come applicare il criterio dei minimi quadrati al mio problema. Potresti farmi un esempio? Che formula devo utilizzare?Grazie :wink:

itpareid
mah, se usi excel (come mi sembra di aver capito) dovresti trovare diversi esempi sul web

r1chard
uso excel solo per riportare i dati in tabella. Ho bisogno di sapere come calcolare i valori ignoti. Mi serve proprio la formula e il procedimento, poichè devo immetterli in un programma java che svolge il calcolo. Potresti dirmi che formula useresti? Grazie...

itpareid

r1chard
Mi vergogno un pò a dirlo, ma non sono riuscito ad applicare i metodi da voi proposti al mio caso. Potreste indicarmi passo dopo passo come devo fare ad applicare quelle formule ai miei dati? Grazie mille!

itpareid
scusami, ma non costuma più andare a ricevimento dai professori?

r1chard
"itpareid":
scusami, ma non costuma più andare a ricevimento dai professori?


normalmente si, ma questo prof. ha seri problemi nel relazionarsi con gli studenti. Ha un pessimo carattere, intrattabile e scarsamente d'aiuto. Già due volte ho chiesto delucidazioni al riguardo e mi ha risposto che avrei risolto il problema solo studiando la teoria. Ma mi chiedo: se è proprio nella comprensione della teoria che ho problemi, come pensa che possa superare l'ostacolo senza una dettagliata spiegazione? Ecco perchè non vado al ricevimento. Spero a questo punto, nel vostro aiuto. Grazie.

cenzo1
Ciao, scrivo alcune riflessioni (magari sbagliate), non so se possono tornarti utili..

1) Un buon metodo per ricostuire i dati mancanti potrebbe essere quello di utilizzare i dati relativi a stazioni pluviometriche vicine (entro un certo raggio) pesate in modo inverso alla distanza (al quadrato?) - semprechè tu abbia questi altri dati (relativi agli stessi giorni).

In mancanza di tali dati che fare? Propongo altre soluzioni, ma sono convinto che non siano altrettanto "affidabili":

2) Potresti basarti sulla media del mese in cui mancano i dati. Cioè, nelle caselle con dato mancante, ci metti sempre lo stesso valore, quello della media del mese in cui il dato mancante è compreso. Media da calcolare sui giorni effettivi in cui il dato è presente.
Se però hai pochi dati relativi al mese, corri un rischio molto elevato di sottostimare o sovrastimare abbondantemente la stima dei dati mancanti (pensa ad esempio se hai un solo dato del mese senza pioggia, oppure con un temporale).

3) Fare una interpolazione lineare tra l'ultimo dato presente prima del "buco" (dati mancanti) e il primo dato presente dopo il "buco" sinceramente mi sembra una cosa senza logica. Chi ci dice che la pioggia è aumentata linearmente da 0mm a 9,6 mm ? (mi riferisco alla seconda figura).
Comunque, volendo fare una intepolazione lineare tra $a$ (ultimo dato presente prima del buco) e $b$ (primo dato presente dopo il buco), potresti utilizzare la formula $a+(b-a)/n*k$ dove $k=1...n-1$ rappresenta il progressivo dei giorni mancanti.
Però ribadisco che in questo caso mi sembra una cosa senza senso.

r1chard
"cenzo":
Ciao, scrivo alcune riflessioni (magari sbagliate), non so se possono tornarti utili..

1) Un buon metodo per ricostuire i dati mancanti potrebbe essere quello di utilizzare i dati relativi a stazioni pluviometriche vicine (entro un certo raggio) pesate in modo inverso alla distanza (al quadrato?) - semprechè tu abbia questi altri dati (relativi agli stessi giorni).

In mancanza di tali dati che fare? Propongo altre soluzioni, ma sono convinto che non siano altrettanto "affidabili":

2) Potresti basarti sulla media del mese in cui mancano i dati. Cioè, nelle caselle con dato mancante, ci metti sempre lo stesso valore, quello della media del mese in cui il dato mancante è compreso. Media da calcolare sui giorni effettivi in cui il dato è presente.
Se però hai pochi dati relativi al mese, corri un rischio molto elevato di sottostimare o sovrastimare abbondantemente la stima dei dati mancanti (pensa ad esempio se hai un solo dato del mese senza pioggia, oppure con un temporale).

3) Fare una interpolazione lineare tra l'ultimo dato presente prima del "buco" (dati mancanti) e il primo dato presente dopo il "buco" sinceramente mi sembra una cosa senza logica. Chi ci dice che la pioggia è aumentata linearmente da 0mm a 9,6 mm ? (mi riferisco alla seconda figura).
Comunque, volendo fare una intepolazione lineare tra $a$ (ultimo dato presente prima del buco) e $b$ (primo dato presente dopo il buco), potresti utilizzare la formula $a+(b-a)/n*k$ dove $k=1...n-1$ rappresenta il progressivo dei giorni mancanti.
Però ribadisco che in questo caso mi sembra una cosa senza senso.


Innanzitutto grazie per la risposta. Riguardo al punto 1) i dati sono quelli che ho elencato. Non ne ho altri, e devo lavorare su quelli.

3) in effetti non è logico! Però un altro gruppo di studenti ha presentato lo stesso tipo di lavoro, con la differenza che invece di lavorare su dati pluviometrici, avevano dati relativi alla concentrazione di inquinanti nell'aria. Anche nella loro serie c'erano dei buchi e hanno utilizzato il metodo dello stimatore lineare e quello dell'interpolazione lineare per stimare le concentrazioni incognite. Infatti il loro obbiettivo era mostrare se c'erano evidenti differenze nei risultati ottenuti applicando l'uno o l'altro metodo. Quindi non c'è differenza tra quello che devo fare io e quello che hanno fatto loro. Cambia solo la tipologia di dati, non il procedimento. Ecco uno stralcio del lavoro da loro presentato, per farti capire:

Per la realizzazione di questo progetto ci siamo interessati a una serie di dati giornalieri, relativi alla concentrazione di alcuni inquinanti rilevate nel comune di Rieti nell’anno 2008. Gli inquinanti che siamo andati a studiare sono:
- Monossido di carbonio;
- Ozono;
- Benzene;
- Ossidi di azoto ( NO e NO2);
- Biossido di zolfo.
Nella serie di dati da noi recuperati, attraverso il sito dell’ARPA (Agenzia Regionale Prevenzione e Ambiente) della regione Lazio, c’èrano una serie di dati mancanti (una 20ina circa per ogni inquinante).
Ognuno di questi inquinanti può avere un effetto dannoso sia sulla salute umana che sugli ecosistemi. Per prevenire questi effetti nocivi si cerca di mantenere la concentrazione di questi inquinanti in aria al di sotto di una certa soglia.
Nel calcolare le medie annue di questi inquinanto si deve però tenere conto anche del fatto che alcuni dati mancano, che ci sono dei buchi. A questo punto nasce quindi spontanea una domanda: come cambierebbero le medie se avessimo a disposizione tutti i dati?
Questo progetto nasce proprio come risposta a questa domanda; abbiamo cercato attraverso due metodi diversi di ricavare l’ipotetico andamento delle concentrazioni negli intervalli in cui i dati non sono stati rilevati.
Andremo poi a stimare come e di quanto variano le medie se teniamo in considerazione anche i dati ipotetici.

Risoluzione generale

Come detto in precedenza per studiare l’andamento ipotetico dei dati mancanti abbiamo usato due metodi di stima : l’interpolazione lineare e lo stimatore lineare.
a) Per interpolazione lineare si intende un metodo per individuare nuovi punti del piano cartesiano a partire da un insieme finito di punti dati, nell’ipotesi che tutti i punti si possano riferire ad una funziona f(x) di una data famiglia di funzioni di una variabile reale.
Per ricavare, attraverso interpolazione lineare, il valore f(x), incognito, corrispondente ad un determinato x, compreso tra dua valori x1 e x2 ( con x1
f(x)= f(x1) + ( f(x2) – f(x1)) * ( x - x1) / (x2 - x1).


b) Utilizzando uno stimatore lineare, posso ricostruire l’andamento dei valori mancanti, tenendo conto di come si distribuiscono i valori vicini alle mie incognite.
Per cui il mio valore incognito f(x) posso calcolarlo come combinazione lineare dei valori noti adiacenti moltiplicati per un coefficiente λ detto peso:

f(x) = ∑α λ α * t(x α) con α = 1,2, .... ,n

Nel nostro caso abbiamo deciso di pesare la combinazione secondo l’inverso della distanza:

λ= k * ( 1/ d(x α – x))

Una condizione obbligatoria sarà che i pesi dovranno assumere dei valori tali per cui valga sempre l’uguaglianza

∑α λ α = 1

Il coefficiente di proporzionalità k l’abbiamo calcolato come l’inverso della somma delle distanze:

k = 1/( ∑ d ( x α – x))

Andiamo ora a considerare i singoli casi, descrivendo prima per ognuni di essi le statistiche elementari ( media, valore massimo, valore minimo, varianza), poi andando a stimare i valori mancanti.


La mia intenzione è operare esattamente allo stesso modo, con la differenza di maneggiare dati pluviometrici al posto dei dati sugli inquinanti. Il prof. ha accettato il lavoro, quindi il ragionamento funziona. Però io proprio non riesco a capire come hanno fatto ad applicare i due metodi ai dati in loro possesso :oops: Il procedimento non viene da loro illustrato, e non ho modo di conttarli per chiedere spiegazioni. Mi scuso per la lunghezza di questo post, ma sono veramente alla frutta :cry: Grazie.

cenzo1
"r1chard":
[quote="cenzo"]
Comunque, volendo fare una intepolazione lineare tra $a$ (ultimo dato presente prima del buco) e $b$ (primo dato presente dopo il buco), potresti utilizzare la formula $a+(b-a)/n*k$ dove $k=1...n-1$ rappresenta il progressivo dei giorni mancanti.
Però ribadisco che in questo caso mi sembra una cosa senza senso.


a) Per interpolazione lineare si intende un metodo per individuare nuovi punti del piano cartesiano a partire da un insieme finito di punti dati, nell’ipotesi che tutti i punti si possano riferire ad una funziona f(x) di una data famiglia di funzioni di una variabile reale.
Per ricavare, attraverso interpolazione lineare, il valore f(x), incognito, corrispondente ad un determinato x, compreso tra dua valori x1 e x2 ( con x1
f(x)= f(x1) + ( f(x2) – f(x1)) * ( x - x1) / (x2 - x1).[/quote]
Non è altro che la formula che avevo indicato al precedente punto 3)

"r1chard":

b) Utilizzando uno stimatore lineare, posso ricostruire l’andamento dei valori mancanti, tenendo conto di come si distribuiscono i valori vicini alle mie incognite.
Per cui il mio valore incognito f(x) posso calcolarlo come combinazione lineare dei valori noti adiacenti moltiplicati per un coefficiente λ detto peso:

f(x) = ∑α λ α * t(x α) con α = 1,2, .... ,n

Nel nostro caso abbiamo deciso di pesare la combinazione secondo l’inverso della distanza:

λ= k * ( 1/ d(x α – x))

Una condizione obbligatoria sarà che i pesi dovranno assumere dei valori tali per cui valga sempre l’uguaglianza

∑α λ α = 1

Il coefficiente di proporzionalità k l’abbiamo calcolato come l’inverso della somma delle distanze:

k = 1/( ∑ d ( x α – x))

Andiamo ora a considerare i singoli casi, descrivendo prima per ognuni di essi le statistiche elementari ( media, valore massimo, valore minimo, varianza), poi andando a stimare i valori mancanti.


Quest'altra tecnica mi sembra la media mobile ponderata.
Devi poi decidere il valore di $n$, cioè dei periodi che hanno influenza sul dato attuale.

Ti ricordo che in questo modo ci "inventiamo" dei numeri nei buchi che non hanno -secondo me- nessuna aderenza alla realtà (nel contesto del problema pluviometrico assegnato).

Rispondi
Per rispondere a questa discussione devi prima effettuare il login.