Confronto tra due serie di punti: trovare il miglior 'fit'

amivaleo
Ciao a tutti,

perdonate il titolo poco chiaro.
Conosco poco di statistica e non ne ho mai davvero approfondito gli argomenti dato che studio altro nel quale la statistica è un mezzo/strumento spesso trattato con una certa superficialità. Spero di poter comunque ricevere aiuto da voi.

Ho due istogrammi 'molto simili' con lo stesso binning. Il mio interesse è tutto nelle altezze dei bin, quindi posso 'fingere' di avere due serie di punti con le stesse ascisse:
${(x_i, y_i)}_i$ [grafico 'da modificare']
${(x_i, y_i^0)}_i$ [grafico 'di riferimento']

Il mio obiettivo: moltiplicare tutte le $y_i$ del grafico 'da modificare' per uno stesso fattore $k$, così da trovare quel $\tilde{k}$ che 'minimizza la distanza' del grafico 'da modificare' dal grafico 'di riferimento'.
Detto in maniera più semplificata: ho due grafici simili, ne tengo fisso uno, 'sposto' l'altro lungo l'asse delle coordinate fino a ridurre la distanza tra i due.


La mia difficoltà sta nel non riuscire a definire la figura di merito da ottimizzare, sebbene io stesso parli di 'distanza' tra i due grafici.
L'oggetto che ho preso in considerazione è il $\chi^2$ con questa definizione nel mio caso:
$\chi^2 = \sum_i \frac{(y_i*k - y_i^0)^2}{y_i^0}$

La mia richiesta diventa dunque trovare quel $\tilde{k}$ che lo minimizza, ossia trovare quel $\tilde{k}$ per cui $\frac{d \chi^2}{dk} (\tilde{k})= 0$.
Questo approccio produce un certo $\tilde{k}$, mi chiedo però perché dividere per $y_i^0$ dando così un peso diverso alle $y_i^0$ piccole.

Ho dunque considerato quest'altra 'figura di merito': $\tilde{\chi}^2 = \sum_i (y_i*k - y_i^0)^2$.
Questa tratta tutte le coordinate in maniera equivalente e produce quindi un diverso $\tilde{k}$.


Ritengo che il secondo approccio sia ciò che voglio, tuttavia non ho alcun riferimento teorico che mi dica se sto facendo o meno una sciocchezza.
Chiedo a voi dunque quale approccio usereste, se uno dei due che ho indicato o un altro ancora. Io ritengo il mio secondo approccio 'robusto' e adeguato alla mia esigenza, ma potrei prendere una cantonata... :(

Risposte
amivaleo
Ciò che non ho detto e che può aiutare a capire:
I due 'grafici' vengono generati da due diverse simulazioni. Una delle due è quella che so essere 'corretta' e, quindi, 'di riferimento'. L'altra funziona in maniera diversa ma deve produrre indipendentemente dei risultati comparabili.

Il confronto tra i due grafici serve per determinare una variabile nella seconda simulazione. Questa variabile è, in sostanza, proprio questo $\hat{k}$.
L'idea è che se questa variabile viene determinata correttamente (e quindi i due grafici di cui sopra sono il più 'simili' possibile), anche la seconda simulazione diventa sufficientemente attendibile.

Non ho la libertà di modificare la forma del secondo grafico, quello 'da modificare', ma solo di farlo traslare rigidamente lungo l'asse y tramite questo fattore moltiplicativo $k$.
Il secondo approccio che ho usato è, di fatto, cercare il minimo di una somma di quadrati (quindi: calcolo dei minimi quadrati). A questo nome io in genere collego solo la ricerca dei coefficienti di una funzione di interpolazione, come hai appunto scritto.
Nel mio caso la funzione di interpolazione $f(x)$ è il grafico 'da modificare', noto a meno di un coefficiente moltiplicativo $k$: $k f(x)$.

Tutto questo mi convince ancora di più che il secondo approccio sia quello da usare in questo caso.

Rispondi
Per rispondere a questa discussione devi prima effettuare il login.