Gaussiana, test di fitting per una serie di dati, chi2 ed excel

Pelike
salve a tutti,
Avrei bisogno di qualche informazione.
Purtroppo nel mio percorso di studi non ho mai avuto modo di affrontare l'argomento e mi ritrovo a dover cimentarmi con questo tema da autodidatta.

Ho una serie di misure sperimentali e vorrei vedere se la distribuzione dei dati è assimilabile ad una gaussiana.
Se non ho capito male è dovrebbe essere possibile effetuare il test chi quadro per verificare se effettivamente la distribuzione gaussiana è una buona curva rappresentativa.
Vorrei qualche conferma e/o correzione in merito alla procedura pratica per fare questa verifica. Ho fatto un excel, adesso descrivo un po quello che ho fatto, poi nel file c'è tutto cmq.

Al momento ho solo una decina di dati, in realtà me ne sto ottenendo altri e alla fine dovrei averne almeno una trentina.
Fingiamo che i dati siano
27.17
27.42
27.38
27.61
27.48
27.35
27.58
27.39
27.50... ripeto i dati 2 volte
...27.17
27.42
27.38
27.61
27.48
27.35
27.58
27.39
27.50...
...27.17
27.42
27.38
27.61
27.48
27.35
27.58
27.39
27.50
27.19


Da questi dati si calcola media e sqm e inoltre ho costruito l'istogramma delle frequenze, assumendo 13 classi.
Media Deviazione standard
27.407 0.140
Le classi sono state scelte con valore centrale:
Valore centrale

In questo modo è possibile catalogare le frequenze empiriche dei dati nelle classi
Frequenze empiriche [-]

ed ottenere le frequenze specifiche dei dati
Frequenze specifiche [%]

A qeusto punto è possibile introdurre la funziona gaussiana calcolata per la media dei dati empirici, lo sqm e valutata in corrispondenza del valore centrale di ciascuna classe, ottenendo i valori:
Valore Gaussiano per dato centrale alla classe

Poi ho calcolato il rapporto fra questi ultimi valori e la somma dei valori del vettore precedente
%

Ora,moltiplicando il numero totale dei dati, 30, per questi valori % si ottengono le occorrenze teoriche
Occorrenze teoriche

che devono essere confrontate col le occorrenze sperimentali (le frequenze empiriche di sopra)
Occorrenze sperimentali

Sempre se tutto quello che ho fatto fin'ora è corretto, io mi calcolo il valore di chi ottenuto ai dati sperimentali facendo per ciascuna classe
(occorrenza teorica - occorreza sperimentale)^2/occorenza teorica
e sommando su tutte le classi trovo il valore di chi sperimentale
χ sperimentale

Ora per vedere se la gaussiana è una buona approssimazione dovrei confrontare questo valore col chi teorico calcolato dal livello di significatività e dal grado di liberta. Se non sbaglio, facendo il calcolo con excel si impiega la funzione INV.CHI.
nel mio caso il numero di GDL è =10, cioè pari al numero delle classi (13) -3.
Relativamente al vaore di probabilità richiesta non ho capito bene a cosa si riferisce.
In teoria all'inizio di tutto quello che ho spoegato viene fatta l'ipotesi H0 ovvero quella secondo la quale la distibuzione di dati empirica e quella teorica che deriva dalla gaussiana appartengano alla stessa popolazione, quindi che la distribuzione dei miei risultati sia di tipo gaussiano.
poi ci sono due tipi di errore, E di tipo 1, secondo il quale rigetto un'ipotesi che andrebbe accettata e un E di tipo 2 secondo il quale accetto un'ipotesi che andrebbe rigettata.
Il livello di significatività dovrebbe essere la probabilità massima con cui accetto di rischiare un errore di tipo I ( e di solito può essere assunto il valore di 0.01 o 0.05).
Ora, il valore di probabilità (primo input) che mi viene richiesto dalla funzione inv.chi (che mi dovrebbe calcolare il chi teorico) è il valore 0.01 (o in alternativa 0.05)?
Se si e se riesco a calcolare chi2 teorico, lo confronto con chi quadro empirico e se chi2 teorico è maggiore di chi2 empirico l'ipotesi 0 è accettata, giusto? Cioè la mia serie di dati è approssimabile con la gaussiana, per il definito livello di significatività se la Xteorica è> della Xsperimentale?
Lo svolgimento dell'analisi e del test è corretto se effetuato in questo modo?

Allego anche un excel,
Sperando di non aver detto troppe scemenze, mi potreste confermare se ho capito bene oppure ho commesso qualche errore da qualche parte?

Un saluto

Risposte
garnak.olegovitc1
@Pelike,
1° - per semplice curiosità, quale esperimento o sistema fisico stai affrontando?
2° -
"Pelike":

Ora per vedere se la gaussiana è una buona approssimazione dovrei confrontare questo valore col chi teorico calcolato dal livello di significatività e dal grado di liberta. [...]
mmmm :? , non capisco quale sia il tuo preciso dubbio.. comunque il chi-quadro usato nel valutare l'accordo tra una distribuzione limite/teorica ed una sperimentale è in formule, avendo \(T=\mathbf{set}\text{ degli intervalli}\): $$\chi^2=\sum_{k \in T}\left( \frac{O_k-E_k}{\sqrt{E_k}}\right )^2$$ mentre il chi-quadro ridotto è in formule $$\tilde{\chi}^2_o=\frac{\chi^2}{d=n-c}$$
- \(n=\text{numero di intervalli}\) e \(c=\text{numero di vincoli}\) e \(d \geq 1\);
- \(O_k\) è il numero di misure che cadono nell'intervallo \(k-\text{esimo}\)
- \( E_k\) è \(N \cdot \mathcal{P}(\text{entro l'intevallo } k-\text{esimo})\) con \(N=\sum_{k \in T}O_k\)
Tutto può essere a calcolato anche mano, senza excel (basta usare le tabelle, la calcolatrice, qualcosa di teoria, e suddividere gli intervalli in modo opportuno :roll: )...
"Pelike":
lo confronto con chi quadro empirico e se chi2 teorico è maggiore di chi2 empirico l'ipotesi 0 è accettata, giusto? Cioè la mia serie di dati è approssimabile con la gaussiana, per il definito livello di significatività se la Xteorica è> della Xsperimentale?
detto così non mi convince molto :?, per quantificare l'accordo si procede al calcolo tramite apposita tabella della probabilità $$\mathcal{P}_d(\tilde{\chi}^2\geq \tilde{\chi}^2_o)\%$$ e scegliendo un limite/livello d'accettabilità/di significatività pari ad esempio al \( 5\%\) si sostiene che
- se \(\mathcal{P}_d(\tilde{\chi}^2\geq \tilde{\chi}^2_o)\% < 5\%\) allora vi è motivo di dubitare dell'accordo che si è fatto nell'ipotesi
- se \(\mathcal{P}_d(\tilde{\chi}^2\geq \tilde{\chi}^2_o)\% > 5\%\) allora non vi è motivo di dubitare dell'accordo che si è fatto nell'ipotesi
Puoi scegliere anche un limite pari al \( 1\%\) e avere un (dis)accordo altamente significativo ;-)
Spero di aver chiarito i tuoi dubbi...
Un consiglio che mi sento di darti, approssima bene i tuoi dati (non tanto le probabilità, quelle puoi troncarle :wink: )...
Per maggiori dettagli consulta il testo: "An Introduction to Error Analysis: The Study of Uncertainties in Physical Measurements by J. R.Taylor"

[ot]Thanks hamming_burst ;-)[/ot]

Pelike
Grazie della gentile risposta.
Scusate se sono stato un (bel) po' disordinato ma solo alla fine del messaggio mi è venuto in mente che forse era meglio postare l'excel anzichè descrivere tutto a parole.

I dati sono dei quantitativi energetici che escono da un programma in cui sono implicati algoritmi stocastici. In pratica ad ogni run mi esce un risultato diverso e mi interessava vedere se la distribuzione potrebbe essere associata ad una gaussiana. Non è essenziale, ma per curiosità e per imparare qualcosa di nuovo allora volevo provare a cimentarmi in questa cosa. Ovviamente non avendo mai affrontato l'argomento a livello accademico volevo qualche dritta sul caso pratico.

Non ho capito una cosa... Supponiamo che abbia calcolato il chi ^2 dai miei dati secondo la relazione ... forse mi sfugge come si quantifica effettivamente l'accordo, cioè quei passaggini banali che mi fanno dire se una la gaussiana è buona o meno.

chi^2=17.65 (valore che al momento mi verrebbe fuori)

Poi mi sembra che tu mi abbia detto che, fissato un limite di accettabilità, facciamo il 5%,
dovrei calcolare la \( \mathcal{P}(\tilde{\chi}^2\geq \tilde{\chi_o}^2)\% < 5\% \) tramite opportuna tabella.
Per la tabella ho trovato una cosa del genere... http://users.unimi.it/masc/pdf/distrib_chi2.pdf nella quale entro, sicuramente con il numero dei gradi di libertà che nel mio caso sono 10 e poi il limite di accettabilità se non sbaglio, 0.05. Per la coppia trovo 18.31. Poi mi perdo un po'... aiutino? :)

garnak.olegovitc1
"Pelike":

Non ho capito una cosa... Supponiamo che abbia calcolato il \(\chi ^2\) dai miei dati secondo la relazione ... forse mi sfugge come si quantifica effettivamente l'accordo, cioè quei passaggini banali che mi fanno dire se una la gaussiana è buona o meno.
\(\chi^2=17.65\) (valore che al momento mi verrebbe fuori)
Poi mi sembra che tu mi abbia detto che, fissato un limite di accettabilità, facciamo il 5%,
dovrei calcolare la \( \mathcal{P}(\tilde{\chi}^2\geq \tilde{\chi_o}^2)\% < 5\% \) tramite opportuna tabella.
Per la tabella ho trovato una cosa del genere... http://users.unimi.it/masc/pdf/distrib_chi2.pdf nella quale entro, sicuramente con il numero dei gradi di libertà che nel mio caso sono 10 e poi il limite di accettabilità se non sbaglio, 0.05. Per la coppia trovo 18.31. Poi mi perdo un po'... aiutino? :)

tu hai \( \chi^2=17,65\), e avendo \(d=10\), allora \( \tilde{\chi}^2_o=\frac{17,65}{10}=1,765\), la tabella che uso viene direttamente dal testo :roll: che ti ho citato prima ed è:


nel tuo caso fissi nella prima colonna il valore \(d=10\) e cercando nella prima riga il valore \( \tilde{\chi}^2=1,765\) noterai che $$5,5\%<\mathcal{P}_d( \tilde{\chi}^2\geq \tilde{\chi}^2_o)\%<10\%$$ e ovviamente \(\mathcal{P}_d( \tilde{\chi}^2\geq \tilde{\chi}^2_o)\% >5\%\) (e anche dell' \(1\%\)), ergo a quel livello vi è l'accordo ipotizzato..
Il limite di accettabilità è opinabile, può essere scelto anche diverso da \(5\%\) e \( 1\%\)

Pelike
Grazie Gornak ora è tutto più chiaro!
Non mancherò di dare una bella letta al testo.
Grazie anche per quello

Un saluto!

garnak.olegovitc1
"Pelike":
Grazie Gornak ora è tutto più chiaro!
Non mancherò di dare una bella letta al testo.
Grazie anche per quello
Un saluto!
è Garnak... :-D prego, spulciando online dovresti trovare anche quello in lingua italiana anche se l'inglese rende meglio :-)
Saluti

Pelike
Scusate ma torno un attimino sull'argomento con un paio di domande.
Il livello di accettabilità che viene fissato prima del test cosa mi identifica in concreto?
Se non ho capito male dovrebbe dirmi la probabilità con la quale accetto di commettere un errore di tipo 1, cioè di accettare un'ipotesi HO (cioè i dati che ho ottenuto sono assimilabili alla gaussiana di media e scarto definiti dai dati stessi)... cioè in pratica, è come se mi dicesse: fatti il tuo test ma tieni presente che hai una probabilità di sbagliare tutto, a prescindere dall'esito del test, pari al livello di accettabilità?

Dopodichè, assodato questo pirmo punto, quando vedo fra quali limiti si attesta $ \mathcal{P}(\tilde{\chi}^2\geq \tilde{\chi_o}^2)\ %\ $ basta solo che il limite di probabilità minore sia maggiore del limite di accettabilità per poter dire serenamente i dati empirici sono di tipo gaussiano?

Grazie!

garnak.olegovitc1
"Pelike":

Il livello di accettabilità che viene fissato prima del test cosa mi identifica in concreto?
Se non ho capito male dovrebbe dirmi la probabilità con la quale accetto di commettere un errore di tipo 1, cioè di accettare un'ipotesi HO (cioè i dati che ho ottenuto sono assimilabili alla gaussiana di media e scarto definiti dai dati stessi)... cioè in pratica, è come se mi dicesse: fatti il tuo test ma tieni presente che hai una probabilità di sbagliare tutto, a prescindere dall'esito del test, pari al livello di accettabilità?

1°- che testo usi di statistica e analisi dei dati?
2°- ammetto che la questione va un pò oltre le mie conoscenze ergo spero di non dire cavolate, il livello di accettabilità \(\alpha\) è la probabilità (in percentuale) al di sotto della quale l'ipotesi nulla \(\mathcal{H}_0\) (considerata valida, "vera") è rigettata, nel nostro caso il rigetto dell'ipotesi nulla l'abbiamo fatto considerando un p-value avuto tramite un test (quello del \(\tilde{\chi}^2\)), in sostanza se il p-value è minore di \(\alpha\) allora \(\mathcal{H}_0\) è improbabile (a limite di \(\alpha\)), in caso contrario \(\mathcal{H}_0\) è probabile (a limite di \(\alpha\) ). In alcuni testi non si fissa alcun limite a priori e lo si deduce dalla tabella che avevi postato tu in qualche tua risposta precedente

Stessa cosa si fa nel quantificare quanto linearmente si distribuiscono \((x_i,y_i)\), \( i=1,2,...,N\), valutando il coefficiente di correlazione lineare \(r_o\) e \( \mathcal{P}_N(|r|\geq |r_o|)\) (ad un \(\alpha \in \{1\%, 5\%\}\))...

[ot]in fisica delle particelle invece è \( \alpha= 1 - \operatorname{erf}\left(\frac{\displaystyle n}{\displaystyle\sqrt{2}}\right)\) (con \( n\) tale che \(\mathcal{P}(\text{entro }n\sigma)\%\) è livello di confidenza associato al set di misure... )[/ot]

Pelike
Grazie garnak (:)) per la risposta.
Effetivamente ho notato che il test viene fatto (probabilemnte solo formalmente) in più modi. Oltre a quello che hai riportato e del quale ti ringrazio, ho trovato una dispensa in cui trovo che sia spiegato abbastanza chiaramente.
Dispensa
Effettivamente qui è riportato il test come lo descrivevo io nel mio primo post, anche se non ne avevo piena consapevolezza.
Inizialmente avevo fatto riferimento ad alcune pagine tratte da un testo usato da un conoscente per un corso di statistica che mi ha scansionato e passato e quadrano con quello appena riportato.
Il procedimento è un attimo diverso da quello che mi hai descritto, per quello facevo un po' di confusione.

Grazie ancora!

Rispondi
Per rispondere a questa discussione devi prima effettuare il login.