Differenza statisticamente rilevante?

armamichi
Sono un neo-iscritto, non sono uno studente in cerca di soluzioni per qualche esame che non ho preparato ma nonostante questo... sono ugualmente in cerca di una soluzione.
Mi permetto di disturbarvi per proporvi il mio problema, sperando possa suscitare interesse e curiosità e serva magari per approfondire qualche discorso interessante.

Sono un tecnico informatico self-made, creo (fin dove i miei limiti me lo consentono) qualche soluzione personalizzata per la ditta in cui lavoro. Il problema che non riesco a risolvere è legato ad una valutazione statistica, campo in cui la mia ignoranza è più sconfinata che mai.

Ho un database di 15000 record, ognuno dei quali restituisce sempre 3 valori: max, med, min.
Ogni volta, ovviamente, i tre valori cambiano in base ai dati che vengono inseriti prima del test.
Il cliente mi ha chiesto di:
a) trovare una soluzione per visualizzare i test che restituiscono valori simili (tutt'e tre contemporaneamente, con uno scarto - ipotesi - del 0,5% in più o in meno);
b) valutare se il numero di test simili trovati per ognuna delle tre varianti sia significativamente diverso dagli altri.

Mi spiego in cifre con un esempio veloce:
Esempio: il test n. 13287 è simile ad altri
39 test
con simili valori iniziali immessi (uguali o simili con uno scarto del 0,5%)

Di questi 39:
15 test hanno dato esito MAX
6 test hanno dato esito MEDIO
18 test hanno dato esito MIN

Mi viene chiesto di valutare se la differenza (in questo caso) tra MAX e MIN (scarto di 3) sia statisticamente rilevante oppure no.
Ripeto: questo è un esempio tra tanti.
Di volta in volta il numero dei test SIMILI (nell’esempio: 39) cambia, così come cambiano i valori dei dati Max, Med, Min.

Ho provato a cercar di capire se il test t Student o il ChiQuadro (Yates) potessero essermi d'aiuto, ma tutti gli esempi che ho trovato prevedevano tabelle 2x2 che nel mio caso non saprei proprio come ricreare.

Vi ringrazio in anticipo per qualsiasi risposta.
Spero possiate aiutarmi, non so più dove sbattere la testa.

Ciao a tutti, buona serata.

Risposte
armamichi
sigh... non ho stuzzicato la curiosità di nessuno? oppure ho sbagliato a porre il problema? (giusto per sapere se sperare in una risposta oppure no, giuro che non è per metter fretta... essendo il mio primo messaggio ho sempre paura di aver sbagliato)

Faussone
Ciao,

non sono un esperto (infatti qui rispondo molto raramente), ma ti posso dare uno spunto, magari poi qualcun'altro ti darà la risposta completa e precisa.

Nell'esempio che hai fatto devi chiederti quale sia la probabilità che lanciando un dado a tre facce 39 volte, lo scarto tra le volte che esce la prima faccia e la seconda (o due qualunque a scelta) sia maggiore di 3, più piccolo è questo valore di probabilità, più sarà significativa la differenza (normalmente si considerano significative probabilità minori del 5%.
Non ho idea di quanto il calcolo sia complesso (con uno scarto di 3 e 39 valori probabilmente lo scarto non sarà significativo).

armamichi
:oops:
ti ringrazio per la risposta e per il suggerimento...
la mia ignoranza sicuramente non mi permette di provare ad addentrarmi anche nel discorso "probabilità” (giuro, non ci capirei niente, lo so...)
non immagini quanta fatica abbia fatto a trovare (e capire :lol: ) online un esempio simile a mio problema, ma alla fine ho trovato questo (riporto un mp che ho inviato qui sul forum)

Da tutto il database di 15000 test di cui parlavo, immaginate che io estragga una serie di test simili tra loro, riassumibili più o meno così:
da un campione di 60 pazienti a cui sono stati sottoposti due farmaci che si differenziano di composizione solo per lo 0,5% di principi attivi

25 di loro risultano positivi ad una verifica per controllare l'efficacia;
22 di loro risultano "dubbi";
13 risultano negativi.

Volevo sapere quale formula usare per stabilire che la differenza tra 25 e 22 sia statisticamente rilevante (così da rendermi conto se considerare o ignorare quei 22 pazienti nel mio conteggio di possibili risultati positivi).

Io per ora ho provato a risolverla così (non so scrivere le formule come usate voi sul forum, spero di riuscire a spiegarmi ugualmente):

$(( 25 / 60) - ( 22 / 60)) / \sqrt((25 + 22) / (60 * 2) * (1 - (25 + 22) / (60 * 2)) * ((1/2) + (1/2)))$

(che dovrebbe essere il test sulla Differenza Normale di Percentuali, giusto?)

Se questo test mi restituisce un risultato < 2,326, allora vuol dire che non c'è sostanziale differenza tra i risultati dei 25 e dei 22 pazienti.

Nella remota ipotesi che questa formula sia giusta, non so come comportarmi quando il totale dei pazienti n < 30 (mi sembra di aver letto che cambia sia la formula che il termine di riferimento).


ATTENZIONE: questo è SOLO un esempio. Il lavoro che sto facendo NON RIGUARDA farmaci e cose così importanti, quindi sentitevi pure liberi di consigliarmi e suggerirmi qualsiasi metodo, non avrete responsabilità di nessun tipo...

superpippone
Ciao.
Io non sono in grado di aiutarti.
Per quanto riguarda le formule metti un simbolo del dollaro all'inizio ed alla fine.
Per scrivere radice quadrata scrivi sqrt. Ad esempio radice quadrata di 2 = sqrt2 $sqrt2$ (dentro i simboli del dollaro)

armamichi
@ Faussone... più rileggo la tua risposta più son convinto d’aver, finora, totalmente sbagliato strada...

In effetti, nel mio caso, il fatto che esca un risultato piuttosto che un altro corrisponde anche al fatto che il primo esclude l’altro (quindi "probabilità condizionata", giusto? quindi Bayes, giusto?)

Dovrei procedere in questo modo: (chiedo di nuovo scusa per le formule, ho notato la gentilezza di un moderatore che ha aggiustato quelle precedenti, ma provando a seguire il consiglio del simbolo dollaro ho paura d’aver fatto di nuovo casino...)

Calcolo la differenza tra due valori
DELTA = | x1 - x2 | (valore assoluto)

Errore su differenza = Sdiff = RadiceQuadrata di Margine1^2 + Margine2^2

Rapporto = t = Delta / Sdiff = | x1 - x2 | / RadiceQuadrata di Margine1^2 + Margine2^2

Calcolare la probabilità (non so come si fa...)

Calcolo il complementare della probabilità = 100 - P(t)

In genere due misure si considerano compatibili se CL>5% (credo si riferisca al Complementare della probabilità, ma non sono sicuro) non compatibili se CL <0.3%

(non ricordo dove ho trovato questi appunti, li propongo solo per capire se questa potrebbe essere la strada giusta)

Faussone
Non credo che la probabilità condizionata serva in questo caso.

Un approccio possibile, che presuppone la stessa filosofia di quello che dicevo prima (cioè calcolare la probabilità che il risultato ottenuto sia dovuto al caso, che in statistica si chiama ipotesi nulla) è fare un test del chi quadro, nel modo seguente.

Supponiamo che nella tua popolazione di 39 hai questi risultati

Numero di A 18
Numero di B 12
Numero di C 9

Abbiamo allora da calcolare quale sia la probabilità che da una popolazione di 39 si possano ottenere quei valori per A B e C, sapendo che i valori attesi sarebbero per A B e C pari a 13.

La variabile
$\chi^2= (18-13)^2/13+(12-13)^2/13+(9-13)^2/13=3.23$ dovrebbe seguire la distribuzione del Chi quadro con 2 gradi di libertà.

La probabilità di ottenere un valore più grande di 3.23, per una tale distribuzione è pari al 19,9%, pertanto quei valori di A B e C hanno una probabilità ancora molto alta di essere frutto del caso e quindi di non essere statisticamente significativi.

Se avessi avuto per A B e C invece 20, 12 e 7 rispettivamente otterrei una probabilità pari a 3,6% che tali risultati siano frutto del caso, quindi i risultati sarebbero statisticamente significativi.


Ripeto che non sono un esperto di statistica, ma solo un dilettante, nel senso letterale, quindi quello che ho scritto potrebbe non essere corretto al 100% (benché parlando di statistica nulla è corretto al 100% ;-) ).
Spero qualcuno corregga le cose sbagliate che posso aver scritto in caso.

armamichi
WOW!!!
Innanzitutto GRAZIE, GRAZIE, GRAZIE e ancora GRAZIE...
Domattina proverò subito questo tuo metodo, sono molto curioso.

Intanto, nel dubbio, vi propongo questo esempio, che mi sembra calzare a pennello:
UN PROFESSORE RACCONTA (http://www.ripmat.it/mate/l/lc/lcfaa.html)

Eravamo circa alla meta' degli anni 70 ed insegnavo matematica applicata ad un Istituto Tecnico Commerciale a Cagli.
Avevo una classe quarta molto intelligente, ma piuttosto svagata e poco disposta ad impegnarsi seriamente. Era un venerdi' di meta' marzo e cercavo di spiegare appunto le probabilita' ed i primi rudimenti di statistica. La classe non solo non mi seguiva, ma sembrava occupata in altre faccende: osservando con piu' attenzione mi sono accorto che l'impegno degli alunni era di compilare un pacco di schedine del totocalcio.
Sequestro le schede, faccio una paternale, e provo a riprendere l'argomento, ma mi accorgo che lo scrivere di nascosto le schedine continua.
Capisco che l'argomento teorico e' noioso e che sarebbe inutile insistere, mi viene un'idea: dico alla classe:
"Visto che volete fare la schedina, almeno facciamola con metodo statistico applicando la probabilita' soggettiva:
Lupini venga alla lavagna e scriva la prima partita.
Ora vi chiamero' uno per uno: se pensate che vinca la prima squadra Lupini fara' un segno sulla casella dell'uno se pensate che vinca la seconda il segno verra' fatto sulla casella del due. Se pensate ad un pareggio facciamo due segni, uno sull'uno e l'altro sul due.
Alla fine contiamo i segni e facciamo la percentuale fra i segni dell'uno e tutti i segni: se la percentuale e' superiore al 70% mettiamo 1, se e' inferiore al 30% mettiamo 2 e se invece e' compresa fra 40% e 60% mettiamo x; negli altri casi mettiamo entrambe i risultati (se ad esempio viene tra 30% e 40% mettiamo x 2, se viene tra 60% e 70% mettiamo 1 x)"


Domanda: con quale formula il professore decide di assegnare i segni 1, X, 2 alle scelte dei suoi allievi?
(in pratica, come stabilisce matematicamente i limiti di 70%, 40-60% e 30% ?
Nel caso le caselle 1 e 2 abbiano più o meno lo stesso numero di segni, come decidono se usare la doppia chance 12 o dare comunque la preferenza solo ad uno dei due segni?)

Vi ringrazio veramente di cuore per la pazienza che state dimostrando con un ignorante (nel vero senso della parola) come me e, ovviamente, ringrazio Faussone per l’ottimo suggerimento e per l’esauriente spiegazione.

Spero di non stressarvi troppo...

Faussone
"armamichi":
WOW!!!
Innanzitutto GRAZIE, GRAZIE, GRAZIE e ancora GRAZIE...
Domattina proverò subito questo tuo metodo, sono molto curioso.
[...]


Prego, comunque non sono affatto sicuro che sia tutto corretto. Spero qualcun'altro più esperto di me possa confermarne lo correttezza, o correggere in caso le cose non esatte.

PS. Nell'esempio fatto da te con frequenze 15, 6 e 18 si ottiene col metodo descritto una percentuale di circa il 5%, quindi quei risultati sarebbero statisticamente significativi.

armamichi
Sono le 5.40 di mattina... stanotte mi sarò svegliato 2 o 3 volte pensando al fatto che finalmente ho una linea guida "certificata" da seguire e migliorare...

in ogni caso, due piccoli dubbi:

1) mi sembrava d’aver letto da qualche parte che la formula semplice del $\chi^2$ vale quando
n>30 (dove n sta per totale dei campioni, ma questo voi matematici lo sapete già) e soprattutto
quando il più piccolo dei campioni è >5.
Nel caso di n<30, se non ricordo male, bisogna ricorrere al $\chi^2$ corretto Yates, giusto?
Finora nelle mie ricerche ho sempre fatto riferimento a questa spiegazione:
http://www.quadernodiepidemiologia.it/e ... hi_qua.htm
ma (purtroppo per me) qui si parla della formula in funzione di una tabella 2x2 (quindi usando 4 DATI e non 2 (il massimo e il medio) come nel mio caso). Come la adatto al mio caso?

2) per stabilire la significatività del risultato ottenuto dalla formula (di Faussone) si fa riferimento alla Distribuzione con 2 gradi di libertà.
(http://it.wikipedia.org/wiki/Distribuzione_chi_quadrato)
Non mi è chiaro, però, il discorso di come hai paragonato il risultato della formula $\chi^2$ con la tabella di distribuzione (nella mia ignoranza pensavo che se il calcolo mi avesse restituito un valore inferiore a 1.386 (che è il valore critico corrispondente a k=2 e alfa=0.5, dove 0,5 è lo scarto da cui io parto per cercare i test simili), allora le percentuali NON ERANO significativamente diverse, se invece ottenevo un valore superiore allora potevo considerarle statisticamente diverse.

Penso che risolti questi due piccoli dubbi non dovrei più stressarvi, e magari potrò ricominciare a dormire un po' di più :lol:

A questo punto non mi resta che sperare in ulteriori risposte e augurarvi buona giornata!

Faussone
Ciao.

su 1) non ho molto da dire.
Ho già spiegato il metodo che ho usato io.

Su 2) devi controllare il valore che ottieni per la probabilità cumulativa della distribuzione del $chi^2$ corrispondente almeno allo 0.95 (cioè probabilità di ottenere quei valori per caso del 5%), che a sua volta corrisponde ad un valore della variabile pari circa a 6 per due gradi di libertà. Valori maggiori di 6 quindi indicano una significatività, valori inferiori no.

Questo almeno è quello che credo io sia corretto.

armamichi
Ok, mi stampo tutto, lo rileggo frase per frase e spero di venirne a capo...
ovviamente aggiunte e miglioramenti (riguardanti il $Chi^2$ corretto Yates) sono ben accette.
Grazie ancora Faussone, per tutto quanto: spiegazioni, esempi, pazienza...

Buon proseguimento!

Rispondi
Per rispondere a questa discussione devi prima effettuare il login.