Studio statistica medica
Ciao a tutti!
Ho iniziato quest'anno un corso di statistica medica e ho un problema: devo simulare uno studio osservazionale analitico trasversale con 800 partorienti e dimostrare che vi è una correlazione tra l'etnia della gestante e il peso alla nascita del neonato; finchè si tratta di calcolare funzioni statistiche riguardanti i pesi per ogni etnia (media, moda, mediana, ds, es, ic) non ci sono problemi, ma poi il prof mi chiede come misurare l'associazione tra le due variabili, e non ne ho idea. qualcuno che può darmi una mano? grazie in anticipo!
Ho iniziato quest'anno un corso di statistica medica e ho un problema: devo simulare uno studio osservazionale analitico trasversale con 800 partorienti e dimostrare che vi è una correlazione tra l'etnia della gestante e il peso alla nascita del neonato; finchè si tratta di calcolare funzioni statistiche riguardanti i pesi per ogni etnia (media, moda, mediana, ds, es, ic) non ci sono problemi, ma poi il prof mi chiede come misurare l'associazione tra le due variabili, e non ne ho idea. qualcuno che può darmi una mano? grazie in anticipo!
Risposte
ci sono innumerevoli strade da percorrere...indicatori come $rho$, $rho^2$, $eta^2$, covarianza e modello di regressione....
posta i dati di esempio che te ne illustreremo alcune, magari non tutti e 800, fai un riassunto
...poi se ci dici che strumenti statistici conosci è meglio così riduciamo il campo degli strumenti e non ti confondiamo le idee
PS: magari puoi anche passare dalla sezione "Presentazioni"....
posta i dati di esempio che te ne illustreremo alcune, magari non tutti e 800, fai un riassunto

...poi se ci dici che strumenti statistici conosci è meglio così riduciamo il campo degli strumenti e non ti confondiamo le idee
PS: magari puoi anche passare dalla sezione "Presentazioni"....
Fatto!
Del campione iniziale sono rimaste 598 donne ripartite tra 70 ispaniche, 388 bianche non isp. 120 nere non isp e 20 asiatiche non isp. la media +- ds dei pesi dei neonati alla nascita (espressa in grammi) è rispettivamente: 3396,33 -+ 456,74 (ISP) 3524,97 -+481,42 (BNI), 3264,26 -+ 487,22 (NNI), 3509,73 +-374,03 (ANI)
Tendenzialmente dovrei conoscere tutti gli strumenti statistici, e se non li conosco è perchè il corso ancora non è finito, anche se le ore a disposizione son quel che sono e diciamo che il prof li ha citati tutti e fatti qualcuno. Ad esempio di quelli che hai detto tu non conosco solo il modello di regressione che credo farà prossimamente, ρ so però che ti correla due variabili quantitative, il mio problema è come associare una variabile qualitativa con una quantitativa continua
Del campione iniziale sono rimaste 598 donne ripartite tra 70 ispaniche, 388 bianche non isp. 120 nere non isp e 20 asiatiche non isp. la media +- ds dei pesi dei neonati alla nascita (espressa in grammi) è rispettivamente: 3396,33 -+ 456,74 (ISP) 3524,97 -+481,42 (BNI), 3264,26 -+ 487,22 (NNI), 3509,73 +-374,03 (ANI)
Tendenzialmente dovrei conoscere tutti gli strumenti statistici, e se non li conosco è perchè il corso ancora non è finito, anche se le ore a disposizione son quel che sono e diciamo che il prof li ha citati tutti e fatti qualcuno. Ad esempio di quelli che hai detto tu non conosco solo il modello di regressione che credo farà prossimamente, ρ so però che ti correla due variabili quantitative, il mio problema è come associare una variabile qualitativa con una quantitativa continua
adesso il problema è più chiaro....
Siamo di fronte a due variabili, una qualitativa e una quantitativa. In un caso del genere è opportuno effettuare uno studio della dipendenza in media, o dipendenza regressiva. A tal proposito si calcola l'indice $eta^2$, detto anche rapporto di correlazione di Pearson.
Tale indice è così definito:
$eta_(YX)^2=(V(E(Y|X)))/(V(Y))$
dove $V(E(Y|X))$ è la varianza della regressione, detta anche Varianza spiegata e misura come mediamente si discostano i valori della regressione dalla propria media, essendo $E(E(Y|X))=E(Y)$
Prima di addentrarci nei calcoli:
1) è opportuno conoscere la decomposizione della varianza (e questo mi devi dire se lo hai fatto altrimenti prima lo studi e poi ne riparliamo, oppure apri un altro topic su tale argomento), ovvero scomposizione della varianza totale in varianza "within groups" e varianza "between groups"
2) Dobbiamo sapere quale variabile è da considerare dipendente quale indipendente, dato che in generale $eta_(YX)^2!=eta_(XY)^2$ (e questo me lo devi dire tu....)
3) devi prima studiare i fondamenti del modello di regressione
Una precisazione:
il testo è esattamente questo oppure quello che hai scritto è solo un riassunto? te lo chiedo perché i pesi dei neonati ovviamente si "intersecano" con le razze delle partorienti....quindi l'impostazione della soluzione sarà diversa a seconda che i dati siano solo questi oppure disponiamo della distribuzione congiunta Razza / peso neonato.
Siamo di fronte a due variabili, una qualitativa e una quantitativa. In un caso del genere è opportuno effettuare uno studio della dipendenza in media, o dipendenza regressiva. A tal proposito si calcola l'indice $eta^2$, detto anche rapporto di correlazione di Pearson.
Tale indice è così definito:
$eta_(YX)^2=(V(E(Y|X)))/(V(Y))$
dove $V(E(Y|X))$ è la varianza della regressione, detta anche Varianza spiegata e misura come mediamente si discostano i valori della regressione dalla propria media, essendo $E(E(Y|X))=E(Y)$
Prima di addentrarci nei calcoli:
1) è opportuno conoscere la decomposizione della varianza (e questo mi devi dire se lo hai fatto altrimenti prima lo studi e poi ne riparliamo, oppure apri un altro topic su tale argomento), ovvero scomposizione della varianza totale in varianza "within groups" e varianza "between groups"
2) Dobbiamo sapere quale variabile è da considerare dipendente quale indipendente, dato che in generale $eta_(YX)^2!=eta_(XY)^2$ (e questo me lo devi dire tu....)
3) devi prima studiare i fondamenti del modello di regressione
Una precisazione:
il testo è esattamente questo oppure quello che hai scritto è solo un riassunto? te lo chiedo perché i pesi dei neonati ovviamente si "intersecano" con le razze delle partorienti....quindi l'impostazione della soluzione sarà diversa a seconda che i dati siano solo questi oppure disponiamo della distribuzione congiunta Razza / peso neonato.
Ti rispondo subito alla seconda domanda, è un riassunto poichè dispongo della distribuzione congiunta razza/peso per ogni paziente (è un file excel a 800 righe e 3 colonne, la prima è l'id della paziente, la seconda è la sua etnia e la terza è il peso del neonato)
per la prima parte che hai scritto adesso ci ragiono meglio e poi ti rispondo!
e comunque grazie per la tua disponibilità!
per la prima parte che hai scritto adesso ci ragiono meglio e poi ti rispondo!
e comunque grazie per la tua disponibilità!
la tabella che segue riporta la durata in anni di 125 ecografie stampate su tre diversi supporti fotografici, A, B, C.
${: ( , 10 , 12 , 13 , T o t ),( A , 15 , 16 , 14 , 45 ),( B , 12 , 14 , 13 , 39 ),( C , 14 , 14 , 13 , 41 ),( T o t , 41 , 44 , 40, 125 ) :}$
vogliamo studiare la relazione tra il supporto e la durata della stampa. L'indice più opportuno per lo studio della relazione fra una variabile qualitativa ed una quantitativa, dove la variabile quantitativa dipende da quella qualitativa, è $eta^2$
definito anche come $(Dev(B))/(Dev(T))$
dove il numeratore è la devianza tra i gruppi (Between) mentre il denominatore è la devianza totale.
Vediamo gli ingredienti che ci servono:
media complessiva: $M(T)=(10\cdot41+12\cdot44+13\cdot40)/125=11,66$
devianza Totale: $dev(T)=(10-11,66)^2\cdot41+(12-11,66)^2\cdot44+(13-11,66)^2\cdot40=189,89$
medie condizionate:
$M(Y|A)=(10\cdot15+12\cdot16+13\cdot14)/45=11,64$
$M(Y|B)=(10\cdot12+12\cdot14+13\cdot13)/39=11,72$
$M(Y|C)=(10\cdot14+12\cdot14+13\cdot13)/41=11,63$
devianza Between: $dev(B)=(11,64-11,66)^2\cdot45+(11,72-11,66)^2\cdot39+(11,63-11,66)^2\cdot41=0,195$
da cui il rapporto $eta_(YX)^2=(0,195)/(189,89)=0,001$
le variabili [strike]non hanno alcun grado di dipendenza regressiva[/strike] hanno pochissima dipendenza regressiva
${: ( , 10 , 12 , 13 , T o t ),( A , 15 , 16 , 14 , 45 ),( B , 12 , 14 , 13 , 39 ),( C , 14 , 14 , 13 , 41 ),( T o t , 41 , 44 , 40, 125 ) :}$
vogliamo studiare la relazione tra il supporto e la durata della stampa. L'indice più opportuno per lo studio della relazione fra una variabile qualitativa ed una quantitativa, dove la variabile quantitativa dipende da quella qualitativa, è $eta^2$
definito anche come $(Dev(B))/(Dev(T))$
dove il numeratore è la devianza tra i gruppi (Between) mentre il denominatore è la devianza totale.
Vediamo gli ingredienti che ci servono:
media complessiva: $M(T)=(10\cdot41+12\cdot44+13\cdot40)/125=11,66$
devianza Totale: $dev(T)=(10-11,66)^2\cdot41+(12-11,66)^2\cdot44+(13-11,66)^2\cdot40=189,89$
medie condizionate:
$M(Y|A)=(10\cdot15+12\cdot16+13\cdot14)/45=11,64$
$M(Y|B)=(10\cdot12+12\cdot14+13\cdot13)/39=11,72$
$M(Y|C)=(10\cdot14+12\cdot14+13\cdot13)/41=11,63$
devianza Between: $dev(B)=(11,64-11,66)^2\cdot45+(11,72-11,66)^2\cdot39+(11,63-11,66)^2\cdot41=0,195$
da cui il rapporto $eta_(YX)^2=(0,195)/(189,89)=0,001$
le variabili [strike]non hanno alcun grado di dipendenza regressiva[/strike] hanno pochissima dipendenza regressiva
Grazie mille dell'aiuto, sei stato chiarissimo! anche se mi hai appena fatto dimostrare che non c'è correlazione tra le due variabili mentre speravo ci fosse!

in verità volevo dimostrare ci fosse una certa associazione tra le due variabili in quanto effettivamente è già assodata la correlazione (i neri hanno effettivamente in media neonati che pesano meno rispetto ai bianchi, gli ispanici meno dei bianchi etc..) però la eta che calcolo misura 0.046 e dovendo esser compresa tra 0 e 1 speravo fosse più visibile!
