Specificazione del modello e studio della differenza in media
Buonasera, vorrei confrontare con voi questo esercizio
La tabella sotto riporta i risultati di un studio condotto su n = 8 famiglie per valutare le differenze legate al genere (maschi - femmine) nei livelli di aggressività opportunamente misurata su una scala continua. Per evitare il confondimento legato all’ambiente familiare, lo studio ha arruolato per ogni famiglia un coppia di fratelli di sesso diverso (ovvero un maschio e una femmina per ogni famiglia). C’è, in media, una differenza legata al genere?
$ [ ( Masch i , Femm i n e ),( 12 , 15 ),(11 , 14 ),( 12 , 16 ),( 14, 10 ),( 13 , 13 ),( 10 , 15 ),( 9,12 ) ,( 10 , 16 )] $
(a) Si predisponga il modello statistico da utilizzare.
(b) Utilizzando il linguaggio R, si formalizzi e si costruisca un test statistico per saggiare
l’ipotesi sopraesposta al livello α = 0.05.
Per predisporre il modello ho seguito il modello anova(dopo aver assunto la normalità, l'omoschedasticità e l'indipendenza), dato che la nostra variabile è una qualitativa(sesso), così da poter confrontare le due modalità che avevo analizzato come $ X^2(1) $ con n-1 gradi(per i maschi) e $ X^2(2) $ con m-1 gradi di libertà (per le femmine) .
Perciò costruisco la variabile f:
$ f(x)=((X^2(1))/n)/((X^2(2))/m) $ ,
Che sarà distribuita
$ (R^+,p(f,n,m)= (Gamma (n+m)/2)/(Gamma(n/2)*Gamma (m/2)) *(n/m)^(n/2)*-(f^(n-2)/(1+f(n/m))^(n+m))^(1/2) , n,m>0) $ .
Imposto il sistema d'ipotesi: $ { ( H0: mean(x)=mean(y) ),( H1:mean(x)= mean(y) ):} $
Successivamente calcolo la variabile f: $ f=(var(x))/(var(y)) ~~ 1,55 $
Dopo cerco il valore Pf(n,m), che è 0,71 e visto che $Pf(n,m)> alpha $ non si ha una significativa differenza tra i due fit, perciò possiamo procedere col calcolo del test T.
Dunque calcolo la varianza stimata $ S2=(var(x)*(n-1)+var(y)*(n-1))/(n+m-2)=3,625 $ e da questa ricavo il test t: $ t=(mean(x)-mean(y))/(sqrt((S2)*(1/n+1/m))) \approx 2.63 $
Nella tavola del valore critico di t cerco $ t(1-\alpha/2, n+m-2)=2,14 $ e quindi posso dire che siccome $ T>t(0.05,14) $ rifiuto l'ipotesi nulla.
Poi ricerco il livello di significatività: $ 2*(1-p(abs(t(m+n-2))>2.63)) ~~ 0.01 $
Un valore così piccolo, ovviamente, è altamente significativo contro l'ipotesi nulla.
Perciò si, c'è differenza tra uomini e donne per quanto riguarda l'aggresività, ma dobbiamo anche dire con un n così piccolo potremmo anche sbagliarci.
Notiamo inoltre anche da un semplice boxplot una significativa differenza tra le due modalità:

P.S. ho fatto delle ricerche a riguardo e ho notato che in realtà sono gli uomini quelli più aggressivi(soprattutto nell'etò giovanile) anche se il boxplot suggerisce altro, lascio il link per chi fosse interessato (.psicologiacontemporanea.it/blog/le-differenze-tra-uomini-e-donne/)
La tabella sotto riporta i risultati di un studio condotto su n = 8 famiglie per valutare le differenze legate al genere (maschi - femmine) nei livelli di aggressività opportunamente misurata su una scala continua. Per evitare il confondimento legato all’ambiente familiare, lo studio ha arruolato per ogni famiglia un coppia di fratelli di sesso diverso (ovvero un maschio e una femmina per ogni famiglia). C’è, in media, una differenza legata al genere?
$ [ ( Masch i , Femm i n e ),( 12 , 15 ),(11 , 14 ),( 12 , 16 ),( 14, 10 ),( 13 , 13 ),( 10 , 15 ),( 9,12 ) ,( 10 , 16 )] $
(a) Si predisponga il modello statistico da utilizzare.
(b) Utilizzando il linguaggio R, si formalizzi e si costruisca un test statistico per saggiare
l’ipotesi sopraesposta al livello α = 0.05.
Per predisporre il modello ho seguito il modello anova(dopo aver assunto la normalità, l'omoschedasticità e l'indipendenza), dato che la nostra variabile è una qualitativa(sesso), così da poter confrontare le due modalità che avevo analizzato come $ X^2(1) $ con n-1 gradi(per i maschi) e $ X^2(2) $ con m-1 gradi di libertà (per le femmine) .
Perciò costruisco la variabile f:
$ f(x)=((X^2(1))/n)/((X^2(2))/m) $ ,
Che sarà distribuita
$ (R^+,p(f,n,m)= (Gamma (n+m)/2)/(Gamma(n/2)*Gamma (m/2)) *(n/m)^(n/2)*-(f^(n-2)/(1+f(n/m))^(n+m))^(1/2) , n,m>0) $ .
Imposto il sistema d'ipotesi: $ { ( H0: mean(x)=mean(y) ),( H1:mean(x)= mean(y) ):} $
Successivamente calcolo la variabile f: $ f=(var(x))/(var(y)) ~~ 1,55 $
Dopo cerco il valore Pf(n,m), che è 0,71 e visto che $Pf(n,m)> alpha $ non si ha una significativa differenza tra i due fit, perciò possiamo procedere col calcolo del test T.
Dunque calcolo la varianza stimata $ S2=(var(x)*(n-1)+var(y)*(n-1))/(n+m-2)=3,625 $ e da questa ricavo il test t: $ t=(mean(x)-mean(y))/(sqrt((S2)*(1/n+1/m))) \approx 2.63 $
Nella tavola del valore critico di t cerco $ t(1-\alpha/2, n+m-2)=2,14 $ e quindi posso dire che siccome $ T>t(0.05,14) $ rifiuto l'ipotesi nulla.
Poi ricerco il livello di significatività: $ 2*(1-p(abs(t(m+n-2))>2.63)) ~~ 0.01 $
Un valore così piccolo, ovviamente, è altamente significativo contro l'ipotesi nulla.
Perciò si, c'è differenza tra uomini e donne per quanto riguarda l'aggresività, ma dobbiamo anche dire con un n così piccolo potremmo anche sbagliarci.
Notiamo inoltre anche da un semplice boxplot una significativa differenza tra le due modalità:

P.S. ho fatto delle ricerche a riguardo e ho notato che in realtà sono gli uomini quelli più aggressivi(soprattutto nell'etò giovanile) anche se il boxplot suggerisce altro, lascio il link per chi fosse interessato (.psicologiacontemporanea.it/blog/le-differenze-tra-uomini-e-donne/)
Risposte
Test non parametrici tutta la vita (nel caso ci sarebbe da discutere quale/i usare), ma ANOVA manco per sogno.
I test non parametrici non sono previsti nel programma della materia, penso che li studierò in statistica 3(che avrò nel secondo semestre), per ora devo usare solo test parametrici.
Comunque ho assunto a priori normalità dei dati e omoschedasticità perché le ho calcolate su R precedentemente e ho deciso di ometterle perché quello che volevo realmente capire era se la scelta del modello e del test fosse giusta.
Comunque ho assunto a priori normalità dei dati e omoschedasticità perché le ho calcolate su R precedentemente e ho deciso di ometterle perché quello che volevo realmente capire era se la scelta del modello e del test fosse giusta.