Valutazione della significatività statistica tra due elementi in un dataset
Buon Pomeriggio,
seguo ad illustrare il problema nella maniera più chiara possibile.
Il dataset si compone di una lista di elementi accoppiati:
Colonna A - Colonna B
____________________
Elemento 1 - Campione1
Elemento 1 - Campione 2
Elemento 2 - Campione 2
Elemento 2 - Campione 3
... e così via.
Il set di coppie è "unpaired".
Quello che voglio fare è valutare se un determinato Elemento è in grado di indicare un dato campione (o alcuni di essi) in maniera statisticamente significativa all'interno del dataset.
E' necessaria una ulteriore specifica. Il dataset è originato da un database relazionale, ciò determina che :
- una data coppia è presente più di una volta all'interno della lista.
- gli elementi si presentano in numero diverso (alcuni possono essere presenti solo una volta, altri oltre 10 come parte di una coppia)
Per raggiungere il risultato ho svolto un Test di Fisher strutturato in una tabella 2x2 come segue :
_________________|_ Elemento 1 _|_Tutti gli altri elementi _|
.....Campione 1......|.........A........|..............B ............. I
_________________|_____________|_____________________ |
Altri Campioni .....|......... C ........|............. D..............|
______________________________________________________
A Corrisponde dunque al numero di volte in cui l'Elemento1 è associato al campione 1,
B corrisponde al numero di volte in cui un Elemento diverso dall'Elemento 1 è associato al Campione 1,
C è il numero di volte che l'elemento 1 è associato ad un campione diverso dal Campione 1
D è il numero di volte che un elemento diverso dall'elemento 1 è associato ad un campione diverso dal campione 1.
Tale test, in tale forma, è eseguito per ogni coppia esistente.
I P-Value che ottengo però non mi convincono, dunque mi domandavo se avessi scelto un approccio sbagliato e, nel caso, ero alla ricerca di un consiglio.
seguo ad illustrare il problema nella maniera più chiara possibile.
Il dataset si compone di una lista di elementi accoppiati:
Colonna A - Colonna B
____________________
Elemento 1 - Campione1
Elemento 1 - Campione 2
Elemento 2 - Campione 2
Elemento 2 - Campione 3
... e così via.
Il set di coppie è "unpaired".
Quello che voglio fare è valutare se un determinato Elemento è in grado di indicare un dato campione (o alcuni di essi) in maniera statisticamente significativa all'interno del dataset.
E' necessaria una ulteriore specifica. Il dataset è originato da un database relazionale, ciò determina che :
- una data coppia è presente più di una volta all'interno della lista.
- gli elementi si presentano in numero diverso (alcuni possono essere presenti solo una volta, altri oltre 10 come parte di una coppia)
Per raggiungere il risultato ho svolto un Test di Fisher strutturato in una tabella 2x2 come segue :
_________________|_ Elemento 1 _|_Tutti gli altri elementi _|
.....Campione 1......|.........A........|..............B ............. I
_________________|_____________|_____________________ |
Altri Campioni .....|......... C ........|............. D..............|
______________________________________________________
A Corrisponde dunque al numero di volte in cui l'Elemento1 è associato al campione 1,
B corrisponde al numero di volte in cui un Elemento diverso dall'Elemento 1 è associato al Campione 1,
C è il numero di volte che l'elemento 1 è associato ad un campione diverso dal Campione 1
D è il numero di volte che un elemento diverso dall'elemento 1 è associato ad un campione diverso dal campione 1.
Tale test, in tale forma, è eseguito per ogni coppia esistente.
I P-Value che ottengo però non mi convincono, dunque mi domandavo se avessi scelto un approccio sbagliato e, nel caso, ero alla ricerca di un consiglio.
Risposte
Ho la sensazione che sia un problema lavorativo, non giudico nessuno, ma non vedo per quale motivo qualcuno dovrebbe perdere tempo gratuitamente a risolvere una cosa per cui un'altra persona percepisce uno stipendio. Lo dico con una vena polemica perché in genere queste discussioni, oltre a manifestare un'evidente incompetenza di qualche addetto ai lavori, finiscono con la sparizione dell'autore del post (il quale si ferma al primo post, quando il primo dovrebbe essere di presentazione).
Conoscendo un po' il rigore di Tommik (il moderatore della sezione), dovrebbero arrivare un paio di ammonizioni.
Conoscendo un po' il rigore di Tommik (il moderatore della sezione), dovrebbero arrivare un paio di ammonizioni.
Nessun Lavoro, sono dati correlati ad un progetto di Tesi. Non percepisco alcuno stipendio.
Il post di presentazione è stato fatto, sbrigativamente, si, ma fatto.
Il post nasce per chiedere conferma dell'approccio sopra citato di cui sono piuttosto sicuro ma non del tutto non essendo un puro statistico bensì un Bioinformatico.
Ho preferito non specificare la tipologia del dato per chiarezza, ad ogni modo si parla di coppie costituite da E.C. number (codici indicanti la funzione catalizzata da un enzima) e PFAM Accession (codice che indica un particolare dominio strutturale rappresentato da un modello HMM).
In ultimo, e spero non venga presa male questa affermazione, sono solito frequentare forum analoghi in lingua inglese poichè è più facile incontrare utenti con le mie stesse basi accademiche. Ho optato per un forum italiano (ecco dunque il perchè del primo post) poichè necessiterei di una sorta di conferma a breve.
Non chiedo che il lavoro venga svolto da altri, mi basta un "si, è corretto" o di un "no, non l'è" (con giusta motivazione).
Grazie.
Il post di presentazione è stato fatto, sbrigativamente, si, ma fatto.
Il post nasce per chiedere conferma dell'approccio sopra citato di cui sono piuttosto sicuro ma non del tutto non essendo un puro statistico bensì un Bioinformatico.
Ho preferito non specificare la tipologia del dato per chiarezza, ad ogni modo si parla di coppie costituite da E.C. number (codici indicanti la funzione catalizzata da un enzima) e PFAM Accession (codice che indica un particolare dominio strutturale rappresentato da un modello HMM).
In ultimo, e spero non venga presa male questa affermazione, sono solito frequentare forum analoghi in lingua inglese poichè è più facile incontrare utenti con le mie stesse basi accademiche. Ho optato per un forum italiano (ecco dunque il perchè del primo post) poichè necessiterei di una sorta di conferma a breve.
Non chiedo che il lavoro venga svolto da altri, mi basta un "si, è corretto" o di un "no, non l'è" (con giusta motivazione).
Grazie.
In ultimo, e spero non venga presa male questa affermazione, sono solito frequentare forum analoghi in lingua inglese poichè è più facile incontrare utenti con le mie stesse basi accademiche. Ho optato per un forum italiano (ecco dunque il perchè del primo post) poichè necessiterei di una sorta di conferma a breve.
...buona attesa allora.
Noto come la simpatia sia di casa...
spero che analogo non sia anche il modo di fare dello staff, ma dubito.
Ad ogni modo ho fugato i miei dubbi attraverso altri canali. Ringrazio comunque staff (che può chiudere il post) e resto dell'utenza.
Buono Studio a tutti!
spero che analogo non sia anche il modo di fare dello staff, ma dubito.
Ad ogni modo ho fugato i miei dubbi attraverso altri canali. Ringrazio comunque staff (che può chiudere il post) e resto dell'utenza.
Buono Studio a tutti!
