Correlazione dato statistico
Vorrei risolvere un problema con una AI, ma ho un training data eseguio (pochi dati) per addestrarla e per farlo vorrei agire direttamente sui dati "ampliandoli", solo che per fare ciò devo capire quale correlazione c'è fra un dato e l'altro.
Per fare un esempio, la rete neurale prende in Input X dati statistici (quindi che vanno da 0 a 100) e in base ai dati input risponde Si/No (1 o 0).
Il primo problema che si pone è che io non so i dati che guarda (e sono certo che non li guardi tutti, o più precisamente, sono certo che non li debba guardare tutti per essere funzionante).
Facciamo un esempio semplice, ho questi dati:
E' ovvio: il dato importante è la "x3", al suo diminuire o aumentare cambia la soluzione.
Bene, nella realtà i dati sono così:

E le variabili X che devono essere prese in considerazione sono ovviamente più di una, ma non lo sono tutte.
Posso applicare in qualche modo il coefficente di correlazione o qualche altra formula statistica?
Grazie
EDIT:
Una soluzione che sto provando e fare le medie di tutte le colonne dei valori con soluzione 1 e 0, e poi confrontarli per vedere quali "sono distanti" a "mano".
Per esempio:
così vedo che mx3 nelle due dista molto l'uno dall'altro e cerco di trarre le conclusioni, che ne pensate?
Per fare un esempio, la rete neurale prende in Input X dati statistici (quindi che vanno da 0 a 100) e in base ai dati input risponde Si/No (1 o 0).
Il primo problema che si pone è che io non so i dati che guarda (e sono certo che non li guardi tutti, o più precisamente, sono certo che non li debba guardare tutti per essere funzionante).
Facciamo un esempio semplice, ho questi dati:
X1, x2 x3 x4 | soluzione ----------------+----------- 10, 20, 100, 5 | 1 10, 20, 0, 5 | 0 9, 20, 70, 5 | 1 10, 20, 30, 10 | 0
E' ovvio: il dato importante è la "x3", al suo diminuire o aumentare cambia la soluzione.
Bene, nella realtà i dati sono così:

E le variabili X che devono essere prese in considerazione sono ovviamente più di una, ma non lo sono tutte.
Posso applicare in qualche modo il coefficente di correlazione o qualche altra formula statistica?
Grazie
EDIT:
Una soluzione che sto provando e fare le medie di tutte le colonne dei valori con soluzione 1 e 0, e poi confrontarli per vedere quali "sono distanti" a "mano".
Per esempio:
mX1, mx2 mx3 mx4 | soluzione ---------------------+----------- 9.5, 20, 85, 5 | 1 10 , 20, 15, 7.5 | 0
così vedo che mx3 nelle due dista molto l'uno dall'altro e cerco di trarre le conclusioni, che ne pensate?
Risposte
Non si capisce molto. Prova a vedere i modelli logit.