Validazione modello di regressione lineare tramite cross validation
Salve a tutti,
Devo validare un modello di regressione lineare, dato che il dataset della variabile da predire è abbastanza esiguo (10 rilievi) ho deciso di utilizzare una procedura di cross validation: per ogni step tengo fuori un dato dalla calibrazione della retta di regressionee aapplico la retta così trovata per predire il valore di quel particolare dato che ho tenuto fuori. Faccio lo stesso per tutti i dati ed alla fine ottengo 11 rette lineari (quella iniziale più le 10 di validazione) e posso calcolare il rmse facendo la media di tutti gli errori trovati per ogni step di cross validation. La mia domanda è : tra queste 11 rette, qual'è quella da scegliere come migliore? Sulla base di cosa posso fare questa scelta?
Grazie
Devo validare un modello di regressione lineare, dato che il dataset della variabile da predire è abbastanza esiguo (10 rilievi) ho deciso di utilizzare una procedura di cross validation: per ogni step tengo fuori un dato dalla calibrazione della retta di regressionee aapplico la retta così trovata per predire il valore di quel particolare dato che ho tenuto fuori. Faccio lo stesso per tutti i dati ed alla fine ottengo 11 rette lineari (quella iniziale più le 10 di validazione) e posso calcolare il rmse facendo la media di tutti gli errori trovati per ogni step di cross validation. La mia domanda è : tra queste 11 rette, qual'è quella da scegliere come migliore? Sulla base di cosa posso fare questa scelta?
Grazie
Risposte
Nessun ha qualche idea?
Si, certo, è una procedura che valuta se un modello è migliore di un altro stabilendo se vi siano fenomeni di overfitting, perònel caso io abbia già scelto un modello prediligendo quello che abbia il migliore r quadro, e il minor numero di variabili predittive possibili, Come posso convalidarlo avendo a disposizione pochi test se non con questo tipo di procedura?
"Sergio":
Ma cosa intendi per "convalidarlo"? Vorresti forse il bollino blu "modello vero"?
Te lo puoi scordareQualsiasi modello statistico è falso, ma alcuni sono più utili di altri.
Come è chiaro io non sono un esperto di statistica e non saprei se quello che sto per dire vale in tutti gli ambiti o solo nel mio (che per intenderci è quello biologico). Usualmente si costruiscono tali modelli per predire delle condizioni, ad esempio fisiche o chimiche, di un particolare oggetto di studio ipotizzando che tali condizioni siano legati ad una variabile (dipendente). Lo scopo non è quello, o meglio non solo quello, di vedere se due variabili sono correlate, ma piuttosto quello di scoprire se è possibile misurare una carta condizione difficile da rilevare(per costi, tempi, ecc) tramite la misurazione di una grandezza più facile da misurare.
In questo tipo di studi si "convalida" nel senso che, preso un dataset di rilievi, se ne usa una parte per calibrare un modello ed un altra per testare il modello in modo da capire se, in parole povere, funziona o no.