Concordance index per validare regressione logistica
Ho generato un modello predittivo da un training set di dati utilizzando la regressione logistica. Ora vorrei misurare l'affidabilità del modello utilizzando un test set di altri dati utilizzando il cosiddetto c-index (concordance index) di Harrell. La previsione data dal modello è ovviamente una probabilità compresa fra 0 e 1, mentre l'outcome sulla serie di dati è presente, ovviamente, in forma di "tutto o nulla" (0 o 1). La misurazione del c-index sarebbe qualcosa del tipo la ROC del modello sulla serie dei dati di test ma vorrei sapere come calcolarla, visto che la probabilità è per sua natura una frazione (mai uguale esattamente a 0 oppure 1) mentre l'outcome é appunto "tutto o nulla". Devo usare un certo cutoff calcolato sul training set per definire un livello soglia e dunque utilizzare la ROC sul test set? Se così fosse la soglia la individuo con una precedente misurazione della ROC sul training set?
Grazie
Grazie