Progettazione degli esperimenti e analisi della varianza

Gibo1
Salve a tutti. Premetto che sono tutt'altro che un esperto di statistica e che mi sto avvicinando da autodidatta alla progettazione degli esperimenti e all'analisi della varianza.
Affrontando un caso specifico, mi sono reso conto di avere numerosi dubbi, forse stupidi per chi padroneggia la materia, che vorrei condividere con voi. Mi scuso in anticipo se alcuni dei termini usati non saranno corretti ma ho più dimestichezza con i termini inglesi.

Prima di passare alle domande, descrivo brevemente lo scopo del lavoro. Ho a disposizione un set di dati, ogni elemento del set è una misurazione di 2 caratteristiche correlate. Questi dati vengono usati per il training di un algoritmo di classificazione per la risoluzione di un problema di classificazione a classe singola (one-class classification) ossia per costruire un modello dell'andamento delle due caratteristiche basato solo su misurazioni del sistema in assenza di malfunzionamenti e stabilire se una nuova misurazione indica uno stato di funzionamento (positivo) o una anomalia (negativo). Parte dei dati a disposizione vengono usati per il training e la restante parte per la validazione.
L'algoritmo scelto dipende da 5 fattori, si progetta quindi un esperimento fattoriale con 5 fattori e 3 livelli per fattore con lo scopo di ottimizzare il settaggio di questi parametri. L'influenza dei parametri sulla prestazione dell'algoritmo viene analizzata con l'ANOVA mentre il settaggio viene stabilito minimizzando una funzione obiettivo che associa al risultato di ogni trattamento in termini di Falsi Negativi e "costo computazionale" un valore tra 0 e 1.

Ora vengono i miei dubbi principali.
1) l'algoritmo usato non segue alcun processo casuale, ma si ha comunque un possibile effetto random da studiare legato al campionamento dei dati per il training (questi vengono selezionati casualmente dalla popolazione di dati registrati). Ai fini dell'ANOVA credo sia corretto considerare l'analisi fattoriale mista in quanto i parametri dell'algoritmo sono fattori indipendenti (between), mentre le repliche dell'esperimento con diversi campioni per il training sono un fattore whitin.

2) Dalla popolazione di dati vengono estratti campioni casuali di misurazioni da usare per il training, ogni estrazione è una replica dell'esperimento. Sarei interessato a stabilire in anticipo la numerosità del campione e delle repliche e analizzare a posteriori la bontà del campionamento. So che esistono stime basate sulla potenza, ma se ho capito bene é richiesta la conoscenza della varianza e la formula per la stima varia in base allo scopo dell'esperimento condotto. Mi rendo conto di essere vago ma questo aspetto mi è veramente poco chiaro e la lettura di alcuni testi mi ha ulteriormente confuso. Potreste consigliarmi qualche riferimento per approfondire questo problema e/o suggerirmi come vi comportereste voi in questo caso?

Spero di essere stato sufficientemente chiaro e che possiate aiutarmi. Grazie mille in anticipo.

Risposte
dasalv12
In sintesi stai implementando un modello logit per poi valutarlo con la curva ROC, giusto?

1) l'algoritmo usato non segue alcun processo casuale, ma si ha comunque un possibile effetto random da studiare legato al campionamento dei dati per il training (questi vengono selezionati casualmente dalla popolazione di dati registrati). Ai fini dell'ANOVA credo sia corretto considerare l'analisi fattoriale mista in quanto i parametri dell'algoritmo sono fattori indipendenti (between), mentre le repliche dell'esperimento con diversi campioni per il training sono un fattore whitin.

Credo che queste siano considerazioni che possono prestarsi ad interpretazioni da caso a caso, quindi posso dare una mia opinione. Ad esempio considerare indipendenti i campioni potrebbe essere corretto nel caso non ci sia possibilità di ripescaggio, oppure quando la numerosità campionaria è molto piccola rispetto alla popolazione, oppure ancora se si campiona da un flusso continuo di dati (come quelli generati da una macchina).

2) Dalla popolazione di dati vengono estratti campioni casuali di misurazioni da usare per il training, ogni estrazione è una replica dell'esperimento. Sarei interessato a stabilire in anticipo la numerosità del campione e delle repliche e analizzare a posteriori la bontà del campionamento. So che esistono stime basate sulla potenza, ma se ho capito bene é richiesta la conoscenza della varianza e la formula per la stima varia in base allo scopo dell'esperimento condotto. Mi rendo conto di essere vago ma questo aspetto mi è veramente poco chiaro e la lettura di alcuni testi mi ha ulteriormente confuso. Potreste consigliarmi qualche riferimento per approfondire questo problema e/o suggerirmi come vi comportereste voi in questo caso?

Conosci già la formula per calcolare la numerosità campionaria in base all'errore massimo tollerato. Giustamente ci vuole la varianza, in genere è pure questa stimata. Può sembrare un paradosso, ma da quello che ne so è l'unico modo.
I modi potrebbero essere:
- estrazione di un campione pilota da cui stimare la varianza
- riciclo di informazioni preesistenti sulla popolazione, anche estranei all'esperimento stesso
- congetture spannometriche (esempio usando la variazione della Y e formulando ipotesi di quale potrebbe essere la varianza)

Per approfondimenti bisognerebbe consultare un manuale di teoria dei campioni avanzato (sul sito della springer ne trovi molti).

Rispondi
Per rispondere a questa discussione devi prima effettuare il login.