Aiuto per problema (forse banale): regressione multipla?

monica_1111
Salve a tutti
un mio collega ha un problema con un esperimento (premetto che non posso dare molti dettagli, perche' anche io ne so in modo limitato). Il punto principale e' il seguente, dato un certo numero di variabili indipendeti, le quali influiscono su una variabile dipendente, come e' possbile ottimizzare i valori delle variabili in questione in modo tale da massimizzare il rislutato sulla variabile dipendente?

Cerco di spiegarmi meglio con i pochi dati che ho a disposizione.
Ho queste variabili:
Variabili indipendenti
AC (il cui valore si esprime in percentuale, e puo' variare da 5 a 85)
Tz (Temperatura di z, il cui valore cade in un range di 20-220)
tc (tempo di c, in secondi, con un range che varia da un minimo di 1 ad un massimo di 150)
td (tempo di d, in secondi, stesso range di tc)
tk (tempo di r, espresso in ore, con un range che varia da 0 fino 8)
Variabile dipendente
AD (valore espresso in percentuale)

L'idea e' di far variare il valore delle variabili entro il range determinato (non utilizzando tutti quanti i valori possibili, ma solo alcuni valori chiave, per esempio nel caso di Tz utilizzare 80, 120, 220), etc..per vedere come reagisce AD.

In particolar modo, il quesito che e' stato posto e' il seguente se AD varia in funziona di MC, Tz, tc, td e tk [AD = f(MC, Tz, tc, td, tk) come trovare quei valori *per ogni variabile* che massimizzano il risultato, cioe' massimizzano AD(t)?

All'inizio ho pensato che questo problema potesse essere risolto con una regressione multipla, ma non ne sono sicura.
Ho guardato un po' in rete sulla regressione multipla, e li' per li' mi sembrava che fosse il tipo di analisi giusta per questo problema. Ma ora non ne sono molto sicura.
Qualcuno puo' commentare/dare un aiuto?
Grazie a tutti
monica


ps. ho una formazione umanistica e sono solo appassionata dell'uso della statistica e del disegno sperimentale, ma ho delle conoscenze molto semplici, per favore perdonatemi gli strafalcioni :?

Risposte
monica_1111
Salve, ma non c'e' proprio nessuno che possa aiutarmi? Ho formulato male il quesito? Nemmeno un'idicazione su dove /come trovare qualche indicazione che mi aiuti a risolvere il problema? :?
saluti
m.

olaxgabry
Dipende dallo scopo del lavoro del tuo amico. Prima di tutto sarebbe utile capire se i dati sono cross section o serie storiche.
Poi da quello che ho capito vorresti trovare un modello in grado di spiegare (o fittare o prevedere anche qui dipende dal tuo amico) la variabile AD: se così è la regressione potrebbe andare; non capisco molto il fatto del range di alcune variabili, in fondo non è che ti serve esprimere il range di ogni regressore per trovare i coefficienti del modello.,
Aspetto tue notizie.
Ciao

monica_1111
Ciao Olaxgabry!!!
Grazie davvero per la risposta!!! :D
Cross-sectional o analisi delle serie storiche? Onestamente non so rispondere con certezza al momento.
Da quanto so (per ora) il piano sperimentale prevede la conduzione di esperimenti in cui la misurazione di AD dovrebbe essere effettuata in tre tempi diversi. Il problema e' cercare di prevedere "l'ottimo AD", ossia trovare i valori delle variabili indipendenti che massimizzano il valore di AD (sempre avendo misurazioni in tempi diversi, cosi' da trovare "l'ottimo" in t1, t2, e t3).

Nel caso, t, puo' essere trattato come una variabile indipendente nel modello?
Come capire se sia piu' appropriato eseguire un'analisi di serie storiche?

Purtroppo, come spiegavo, ho studiato lettere e sono approdata alla statistica un po' per passione, e un po' per necessita' (lasciando da parte il fatto che non sono dotata per la matematica); e' la prima volta che mi ritrovo davanti ad un problema di questo genere.

La settimana prossima raccoglierò ulteriori notizie presso il mio collega, sperando di riuscire a darti ulteriori dettagli su questo problema.
Grazie ancora tantissimo dell'aiuto!!!!! :D
A presto!!!!
monica

olaxgabry
Ok, allora appena hai tutte le informazioni (che puoi ottenere ovviamente) posta che ci ragioniamo.
Ciao

topi1
Capisco che c' è un interesse ad avere AD più alto possibile; e chiamate ottimizzazione la ricerca di quella combinazione di valori delle variabili indipendenti che permettono di avere il massimo per la variabile AD.
Posso dire subito che la regressione multipla lineare difficilmente vi porterà alla soluzione. Essa fornirebbe una stima per i coefficienti moltiplicativi da applicare alle 6 variabili indipendenti. I singoli valori avrebbero poca importanza; contrebbe solo se sono positivi o negativi. Nel caso fosero tutti positivi AD sarebbe massimo quando ciascuna delle variabili è massimo. Se i coefficienti fossero in parte positivi ed in parte negativi il massimo di AD si avrebbe per alcune variabili indipendenti al massimo e le restanti al minimo. Ed il problema sarebbe semplicissimo.
Sapendo che ognuna delle variabili indipendenti ha un suo range di variabilità immagino che il massimo non si trovi agli estremi , bensì in qualche punto intermedio. Allora occorre ricercare una regressione multipla che includa anche termini superiori al primo. Il caso più semplice è ipotizzare che AD sia la somma di una costante, di 6 termini di primo grado (ossia 6 coefficienti da determinare , ciascuno moltiplica una variabile indipendente) e di 6 termini di secondo grado (altri 6 coefficienti , ciascuno moltiplica il quadrato della corrispondente variabile indipendente). Puo' darsi che vi possiate fermare qui. Puo' darsi che occorra introdurre anche variabili di secondo grado (ne esistono 36, a comiciare dal prodotto AC*Tz) o addirittura di grado ancora superiore. Dipende dalla complessità del fenomeno fisico. In ogni caso con excel si riesce a detrminare l' insieme di tutti questi coefficienti moltiplicativi : si usa la funzione "strumenti", "analisi dati", "regressione". Maggiore è il numero di coefficienti da determinare e maggiore è il numero di "osservazioni " da fare
saluti

monica_1111
Salve a tutti!
scrivo con ritardo perche' mi sono sentita poco bene, per un brutto raffreddore.
Allora non ho avuto troppe rettifiche dal mio collega, solo una, quella sui tempi, ossia: AD dovrebbe essere misurata in tre tempi diversi (a distanza di uno, tre e otto giorni. AD e' la capacita' di retenzione di una certa forma data ad un pezzetto di plastica). Le variabili indipendenti sono le condizioni che presiedono al modellamento del pezzo di plastica.
Alla luce di tutto cio' credevo che la regressione multipla fosse la soluzione giusta (anche grazie a quanto scritto da olaxgabry), ma dopo aver letto il messaggio di gino, non ho piu' sicurezze :shock:

"topi":
Sapendo che ognuna delle variabili indipendenti ha un suo range di variabilità immagino che il massimo non si trovi agli estremi , bensì in qualche punto intermedio. Allora occorre ricercare una regressione multipla che includa anche termini superiori al primo. Il caso più semplice è ipotizzare che AD sia la somma di una costante, di 6 termini di primo grado (ossia 6 coefficienti da determinare , ciascuno moltiplica una variabile indipendente) e di 6 termini di secondo grado (altri 6 coefficienti , ciascuno moltiplica il quadrato della corrispondente variabile indipendente). Puo' darsi che vi possiate fermare qui. Puo' darsi che occorra introdurre anche variabili di secondo grado (ne esistono 36, a comiciare dal prodotto AC*Tz) o addirittura di grado ancora superiore. Dipende dalla complessità del fenomeno fisico. In ogni caso con excel si riesce a detrminare l' insieme di tutti questi coefficienti moltiplicativi : si usa la funzione "strumenti", "analisi dati", "regressione". Maggiore è il numero di coefficienti da determinare e maggiore è il numero di "osservazioni " da fare
saluti


Onestamente non so come procedere per seguire le indicazioni mi stai dando.
Potresti aiutarmi un questo quesito?
Grazie
Saluti
monica

topi1
Eccoti una traccia che mira ad essere pratica/ praticabile.
Per ciascuna delle 5 variabili indipendenti seleziona alcuni valori significativi. Suggerimento 1: non prendere gli estremi (che immagino siano più rari, meno importanti, più inclini a mostrare anomalie nelle dipendenze etc). Suggerimento2: non prenderne troppi (almeno inizialmente) , ma prendine almeno 2 o 3 .
Come esempio te li fornisco già io
AC Tz tc td tk
10 40 2 2 1
45 120 15 15 3
80 200 80 80 7
In questo caso siccome le variabili sono 5 e ciascuna puo' avere 3 valori si ha un massimo di 243 possibili combinazioni. Adesso è il momento di applicare eventuali conoscenze del fenomeno fisico/ processo produttivo. Al fine di escludere combinazioni impossibili, non desiderate, anomale etc Ad esempio quelle per cui tc e td sono molto diversi fra di loro oppure quelle per cui tc+td supera una certa soglia etc. Se non si puo' escludere alcuna combinazione restano le 243 combinazioni.
Adesso bisogna condurre i 243 (o meno) "esperimenti", ovverso "osservazioni" ovvero "misure"
Si fanno assumere alle 5 variabili i valori della prima riga e si misurano le 3 distinte variabili dipendenti che chiamerei AD1 AD3 AD8
Poi si passa alla seconda combinazione e si misurano di nuovo le tre variabili dipendenti AD1 AD3 AD8
Alla fine avrai una tabella (una matrice) di questo tipo
AC Tz tc td tk AD1 AD3 AD8
10 40 2 2 1 ? ? ?
10 40 2 2 3 ? ? ?
10 40 2 2 7 ? ? ?
10 40 2 15 1 ? ? ?
10 40 2 15 3 ? ? ?
10 40 2 15 7 ? ? ?
10 40 2 80 1 ? ? ?
10 40 2 80 3 ? ? ?
10 40 2 80 7 ? ? ?
10 40 15 2 1 ? ? ?
10 40 15 2 3 ? ? ?
10 40 15 2 7 ? ? ?
10 40 15 15 1 ? ? ?
10 40 15 15 3 ? ? ?
10 40 15 15 7 ? ? ?
10 40 15 80 1 ? ? ?
. . . . . . . .
A questo punto si puo' usare excel (ti aiuterò io) per trovare separatamente le 3 distinte regressioni per AD1 AD3 e AD8. Ed avere anche indici per capire se la rgressione è abbastanza accurata oppure occorrono altri "esperimenti"
fammi sapere
gino

monica_1111
Ciao Gino
ti ringrazio della traccia! Ci lavoro questo fine settimana, cercando di simulare dei dati. Pero' non sono sicura ddi come impostarli in Excel. Ad ogni modo generero' i dati e poi torno di sicuro a contattarti!
Grazie ancora!!! Questo aiuto e' grandissimo!!!
:D

monica_1111
Ciao!
Ho provato a creare dei dati (non sono tutte le combinazioni, ma solo alcune, tanto per provare a vedere cosa viene fuori e vedere come posso interpretare i dati).
Ho fatto un piccolo foglio excel, potremmo sentirci per discuterne? E' la prima volta che imbatto in una regressione multipla ed e' un territorio del tutto inesplorato.
A presto spero!
Grazie
:D

topi1
aspetto il file excel con i dati, anche parziali. Nota: se i dati non sono molti è preferibile che una o più variabili indipendenti abbiano sempre lo stesso valore (o almeno un valore quasi costante)
saluti
gino

Rispondi
Per rispondere a questa discussione devi prima effettuare il login.