Regressione lineare formula per la pendenza della retta

Pinzid
Ciao a tutti, la settimana prossima devo ridare l'esame di statistica con la professoressa dopo ci siamo praticamente incartati su una formula.
Molte volte tendo a fare di testa mia e negli esercizi ho usato una formula differente da qualla proposta per il calcolo appunto della pendenza.
Il docente propone
$ A = (Nsum(xy ) -sumxsumy )/ (Nsumx^2 -(sumx)^2) $
che è analoga a
$ A = (sum(x - bar(x))(y - bar(y)) )/ (sum(x-bar(x))^2 $
Quest'ultima io la interpreterei geometricamente come la media pesata dei coefficienti angolari dei vari punti calcolati in base al punto medio e come peso è stata usata appunto la distanza dei punti dal punto medio di x elevato alla seconda (anche perchè altrimenti la sommatoria sarebbe risultata nulla $ (sum(x-bar(x))^2 $
Il problema è che così se io metto dei valori che hanno come valore di x un valore molto vicino al punto medio questi perdono molto di peso fino a diventare ininfluenti se coincidono con esso. Infatti se mettessi dei valori infiniti lungo la retta X = xmedio la regressione lineare rimarrebbe invariata mentre dovrebbe tendere a X =xmedio.
Ok spiegato ciò io uso invece $ A = (sum(((y - bar(y)))/((x - bar(x)))( (x - bar(x))^2 + (y - bar(y))^2 )))/ (sum((x-bar(x))^2 + (y - bar(y))^2) $
In questo caso si tratta sempre della media pesata dei coefficienti angolari ma il peso non è più semplicemente la distanza al quadrato dal punto medio sull'asse x ma che sull'asse y (e volendo anche oltre) e restituisce un valore a mio avviso molto più corretto e con meno possibilità di errore.
Volevo chiedere visto che devo dare anche una risposta alla prof.
Questa formula viene usata? e se no, perchè?
Grazie

Risposte
Pinzid
Francamente ho capito ben poco della tua interpretazione.

Cpaisco, mi succede sempre :cry:
Che vuol dire "media pesata dei coefficienti angolari"?

esatto il metodo è quello e A è come hai segnato te B1
media pesata dei coefficienti angolari? probabilmente non è la definizione ufficiale (anzi sicuramente) ma non è difficile dimostrare che al posto di mettere covarianza/varianza posso calcolarla come se facessi la media pesata dei coefficienti angolari di tutti i punti pesati in base alla loro distanza
$ Coef Ang = (y - bar(y))/(x-bar(x)) $
la media pesata è
$ mediapesata = (sum(x1 * p))/(N(sum(p))/N $
non è difficile dimostrare che quindi che se pongo $ x1 = (y-bar(y))/(x-bar(x)) $ e $ P = (x - bar(x))^2 $
ottengo proprio la formula covarianza/varianza.
Sinceramnte questa interpretazione la vedo molto più sensata e ha un evidente senso geometrico.
Detto ciò è proprio da qui che si vede il problema infatti al numeratore $ sum(x -bar(x))(y-bar(y)) $
Tutti i punti con $ x =bar(x) $
Danno un contributo nullo alla retta ma in egual modo tutti quelli molto vicini all'asse $ bar(x) $
Perdonami ma "la regressione lineare rimarrebbe invariata" è un'affermazione un po' strana. La regressione lineare è un metodo e, come tale, rimane invariata perché se "fai regressione" usi lo stesso metodo quali che siano i dati, ma la retta di regressione non rimane affatto invariata

Ok intendevo la retta, speravo si capisse.

Io però sinceramente non ero interessato a capire la regressione lineare (che forse a modo mio ma penso di sapere egregiamente) ma se l'ultima formula che ho messo qualcuno sa se viene usata perchè sono abbastanza certo che è meglio di quella ufficiale e vorrei capire perchè non viene usata (forse per semplicità?)

Grazie mille per la risposta

Pinzid
Perché non proponi un esempio altrettanto semplice per contraddirmi?

Facile nel tuo esempio aggiungi i punti (2, 99999999) e (-2, 999999999), anzi mettine una moltitudine (tendenti ad infinito) di questi punti, logicamente si capirebbe che la regressione lineare dovrebbe apparire come una retta tendente alla verticalità, ma sorpresa vedrai che il contributo di questi punti è 0 e la retta rimmarrà di pendenza 10 perchè come ho detto al numeratore il contributo di $ x - bar(x) $ è 0

Perché non sta in piedi: la somma degli xi−x¯ è zero, quindi il numeratore non è definito.

prima di fare certe affermazioni hai provato ad usarla? ti assicuro che funziona perfettamente e il risultato è al 99,9 percento delle volte paragonabile alla regressione lineare normale, semplicemente secondo me è più corretta

Consiglio: bagno di umiltà.

Non volevo essere arrogante ma è frustrante non essere capito, soprattutto su argomenti sinceramente piuttosto banali, ma sono anche consapevole che mi spiego da cani

Bokonon
"Pinzid":

Non volevo essere arrogante ma è frustrante non essere capito, soprattutto su argomenti sinceramente piuttosto banali, ma sono anche consapevole che mi spiego da cani

La regola aurea è che, quando non si è in grado di spiegarsi in modo chiaro e semplice, significa che si ha una grande confusione in testa.
Considerando direttamente gli scarti dalle medie $x'_i$ e $y'_i$, si ha che lo stimatore della retta di regressione passante per l'origine si può riscrivere come $(sum_(i=1)^n (y'_i)/(x'_i) x'_i^2)/(sum_(i=1)^n x'_i^2)$.
E' una media ponderata di rapporti/pendenze in cui è necessario assumere che $x'_i!=0$
Aldilà del fatto che viene introdotto un vincolo totalmente inutile e gratuito, la significatività geometrica è banale (l'algebra lineare invece offre un'interpretazione geometrica chiara e semplice) mentre la significatività statistica è proprio zero.

Per quanto riguarda la formula che ti sei inventato, dice molto su quanto tu abbia compreso l'argomento.
Matematicamente parlando, gli stimatori della retta di regressione univariata mica li hanno decisi tirando a sorte. Derivano dalla minimizzazione della funzione $f(alpha,beta)=sum_(i=1)^n (y_i-hat(y_i))^2=sum_(i=1)^n (y_i-alpha-betax_i)^2$
Puoi derivarli da te risolvendo il sistema $ { ( (partial f)/(partial alpha) =0 ),( (partial f)/(partial beta) =0 ):} $

Pinzid
Scusate il ritardo, che scemo, mi sono accorto che anche questa formula ha problemi con valori prossimi alla media, lo avevo già notato ma siccome veniva un'indetermina 0/0 l'ho tralasciato come se fosse risolvibile matematicamente coi limiti.
Non me ne ero accorto perchè se la si usa su popolazioni molto ampie di dati questo problema non viene fuori e la stima che da è perfettamente in linea con quella dell'OLS
E' una media ponderata di rapporti/pendenze in cui è necessario assumere che x'i≠0
Aldilà del fatto che viene introdotto un vincolo totalmente inutile e gratuito, la significatività geometrica è banale (l'algebra lineare invece offre un'interpretazione geometrica chiara e semplice) mentre la significatività statistica è proprio zero.

Per quanto riguarda la formula che ti sei inventato, dice molto su quanto tu abbia compreso l'argomento.
Matematicamente parlando, gli stimatori della retta di regressione univariata mica li hanno decisi tirando a sorte. Derivano dalla minimizzazione della funzione f(α,β)=∑i=1n(yi−yiˆ)2=∑i=1n(yi−α−βxi)2

Io l'ho vista così perchè mi è parsa avere un senso geometrico più sensato, ok la minimizzazione delle distanze sull'asse y, ma a me è parso che infatti non si tenesse conto invece della minimizzazione sull'asse x, e se invece che x,y fosse x,y,z? Io ho cercato di fare una formula generale che funzionasse in molti casi.
Cmq mi scuso ancora perchè la formula ha delle lacune credo di averla sistemata mettendoci la tangente solo che effettivamente diventa bruttina e a questo punto per semplicità meglio tenere l'OLS
La formula è diventata così
$ A = tan((sum(arctan(((y - bar(y)))/((x - bar(x))))( (x - bar(x))^2 + (y - bar(y))^2 )))/ (sum((x-bar(x))^2 + (y - bar(y))^2))) $
Dalle prove fatte sembra funzionare, ma non ne sono ancora certo al 100%
Come detto a me pare meglio poichè tiene conto anche della varianza in y ed è facilmente utilizzabile anche in dimensioni maggiori


Ps come non detto ha ancora dei problemi con valori di x prossimi alla media
Forse lo si risolve facendo un cose ed un'arcoseno in successione all'arcotangente ma viene davvero orribile come formula

gugo82
Anche se a distanza notevole dal primo post, faccio una considerazione a latere.

Secondo Pinzid:
"Pinzid":
Il docente propone
$ A = (Nsum(xy ) -sumxsumy )/ (Nsumx^2 -(sumx)^2) $
che è analoga a
$ A = (sum(x - bar(x))(y - bar(y)) )/ (sum(x-bar(x))^2 $

ma ciò è profondamente sbagliato, in quanto il docente non "propone" nulla... Si dimostra che la pendenza della retta dei minimi quadrati è quella lì.
Qualsiasi altra cosa che non sia un rimaneggiamento algebrico di quelle formule non è il coefficiente angolare della retta di regressione.

Tra l'altro, determinare quella roba lì è un esercizio di Analisi I che ho proposto anche agli ingegneri (vedi qui, Esercizio 43).

Rispondi
Per rispondere a questa discussione devi prima effettuare il login.