(S)correlazione: .... con novità

mircoFN1
[size=109].. e con sorpresa[/size]


Supponiamo di avere un campione numericamente rilevante (numerosità $n>= 20000$) di aver ottenuto per ogni elemento ($i=1..n$) il valore di due quantità $x_i$ e $y_i$ che, riportate su assi cartesiani, forniscono il seguente diagramma a dispersione:




(mi scuso per la qualità: è il mio primo tentativo, per altro guidato, grazie HPpurosangue!). Si intravedono i singoli punti ma molti sono ovviamente sovrapposti.

Ora la questione è questa: cosa direste (anche qualitativamente) sulla correlazione tra le due quantità?

Aspetto commenti, se la cosa interessa poi vi dico di cosa si tratta! 8-)

Risposte
mircoFN1
Grazie Fioravante

le righe non hanno comunque valore, sono resti della griglia del grafico rimasti dalla riduzione dell'ingrandimento dell'oggetto grafico :-D

tuttavia quello che osservi è proprio l'effetto del debole trend, che mostra un aumento di qualche unità percentuale della media locale rispetto a una dispersione che ha una estensione paragonabile al range del campione.

Penso quindi che condividi la mia opinione sulla discutibilità di stimare la 'y' in base alla 'x' .
Penso che non giocheresti (visto il tuo background :wink: ) dovendo puntare sulla 'y' sapendo solo la 'x', se la posta in gioco fosse molto alta e la perdita anche! A meno di non essere uno che ama il rischio!

Fioravante Patrone1
"mircoFN":

Per esempio mi interessa rispondere a domande del tipo: se posso misurare 'x' ma mi serve 'y', ho modo di fare una stima?
Posso in altri termini evitare di fare la misura 'y' se qualcuno mi dice la 'x', accettando (come si fa nelle scienze empiriche) un margine di incertezza ragionevole?

Beh, direi proprio di no!

Fioravante Patrone1
"mircoFN":

Cosa ne pensi?


Dunque, nel disegno vi sono 4 sottili linee orizzontali.
Mi soffermo sull'intervallo fra la terza e la quarta (dal basso)

Per i primi 5 valori delle $x$ la probabilità di osservare una $y$ in questo intervallo di valori è significativamente minore di quella di osservarla nel range centrale (a parità di lunghezza dell'intervallo verticale, naturalmente). Direi che il rapporto fra queste probabilità è più basso di 1/4 o 1/5.

Per gli ultimi 5 valori le due probabilità citate sopra sono "a occhio" equivalenti.

Pertanto, "qualcosa" si vede. Anche se, poi, più che ad una correlazione positiva sembra essere dovuto ad un aumento della dispersione.
Il fenomeno è ancora più rilevante se andiamo a vedere i punti che vanno a finire sopra la quarta riga orizzontale.

mircoFN1
"Fioravante Patrone":
Se si vuole la "correlazione lineare", ok.

Se invece si vuole un'altra cosa, ben più importante, che è cercare di racchiudere gli aspetti significativi del fenomeno in pochi parametri, allora direi che la correlazione lineare svolge una funzione piccolina, in questo senso. Mi sembrerebbe più ragionevole cercare di usare "indicatori" che mi evidenzino il "periodo" di questo fenomeno vagamente periodico, usando la "sinusoide dei minimi quadrati" indicata da lupo grigio (o sua parente stretta). O che mi mettano in evidenza l'aumento di dispersione.


OK ho capito il tuo punto.

A scanso di equivoci, la mia intenzione non è quella di osservare regolarità nel fenomeno (che so già che ci sono) in relazione alle singole variabili. Mi interessa caratterizzare il loro eventuale legame (se c'è).

Per esempio mi interessa rispondere a domande del tipo: se posso misurare 'x' ma mi serve 'y', ho modo di fare una stima?
Posso in altri termini evitare di fare la misura 'y' se qualcuno mi dice la 'x', accettando (come si fa nelle scienze empiriche) un margine di incertezza ragionevole?

Scusa l'approssimazione dei termini ma non avendovi dato i valori non pretendo risposte quantitative!

ciao

mircoFN1
"Fioravante Patrone":
a occhio...

d'altronde i temini "alto" e "significativo" sono un pelino qualitativi, per cui un approccio nasometrico, o spannometrico, o occhiometrico (insomma, i nostri sensi primordiali, esclusi olfatto e gusto che mi riesce difficile applicare; ammesso e non concesso che "spannometrico" possa riferirsi ai sensi del tatto e vista) non mi pare inadeguato

ma forse è meglio che lasci il campo agli "amici della statistica", per non rovinare il thread e non fare troppe brutte figure (credo di aver già superato la RDA - "Recommended Daily Allowances")


OK, è proprio all'occhio che mi riferivo, ma il mio occhio però non apprezza quella differenza. Ti dico come la vedo io così se sono strabico ne parliamo!

A me sembra che il campo si variabilità della 'y' sia sostanzialmente lo stesso per ogni valore della 'x' (a parte un debolissimo trend crescente che anche tu hai notato). Il trend però produce un effetto di dipendenza della 'y' dalla 'x' che è ridicolo rispetto alla dispersione propria della 'y' la quale dispersione non mi sembra che dipenda molto dalla 'x'.

Il mio occhio quindi non ravvisa una significativa differenza tra le due probabilità. In altri termini, mi sembra che, nella sostanza, se prendo un punto a caso un valore alto (o basso) della 'y' sia ottenibile in modo di fatto indipendente dal valore della 'x' .

Cosa ne pensi?

Fioravante Patrone1
Se si vuole la "correlazione lineare", ok.

Se invece si vuole un'altra cosa, ben più importante, che è cercare di racchiudere gli aspetti significativi del fenomeno in pochi parametri, allora direi che la correlazione lineare svolge una funzione piccolina, in questo senso. Mi sembrerebbe più ragionevole cercare di usare "indicatori" che mi evidenzino il "periodo" di questo fenomeno vagamente periodico, usando la "sinusoide dei minimi quadrati" indicata da lupo grigio (o sua parente stretta). O che mi mettano in evidenza l'aumento di dispersione.

mircoFN1
Per una volta devo dar ragione a Lupo grigio :shock:

In effetti al termine 'correlazione' si sottointende quasi sempre (anche se non è molto rigoroso) il qualificativo lineare. In statistica la correlazione (e il relativo parametro: coeff. di correlazione) è riferita alla retta dei minimi quadrati.

Tuttavia, a mia parziale discolpa, in questo caso credo che non sia molto significativo il tipo di funzione. interpolante.. .non vedo infatti modo di 'migliorare' significativamente l'interpolazione usando funzioni diverse (con più gradi di libertà) da quella lineare.

ciao

Fioravante Patrone1
a occhio...

d'altronde i temini "alto" e "significativo" sono un pelino qualitativi, per cui un approccio nasometrico, o spannometrico, o occhiometrico (insomma, i nostri sensi primordiali, esclusi olfatto e gusto che mi riesce difficile applicare; ammesso e non concesso che "spannometrico" possa riferirsi ai sensi del tatto e vista) non mi pare inadeguato

ma forse è meglio che lasci il campo agli "amici della statistica", per non rovinare il thread e non fare troppe brutte figure (credo di aver già superato la RDA - "Recommended Daily Allowances")

mircoFN1
"Fioravante Patrone":

Qualitativamente, direi che la probabilità di avere una $y$ "alta" in corrispondenza di una $x$ "alta" dovrebbe essere significativa.


ti posso chiedere se puoi spiegare da cosa ricavi questa ipotesi?

Fioravante Patrone1
"mircoFN":

sulla base di quello che si osserva, ovviamente nel campo di variazione del grafico, è significativa la probabilità di avere una $y$ alta se ho una '$x$ alta?
Oppure, viceversa, una 'y' bassa se ho una 'x' bassa?

Qui casca l'asino (solito sinonimo per "ignorante").
Non so fare ragionamenti quantitativi.
Qualitativamente, direi che la probabilità di avere una $y$ "alta" in corrispondenza di una $x$ "alta" dovrebbe essere significativa. Lo stesso non mi sentirei di dire nel secondo caso ($y$ "bassa" se $x$ è "bassa"). Mi sembra che il legame sia più tenue.

Da qual poco che so, le asserzioni precedenti dovrebbero dipendere dal fatto di conoscere o meno la distribuzione (congiunta?). O di poterne ipotizzare, senza svegliasi di notte nel pieno di un incubo.

Sk_Anonymous
Un esempio di analisi statistica riguardo la ‘correlazione’ di due variabili discrete $x$ e $y$ è quella da me fatta in…

https://www.matematicamente.it/f/viewtop ... &start=160

Per gli amici interessati all’argomento '11 settembre’ dirò che quanto prima conto di riprendere il discorso. Per stabilire in modo quantitativo la correlazione ho fatto uso della ‘retta dei minimi quadrati’ e la correlazione è tanto più ‘stretta’ quanto minore è lo scarto quadratico medio dei punti esaminati dalla retta stessa. Nel caso in questione se si usasse lo stesso criterio la retta dei minimi quadrati sarebbe probabilmente orizzontale e lo scarto quadratico medio coinciderebbe con la varianza delle $y_i$… per cui le grandezze $x_i$ e $y_i$ devono ritenersi assolutamente incorrelate. L’approccio con la retta dei minimi quadrati ha però una limitazione di fondo: essa presuppone che il ‘vero legame’ tra le $x_i$ e le $y_i$ sia lineare, vale a dire una legge del tipo…

$y=y_0+alpha*x$ (1)

Se si ipotizza invece che tale legame sia [ad esempio] del tipo…

$y=y_0+alpha*sin (omega*x+phi)$ (2)

… occorrerebbe trovare la ‘sonusoide dei minimi quadrati’ [ossia i valori di $y_0$,$alpha$,$omega$ e $phi$ che minimizzano lo scarto quadratico medio…] e quindi applicare lo stesso criterio. Naturalmente la scelta delle funzioni $y=y(x)$ ‘possibili candidate’ è assai ampia…

cordiali saluti

lupo grigio



an old wolf may lose his teeth, but never mhis nature

mircoFN1
"Fioravante Patrone":
hai ragione. Si vede un andazzo vagamente periodico.
Ma anche questo non molto pronunciato, imho


Altra interessante osservazione, che riserviamo per le prossime puntate!

ciao

mircoFN1
"Fioravante Patrone":

Non sono riportate sugli assi le coordinate. Presumendo che non ci sia un imbroglio dietro a questo, io vedo una debole, molto debole correlazione. Quando la x aumenta, anche la y lo fa (ma con calma). Ovviamente, anche qui, ammesso che non ci siano "imbrogli" sulle unità di misura.
Comunque, il fenomeno che si nota di più è l'aumento della dispersione di y all'aumentare di x (comunque, anche qui, senza esagerare).


Ovviamente nessun imbroglio, le scale sono state scelte in modo da coprire il range completo dei valori ed entrambe le grandezze sono adimensionali.
Non ho (ancora) riportato le scale solo perché potrebbero (in particolare la 'x') suggerire qualcosa del loro significato 'fisico'.

Concordo in pieno con la tua interpretazione e rilancio:

sulla base di quello che si osserva, ovviamente nel campo di variazione del grafico, è significativa la probabilità di avere una $y$ alta se ho una '$x$ alta?
Oppure, viceversa, una 'y' bassa se ho una 'x' bassa?

Fioravante Patrone1
hai ragione. Si vede un andazzo vagamente periodico.
Ma anche questo non molto pronunciato, imho

Eudale
Io che proprio non ne so nulla, mi sembra di vedere che i punti compresi tra i due rettangoli abbino un andamento tipo quello di una sinusoide...

Fioravante Patrone1
"mircoFN":

Ora la questione è questa: cosa direste (anche qualitativamente) sulla correlazione tra le due quantità?

Non sono riportate sugli assi le coordinate. Presumendo che non ci sia un imbroglio dietro a questo, io vedo una debole, molto debole correlazione. Quando la x aumenta, anche la y lo fa (ma con calma). Ovviamente, anche qui, ammesso che non ci siano "imbrogli" sulle unità di misura.
Comunque, il fenomeno che si nota di più è l'aumento della dispersione di y all'aumentare di x (comunque, anche qui, senza esagerare).

PS: di statistica so sicuramente meno di chiunque

mircoFN1
Quella è un'altra questione, ma, come direbbe lupo grigio (perdonatemi la citazione non dotta :wink: ) lasciamola alle prossime puntate!

Concentriamoci sull'andamento generale dei punti ......

cavallipurosangue
Di nulla :-D .

Anche se non sono un genio per la statistica, mi sembra che in mezzo a tutte quelle colonne l'ultima sia un po' diversa... se si facesse la caccia all'intruso io sceglierei quella... :-D

Rispondi
Per rispondere a questa discussione devi prima effettuare il login.