(S)correlazione: .... con novità

mircoFN1
[size=109].. e con sorpresa[/size]


Supponiamo di avere un campione numericamente rilevante (numerosità $n>= 20000$) di aver ottenuto per ogni elemento ($i=1..n$) il valore di due quantità $x_i$ e $y_i$ che, riportate su assi cartesiani, forniscono il seguente diagramma a dispersione:




(mi scuso per la qualità: è il mio primo tentativo, per altro guidato, grazie HPpurosangue!). Si intravedono i singoli punti ma molti sono ovviamente sovrapposti.

Ora la questione è questa: cosa direste (anche qualitativamente) sulla correlazione tra le due quantità?

Aspetto commenti, se la cosa interessa poi vi dico di cosa si tratta! 8-)

Risposte
mircoFN1
Va bene, sveliamo l'arcano:


la fonte è il CISIA

http://www.cisiaonline.it/portal/aspbit ... /index.asp

il campione è l'insieme degli studenti che l'anno scorso si sono sottoposti al test d'ingresso per ingegneria (in quasi tutte le facoltà italiane)

il campione è piuttosto rappresentativo del territorio nazionale (ovviamente non è rappresentativo della popolazione dei diplomati, e questo, se possibile, è ancora più sconfortante!)

il valore in ordinate rappresenta il voto del test di ingresso.


La scorrelazione che si osserva è, per me, veramente impressionante, ho opinioni in merito ma vorrei prima sentire le vostre.


PS: sul fatto che $x$ non sia quantitativo non posso convenire con Davide, che questo quantificatore sia discutibile, invece, convengo in pieno e l'esempio mostrato ne è una (anche se non l'unica) riprova!

ciao

Fioravante Patrone1
Beh, per maturità mi stupisce molto la uniformità nella distribuzione fra i voti e anche nella dispersione fra i valori

Sulla distribuzione fra i voti, le penurie citate da Davide11 me le aspetterei molto ma molto più marcate di quanto non avvenga nel grafico. Sia chiaro, è solo una sensazione, Mica so come sono distribuiti i volti della maturità! Almeno, all'Università i 29 sono davvero merce molto rara. A meno che non sia stato forzato il fatto di richiedere lo stesso numero di dati per ogni valore della "x" o qualcosa del genere.

Sono davvero curioso di sapere cosa ci stia sulle "y" (anche in rapporto a quanto dicevo sulla dispersione fra i valori)

...148
Se è voto di maturità io rifletterei sul fatto di classificarlo come fenomeno quantitativo:
pensandoci bene il voto di maturità non può essere classificato come variabile quantitativa, infatti la nostra stessa esperienza ci insegna che il voto non è un'unità di misura, inoltre la distribuzione stessa è molto influenzata da variabili psicologiche (penuria di 69, 79, 89 e 99), ma cosa più importante è che fra i vari punti non vi è uguale distanza.
La distanza fra 71 e 77 è la medesima della distanza fra 94 e 100?
Ecco spiegata, allora, l'anomalia della distribuzione: ci si aspettava una distribuzione "quasi normale" da una variabile quantitativa ovvero pochi eventi che si ripetono molte volte e un'infinità di eventi rarissimi.
Non riesco a capire cosa possa essere la Y.
Sono dell'avviso che sia necessario dividere in k gruppi la modalità voto attraverso una suddivisione soggettiva (esempio da 60 a 62 come appena suff.; da 62 a 68 come suff.; ecc ecc).
A questo punto, come ho già scritto, cambiare completamente analisi grafica e calcolando indici di connessione molto più adatti della correlazione per questo tipo di fenomeni.

mircoFN1
"Davide11":
Quantità discreta da 60 a 100...potrebbe essere il voto di maturità.


già....

...148
Quantità discreta da 60 a 100...potrebbe essere il voto di maturità.

mircoFN1
Mi sembra arrivato il momento di aggiungere le scale ....




vediamo se adesso qualcuno scopre di quale 'fenomeno' si tratta. 8-)


proprio nessun sospetto ... nemmeno per la quantità rappresentata sull'asse $x$?

mircoFN1
Per esempio quali funzioni?
A mio avviso non è possibile aumentare la correlazione significativamente in quel modo ... ma sono pronto a ricredermi.

...148
Un coefficiente di 0.3 non è da buttar via, anche se come tu dici è importante conoscere che tipo di fenomeni si sta studiando.
Se lo scopo è la costruzione di un modello previsionale e si vuole escludere il modello più semplice (quello lineare), si devono verificare altri tipi di relazione: alcuni qui hanno azzardato funzioni da fantascienza, ma io rimarrei sul semplice.

mircoFN1
"Davide11":
Rimango dell'idea che un diagramma di correlazione non sia adatto per variabili quantitative discrete.
Di solito, nelle analisi dei dati, si accettano come correlate variabili con almeno 0,3 - 0,4 di coefficiente di correlazione.
Al di sotto di questi valori la correlazione non è da considerare.
Suggerisco di partire dalle statistiche descrittive, che danno più informazioni di qesto diagramma di correlazione.
Poi, data la numerosità del campione, suggerisco l'eliminazione dei valori anomali (outlier, si vedono dal diagramma box-plot e dai suoi valori).
Inoltre analizzare le frequenze relative.

Un diagramma di correlazione di questo tipo, oltre che confuso, è poco informativo, ricordo che un'analisi un giorno si dovrà presentare ad un pubblico che vorrà capirci qualcosa.


Grazie per le considerazioni e per i suggerimenti metodologici che condivido.

In primo luogo il coefficiente di correlazione lineare è proprio 0.3 (quindi al limite secondo la tua affermazione).
L'uso della soglia di correlazione che tu dici (0.3-0.4) è molto legata al tipo di problema. Se faccio un'analisi di mercato mi posso accontentare di correlazioni abbastanza basse (effetto della statura sul consumo di dentifricio!). Se si parla di questioni scientifiche (per esempio nella determinazione di leggi fisiche o nell'analisi di misure) già una correlazione di 0.6-0.7 è da considerarsi indice di forte disturbo o di cattiva qualità nella misura o di criticità dell'esperimento. Per fare un esempio, nella taratura di una banalissima bilancia da cucina il coefficiente di correlazione è generalmente almeno 0.99 (essendo il valore massimo 1).

La mia richiesta non era di tipo quantitativo, ma ribadisco, era basata su questa domanda:
in un fenomeno del genere, che tipo di previsione (a priori) si può fare sul valore della $y$ avendo il valore della $x$?

Non ho detto nulla sulle grandezze, non per creare suspance ma solo per non influenzare la vostra interpretazione.

Mi sembra di poter dire che tutti conveniamo, se pur con sfumature diverse, che, a parte una debole tendenza (quantificata nel valore di 0.3) le due grandezze possono essere considerate scorrelate.

Possiamo concordare su questa affermazione?

un valore alto di 'x' non è una garanzia solida per aspettarsi un alto valore di 'y'

...148
Rimango dell'idea che un diagramma di correlazione non sia adatto per variabili quantitative discrete.
Di solito, nelle analisi dei dati, si accettano come correlate variabili con almeno 0,3 - 0,4 di coefficiente di correlazione.
Al di sotto di questi valori la correlazione non è da considerare.
Suggerisco di partire dalle statistiche descrittive, che danno più informazioni di qesto diagramma di correlazione.
Poi, data la numerosità del campione, suggerisco l'eliminazione dei valori anomali (outlier, si vedono dal diagramma box-plot e dai suoi valori).
Inoltre analizzare le frequenze relative.

Un diagramma di correlazione di questo tipo, oltre che confuso, è poco informativo, ricordo che un'analisi un giorno si dovrà presentare ad un pubblico che vorrà capirci qualcosa.

son Goku1
"Eudale":
Io ripeto so proprio poco su questa materia! Tuttavia la distribuzione a mo' di $ y = sin(x) $ forse può essere intesa come tante curve di Gauss che si alternano prima sopra poi sotto... Quindi io proverei (non so nemmeno quello che dico) a spezzare il grafico in tanti "seni" quanti ce ne sono...


a dir la verità, anch'io la prima cosa che ho pensato quando ho visto il grafico, è stata 'i seni', anzi 'tanti seni', vediamo che ci dice mircofn.

Eudale
Io ripeto so proprio poco su questa materia! Tuttavia la distribuzione a mo' di $ y = sin(x) $ forse può essere intesa come tante curve di Gauss che si alternano prima sopra poi sotto... Quindi io proverei (non so nemmeno quello che dico) a spezzare il grafico in tanti "seni" quanti ce ne sono...

mircoFN1
"Davide11":
Osservazione personale:

La variabile "x" è qualitativa vero?
Forse un'analisi grafica su un diagramma di dispersione può essere non adatta.
Hai già provato a calcolare il coefficiente di correlazione?
Che progreamma usi per l'analisi?

Ciao


no sono entrambe quantitative.
Il coefficiente di correlazione lineare è molto basso

...148
Osservazione personale:

La variabile "x" è qualitativa vero?
Forse un'analisi grafica su un diagramma di dispersione può essere non adatta.
Hai già provato a calcolare il coefficiente di correlazione?
Che progreamma usi per l'analisi?

Ciao

son Goku1
la prova dell'esistenza degli ufo? neanche questa? mi sembrava uno strano andamento delle x rispetto alle y.

mircoFN1
"wedge":
qualitativamente direi che le due quantità sono linearmente correlate, ....


si tratta di stabilire quanto sono correlate. La probabilità che due variabili in un campione numeroso abbiano un coefficiente di correlazione nullo è praticamente zero, quindi un coefficiente di correlazione non nullo si misura per qualsiasi campione.
Prova a rispondere alla mia domanda sulla possibilità di prevedere una grandezza data l'altra......

wedge
qualitativamente direi che le due quantità sono linearmente correlate, ad esse sembra che si sommi un rumore di fondo periodico.

son Goku1
si tratta della rappresentazione statistica del vuoto cosmico? ci ho preso, eh?

mircoFN1
Lupo grigio ... fermati subito per carità!

Non è un segnale temporale e la variabile 'x' è discreta! Il range è 40 (anzi 41 perché nel grafico manca la prima colonna che non cambia la sostanza) ma non parte da zero :twisted:

Abbi pazienza e vedrai che la cosa si chiarirà

Sk_Anonymous
Dunque, dunque...
dal momento che negli ultimi trent'anni quasi non ho fatto altro che vedere schermi di ocilloscopi [gulp!... :shock: :?] è difficile che non riconosca un 'diagramma' di un oscillografo con memoria...



L'elemento inconfondibile di 'riconoscimento' è il fatto che per le $x_n$ ci sono in tutto $40$ valori possibili e tutti equidistanziati di una quantità $T$. Si tratta quindi di un 'segnale' temporale campionato a frequenza $f_c=1/T$ e quelli che vediamo sono $N=40*M$ valori della $y$ rilevati agli istanti $t=t_0+n*T$, $n=0,1,...,N-1$. Volendo effettuare la 'correlazione' degli $n$ campioni con una 'famiglia di funzioni periodiche' la soluzione più efficiente è il calcolo della Discrete Fuorier Trasform nel modo seguente...

$Y(k)= sum_(n=0)^(N-1) y(n)*e^(-j*2*pi*n*k/N)$ (1)

cordiali saluti

lupo grigio



An old wolf may lose his teetrh, but never his nature

Rispondi
Per rispondere a questa discussione devi prima effettuare il login.