(S)correlazione: .... con novità
[size=109].. e con sorpresa[/size]
Supponiamo di avere un campione numericamente rilevante (numerosità $n>= 20000$) di aver ottenuto per ogni elemento ($i=1..n$) il valore di due quantità $x_i$ e $y_i$ che, riportate su assi cartesiani, forniscono il seguente diagramma a dispersione:

(mi scuso per la qualità: è il mio primo tentativo, per altro guidato, grazie HPpurosangue!). Si intravedono i singoli punti ma molti sono ovviamente sovrapposti.
Ora la questione è questa: cosa direste (anche qualitativamente) sulla correlazione tra le due quantità?
Aspetto commenti, se la cosa interessa poi vi dico di cosa si tratta!
Supponiamo di avere un campione numericamente rilevante (numerosità $n>= 20000$) di aver ottenuto per ogni elemento ($i=1..n$) il valore di due quantità $x_i$ e $y_i$ che, riportate su assi cartesiani, forniscono il seguente diagramma a dispersione:

(mi scuso per la qualità: è il mio primo tentativo, per altro guidato, grazie HPpurosangue!). Si intravedono i singoli punti ma molti sono ovviamente sovrapposti.
Ora la questione è questa: cosa direste (anche qualitativamente) sulla correlazione tra le due quantità?
Aspetto commenti, se la cosa interessa poi vi dico di cosa si tratta!

Risposte
Va bene, sveliamo l'arcano:
la fonte è il CISIA
http://www.cisiaonline.it/portal/aspbit ... /index.asp
il campione è l'insieme degli studenti che l'anno scorso si sono sottoposti al test d'ingresso per ingegneria (in quasi tutte le facoltà italiane)
il campione è piuttosto rappresentativo del territorio nazionale (ovviamente non è rappresentativo della popolazione dei diplomati, e questo, se possibile, è ancora più sconfortante!)
il valore in ordinate rappresenta il voto del test di ingresso.
La scorrelazione che si osserva è, per me, veramente impressionante, ho opinioni in merito ma vorrei prima sentire le vostre.
PS: sul fatto che $x$ non sia quantitativo non posso convenire con Davide, che questo quantificatore sia discutibile, invece, convengo in pieno e l'esempio mostrato ne è una (anche se non l'unica) riprova!
ciao
la fonte è il CISIA
http://www.cisiaonline.it/portal/aspbit ... /index.asp
il campione è l'insieme degli studenti che l'anno scorso si sono sottoposti al test d'ingresso per ingegneria (in quasi tutte le facoltà italiane)
il campione è piuttosto rappresentativo del territorio nazionale (ovviamente non è rappresentativo della popolazione dei diplomati, e questo, se possibile, è ancora più sconfortante!)
il valore in ordinate rappresenta il voto del test di ingresso.
La scorrelazione che si osserva è, per me, veramente impressionante, ho opinioni in merito ma vorrei prima sentire le vostre.
PS: sul fatto che $x$ non sia quantitativo non posso convenire con Davide, che questo quantificatore sia discutibile, invece, convengo in pieno e l'esempio mostrato ne è una (anche se non l'unica) riprova!
ciao
Beh, per maturità mi stupisce molto la uniformità nella distribuzione fra i voti e anche nella dispersione fra i valori
Sulla distribuzione fra i voti, le penurie citate da Davide11 me le aspetterei molto ma molto più marcate di quanto non avvenga nel grafico. Sia chiaro, è solo una sensazione, Mica so come sono distribuiti i volti della maturità! Almeno, all'Università i 29 sono davvero merce molto rara. A meno che non sia stato forzato il fatto di richiedere lo stesso numero di dati per ogni valore della "x" o qualcosa del genere.
Sono davvero curioso di sapere cosa ci stia sulle "y" (anche in rapporto a quanto dicevo sulla dispersione fra i valori)
Sulla distribuzione fra i voti, le penurie citate da Davide11 me le aspetterei molto ma molto più marcate di quanto non avvenga nel grafico. Sia chiaro, è solo una sensazione, Mica so come sono distribuiti i volti della maturità! Almeno, all'Università i 29 sono davvero merce molto rara. A meno che non sia stato forzato il fatto di richiedere lo stesso numero di dati per ogni valore della "x" o qualcosa del genere.
Sono davvero curioso di sapere cosa ci stia sulle "y" (anche in rapporto a quanto dicevo sulla dispersione fra i valori)
Se è voto di maturità io rifletterei sul fatto di classificarlo come fenomeno quantitativo:
pensandoci bene il voto di maturità non può essere classificato come variabile quantitativa, infatti la nostra stessa esperienza ci insegna che il voto non è un'unità di misura, inoltre la distribuzione stessa è molto influenzata da variabili psicologiche (penuria di 69, 79, 89 e 99), ma cosa più importante è che fra i vari punti non vi è uguale distanza.
La distanza fra 71 e 77 è la medesima della distanza fra 94 e 100?
Ecco spiegata, allora, l'anomalia della distribuzione: ci si aspettava una distribuzione "quasi normale" da una variabile quantitativa ovvero pochi eventi che si ripetono molte volte e un'infinità di eventi rarissimi.
Non riesco a capire cosa possa essere la Y.
Sono dell'avviso che sia necessario dividere in k gruppi la modalità voto attraverso una suddivisione soggettiva (esempio da 60 a 62 come appena suff.; da 62 a 68 come suff.; ecc ecc).
A questo punto, come ho già scritto, cambiare completamente analisi grafica e calcolando indici di connessione molto più adatti della correlazione per questo tipo di fenomeni.
pensandoci bene il voto di maturità non può essere classificato come variabile quantitativa, infatti la nostra stessa esperienza ci insegna che il voto non è un'unità di misura, inoltre la distribuzione stessa è molto influenzata da variabili psicologiche (penuria di 69, 79, 89 e 99), ma cosa più importante è che fra i vari punti non vi è uguale distanza.
La distanza fra 71 e 77 è la medesima della distanza fra 94 e 100?
Ecco spiegata, allora, l'anomalia della distribuzione: ci si aspettava una distribuzione "quasi normale" da una variabile quantitativa ovvero pochi eventi che si ripetono molte volte e un'infinità di eventi rarissimi.
Non riesco a capire cosa possa essere la Y.
Sono dell'avviso che sia necessario dividere in k gruppi la modalità voto attraverso una suddivisione soggettiva (esempio da 60 a 62 come appena suff.; da 62 a 68 come suff.; ecc ecc).
A questo punto, come ho già scritto, cambiare completamente analisi grafica e calcolando indici di connessione molto più adatti della correlazione per questo tipo di fenomeni.
"Davide11":
Quantità discreta da 60 a 100...potrebbe essere il voto di maturità.
già....
Quantità discreta da 60 a 100...potrebbe essere il voto di maturità.
Mi sembra arrivato il momento di aggiungere le scale ....

vediamo se adesso qualcuno scopre di quale 'fenomeno' si tratta.
proprio nessun sospetto ... nemmeno per la quantità rappresentata sull'asse $x$?

vediamo se adesso qualcuno scopre di quale 'fenomeno' si tratta.

proprio nessun sospetto ... nemmeno per la quantità rappresentata sull'asse $x$?
Per esempio quali funzioni?
A mio avviso non è possibile aumentare la correlazione significativamente in quel modo ... ma sono pronto a ricredermi.
A mio avviso non è possibile aumentare la correlazione significativamente in quel modo ... ma sono pronto a ricredermi.
Un coefficiente di 0.3 non è da buttar via, anche se come tu dici è importante conoscere che tipo di fenomeni si sta studiando.
Se lo scopo è la costruzione di un modello previsionale e si vuole escludere il modello più semplice (quello lineare), si devono verificare altri tipi di relazione: alcuni qui hanno azzardato funzioni da fantascienza, ma io rimarrei sul semplice.
Se lo scopo è la costruzione di un modello previsionale e si vuole escludere il modello più semplice (quello lineare), si devono verificare altri tipi di relazione: alcuni qui hanno azzardato funzioni da fantascienza, ma io rimarrei sul semplice.
"Davide11":
Rimango dell'idea che un diagramma di correlazione non sia adatto per variabili quantitative discrete.
Di solito, nelle analisi dei dati, si accettano come correlate variabili con almeno 0,3 - 0,4 di coefficiente di correlazione.
Al di sotto di questi valori la correlazione non è da considerare.
Suggerisco di partire dalle statistiche descrittive, che danno più informazioni di qesto diagramma di correlazione.
Poi, data la numerosità del campione, suggerisco l'eliminazione dei valori anomali (outlier, si vedono dal diagramma box-plot e dai suoi valori).
Inoltre analizzare le frequenze relative.
Un diagramma di correlazione di questo tipo, oltre che confuso, è poco informativo, ricordo che un'analisi un giorno si dovrà presentare ad un pubblico che vorrà capirci qualcosa.
Grazie per le considerazioni e per i suggerimenti metodologici che condivido.
In primo luogo il coefficiente di correlazione lineare è proprio 0.3 (quindi al limite secondo la tua affermazione).
L'uso della soglia di correlazione che tu dici (0.3-0.4) è molto legata al tipo di problema. Se faccio un'analisi di mercato mi posso accontentare di correlazioni abbastanza basse (effetto della statura sul consumo di dentifricio!). Se si parla di questioni scientifiche (per esempio nella determinazione di leggi fisiche o nell'analisi di misure) già una correlazione di 0.6-0.7 è da considerarsi indice di forte disturbo o di cattiva qualità nella misura o di criticità dell'esperimento. Per fare un esempio, nella taratura di una banalissima bilancia da cucina il coefficiente di correlazione è generalmente almeno 0.99 (essendo il valore massimo 1).
La mia richiesta non era di tipo quantitativo, ma ribadisco, era basata su questa domanda:
in un fenomeno del genere, che tipo di previsione (a priori) si può fare sul valore della $y$ avendo il valore della $x$?
Non ho detto nulla sulle grandezze, non per creare suspance ma solo per non influenzare la vostra interpretazione.
Mi sembra di poter dire che tutti conveniamo, se pur con sfumature diverse, che, a parte una debole tendenza (quantificata nel valore di 0.3) le due grandezze possono essere considerate scorrelate.
Possiamo concordare su questa affermazione?
un valore alto di 'x' non è una garanzia solida per aspettarsi un alto valore di 'y'
Rimango dell'idea che un diagramma di correlazione non sia adatto per variabili quantitative discrete.
Di solito, nelle analisi dei dati, si accettano come correlate variabili con almeno 0,3 - 0,4 di coefficiente di correlazione.
Al di sotto di questi valori la correlazione non è da considerare.
Suggerisco di partire dalle statistiche descrittive, che danno più informazioni di qesto diagramma di correlazione.
Poi, data la numerosità del campione, suggerisco l'eliminazione dei valori anomali (outlier, si vedono dal diagramma box-plot e dai suoi valori).
Inoltre analizzare le frequenze relative.
Un diagramma di correlazione di questo tipo, oltre che confuso, è poco informativo, ricordo che un'analisi un giorno si dovrà presentare ad un pubblico che vorrà capirci qualcosa.
Di solito, nelle analisi dei dati, si accettano come correlate variabili con almeno 0,3 - 0,4 di coefficiente di correlazione.
Al di sotto di questi valori la correlazione non è da considerare.
Suggerisco di partire dalle statistiche descrittive, che danno più informazioni di qesto diagramma di correlazione.
Poi, data la numerosità del campione, suggerisco l'eliminazione dei valori anomali (outlier, si vedono dal diagramma box-plot e dai suoi valori).
Inoltre analizzare le frequenze relative.
Un diagramma di correlazione di questo tipo, oltre che confuso, è poco informativo, ricordo che un'analisi un giorno si dovrà presentare ad un pubblico che vorrà capirci qualcosa.
"Eudale":
Io ripeto so proprio poco su questa materia! Tuttavia la distribuzione a mo' di $ y = sin(x) $ forse può essere intesa come tante curve di Gauss che si alternano prima sopra poi sotto... Quindi io proverei (non so nemmeno quello che dico) a spezzare il grafico in tanti "seni" quanti ce ne sono...
a dir la verità, anch'io la prima cosa che ho pensato quando ho visto il grafico, è stata 'i seni', anzi 'tanti seni', vediamo che ci dice mircofn.
Io ripeto so proprio poco su questa materia! Tuttavia la distribuzione a mo' di $ y = sin(x) $ forse può essere intesa come tante curve di Gauss che si alternano prima sopra poi sotto... Quindi io proverei (non so nemmeno quello che dico) a spezzare il grafico in tanti "seni" quanti ce ne sono...
"Davide11":
Osservazione personale:
La variabile "x" è qualitativa vero?
Forse un'analisi grafica su un diagramma di dispersione può essere non adatta.
Hai già provato a calcolare il coefficiente di correlazione?
Che progreamma usi per l'analisi?
Ciao
no sono entrambe quantitative.
Il coefficiente di correlazione lineare è molto basso
Osservazione personale:
La variabile "x" è qualitativa vero?
Forse un'analisi grafica su un diagramma di dispersione può essere non adatta.
Hai già provato a calcolare il coefficiente di correlazione?
Che progreamma usi per l'analisi?
Ciao
La variabile "x" è qualitativa vero?
Forse un'analisi grafica su un diagramma di dispersione può essere non adatta.
Hai già provato a calcolare il coefficiente di correlazione?
Che progreamma usi per l'analisi?
Ciao
la prova dell'esistenza degli ufo? neanche questa? mi sembrava uno strano andamento delle x rispetto alle y.
"wedge":
qualitativamente direi che le due quantità sono linearmente correlate, ....
si tratta di stabilire quanto sono correlate. La probabilità che due variabili in un campione numeroso abbiano un coefficiente di correlazione nullo è praticamente zero, quindi un coefficiente di correlazione non nullo si misura per qualsiasi campione.
Prova a rispondere alla mia domanda sulla possibilità di prevedere una grandezza data l'altra......
qualitativamente direi che le due quantità sono linearmente correlate, ad esse sembra che si sommi un rumore di fondo periodico.
si tratta della rappresentazione statistica del vuoto cosmico? ci ho preso, eh?
Lupo grigio ... fermati subito per carità!
Non è un segnale temporale e la variabile 'x' è discreta! Il range è 40 (anzi 41 perché nel grafico manca la prima colonna che non cambia la sostanza) ma non parte da zero
Abbi pazienza e vedrai che la cosa si chiarirà
Non è un segnale temporale e la variabile 'x' è discreta! Il range è 40 (anzi 41 perché nel grafico manca la prima colonna che non cambia la sostanza) ma non parte da zero

Abbi pazienza e vedrai che la cosa si chiarirà
Dunque, dunque...
dal momento che negli ultimi trent'anni quasi non ho fatto altro che vedere schermi di ocilloscopi [gulp!...
] è difficile che non riconosca un 'diagramma' di un oscillografo con memoria...

L'elemento inconfondibile di 'riconoscimento' è il fatto che per le $x_n$ ci sono in tutto $40$ valori possibili e tutti equidistanziati di una quantità $T$. Si tratta quindi di un 'segnale' temporale campionato a frequenza $f_c=1/T$ e quelli che vediamo sono $N=40*M$ valori della $y$ rilevati agli istanti $t=t_0+n*T$, $n=0,1,...,N-1$. Volendo effettuare la 'correlazione' degli $n$ campioni con una 'famiglia di funzioni periodiche' la soluzione più efficiente è il calcolo della Discrete Fuorier Trasform nel modo seguente...
$Y(k)= sum_(n=0)^(N-1) y(n)*e^(-j*2*pi*n*k/N)$ (1)
cordiali saluti
lupo grigio
An old wolf may lose his teetrh, but never his nature
dal momento che negli ultimi trent'anni quasi non ho fatto altro che vedere schermi di ocilloscopi [gulp!...



L'elemento inconfondibile di 'riconoscimento' è il fatto che per le $x_n$ ci sono in tutto $40$ valori possibili e tutti equidistanziati di una quantità $T$. Si tratta quindi di un 'segnale' temporale campionato a frequenza $f_c=1/T$ e quelli che vediamo sono $N=40*M$ valori della $y$ rilevati agli istanti $t=t_0+n*T$, $n=0,1,...,N-1$. Volendo effettuare la 'correlazione' degli $n$ campioni con una 'famiglia di funzioni periodiche' la soluzione più efficiente è il calcolo della Discrete Fuorier Trasform nel modo seguente...
$Y(k)= sum_(n=0)^(N-1) y(n)*e^(-j*2*pi*n*k/N)$ (1)
cordiali saluti
lupo grigio

An old wolf may lose his teetrh, but never his nature