Alternative al calcolo della mediana

Mario751
Buongiorno a tutti,

Ho letto che il calcolo della mediana lo si preferisce a quello della media nel caso fossero presenti in una serie valori particolarmente bassi o particolarmente alti rispetto alla prevalenza dei valori presenti.

In una serie come questa : 3,4,6,7,7,9,10,37,49
Forse sarebbe più indicativo calcolare una mediana rispetto ad una media, suppongo

Domanda:
Può essere una valida e sensata alternativa nella sequenza sopra calcolare anziche la mediana, la media al netto dei due valori (37 e 49) che sono con evidenza anomali rispetto agli altri?
Quindi calcolare una semplice media senza conteggiare nella somma quei 2 numeri.

È un alternativa?

Grazie
Mario

Risposte
axpgn
Sai cos'è un outlier ?
Se ritieni che quei valori estremi lo siano, puoi tranquillamente escluderli dalle tue statistiche.
Altrimenti li tieni e ti calcoli sia la media che la mediana (e la varianza e ... :-D )
Voglio dire che le statistiche sono fatte per essere usate e poi ... valutate.

Mario751
Grazie Ax

Se avessi a che fare con due outlier, come nel mio caso e immagino che ci siano casi più estremi certo, tra calcolare la semplice mediana e una media senza contare gli outlier cosa sceglieresti?
Voglio prima capire tra le due cose cosa ha più senso fare ossia quale calcolo è più indicativo/rappresentativo del cosiddetto "valore vero"

axpgn
Lo puoi capire solo tu.
Tanto per capirci: io non ho la minima idea di cosa rappresentino quei valori ma anche se lo sapessi, non conosco il problema "sottostante", diciamo così, e con ciò voglio dire che anche se me lo dicessi non posso avere la stessa "sensibilità" e "consapevolezza" della questione come invece ce l'hai ovviamente tu.
Non può, a mio parere, "un'esterno" dare valutazioni sensate (anzi, peggio ancora, in questo caso sarebbero solo opinioni) su un qualcosa che conosce minimamente o addirittura per niente.
È vero che al giorno d'oggi proliferano i "tuttologi", soprattutto in Internet, ma è una strada che cerco di evitare (anche se a fatica :-D ).

Peraltro, non vedo problemi nel fare calcoli cioè i calcoli li puoi benissimo fare con e senza gli outlier, calcoli media, mediana, moda e tutto il resto.
POI valuti … :wink:

Mario751
No ok certo, il mio era solo un esempio solo basato sui numeri mettendo in evidenza la presenza di dati evidentemente anormali rispetto alla maggioranza.

Quando si fanno analisi/confronti dei redditi percepiti a livello europeo nelle varie nazioni vedo che si fa riferimento ai redditi mediani più che ai medi.

Esempio : Se su 10 persone 2 su 10 dichiarano 300.000 euro l'anno e gli altri 8 20.000 euro ho pensato che la mediana fosse un indicatore più appropriato, senza neanche arrivare a scomodare la varianza.
Poi ho pensato se anziché calcolare la mediana avesse senso anche calcolare una media ma senza considerare quelli che prendevano i 400.000 euro perche falsano la media stessa.

In questo caso vedresti come più attendibile una mediana oppure anche un calcolo depurato dagli outlier?

axpgn
Così sui due piedi, direi che usare la mediana sia la cosa migliore in tal caso …
Escludere i redditi più alti (che, per la maggior parte, non sono degli outlier) significa fare delle scelta a priori falsando sicuramente la media … IMHO

Mario751
In questo caso però i due tiiz che pigliano 300.000 euro sono degli outlier, sono molto distanti dagli altri e se non li contassimo la media sarebbe più vicina alla mediana se non pari ad essa e di conseguenza lo vedrei più un valore significativo.

Perché dici che escludere questi valori estremi falserebbe la media? Non ti seguo...non è il contrario?

axpgn
Parlavo in generale, il caso di soli dieci elementi riferito a quel tipo di analisi lo trovo poco significativo …
Se fai un'analisi sui redditi di una popolazione come minimo si parla di migliaia di dati (anzi sicuramente di più) quindi definire in tal caso quali siano gli outlier diventa difficile; per dire, se fossero nell'ordine delle centinaia ma anche solo delle decine, fare una scelta su quale è il livello da escludere sarebbe solo una scelta personale e poco obiettiva; la conseguenza sarebbe che i parametri che ne verrebbero fuori sarebbero falsati dalle nostre scelte aprioristiche.
Ripeto, è sensato porsi la domanda se nei dati ci sono degli outlier che inficerebbero i risultati statistici ma prima di escluderli ce ne vuole, ma tanto … :D … (volenti o nolenti, è un modo come un altro per falsificare una statistica :-D )

Mario751
Got it :) si certo capisco e condivido

Nel mio esempio parliamo di sufficiente omogeneità e concentrazione del livello dei redditi, che quei due fortunati che portano a casa 300.000 non farebbero proprio loro 2 statistica rispetto alla "normalità". Beati loro e in quel caso specifico mi sentirei di escluderli.

axpgn
Al contrario, io non li escluderei proprio: il 20% della popolazione non è certo "outlier", non si può lasciar fuori un pezzo così "grosso", sarebbe sicuramente una falsificazione.
In questo caso, come detto, la mediana è proprio l'indicatore migliore ma la media sarebbe anch'essa significativa perché ti direbbe che pur di fronte ad una grossa omogeneità, una fetta importante della tua popolazione (e non solo qualche riccone casuale) si discosta fortemente dagli altri.
Bisogna usarle tutte le armi a disposizione :wink:

Mario751
Tra le armi però aggiungerei a sto punto qualche indice di concentrazione Ax, la sola media, anche se è un buon 20% del totale guadagna bene, può esprimere la media del pollo e chi guadagna 20k l'anno potrebbe non essere d'accordo con questa media.
Non sono un esperto ma penso che bisognerebbe necessariamente accompagnare alla media calcolata altri indicatori che descrivono decisamente meglio la media stessa.
Se in un giornale, nell'ipotesi del campione sopra, scrivessero che il reddito medio è pari a euro 76.000 e io fossi uno degli 8 sopra, non sarei molto d'accordo e per me la media vale zero. Che poi è quello che vediamo tutti i giorni in tanti giornali, si sparano medie su medie ma la gente o muore di fame o c'è una fascia che invece ha 4 macchine e 5 case. Purtroppo troppa disuguaglianza. IMHO
Anyway, thanks :)

axpgn
Non hai letto la mia risposta allora ... ho scritto che la mediana è l'indicatore migliore non la media, semplicemente ho aggiunto che però quest'ultima non va trascurata ...

Mario751
Certo che l'ho letta
Infatti ho solo aggiunto che se non vogliamo trascurare la media e la si intenda calcolare, a mio avviso, questa debba essere perlomeno accompagnata da altri indicatori altrimenti secondo me da sola non comunica niente di significativo

Rispondi
Per rispondere a questa discussione devi prima effettuare il login.