Analisi statistiche e previsioni future.

BryanM1
Salve a tutti,

Prima di esporvi il mio dubbio mi scuso anticipatamente per il mio linguaggio non-matematico :-D Ho giusto una conoscenza da liceo scientifico e non di più in questo campo.

Vorrei sapere se è possibile utilizzare statistiche passate per avere una previsione più o meno certa per eventi futuri dello stesso genere.

Consideriamo due scommettitori su eventi sportivi. Noi possiamo accedere alle loro precedenti scommesse effettuate quindi sono noti: percentuale di vittorie, quota scommesse.

Ammettendo che le quote medie di tutte le scommesse siano uguali x entrambi i giocatori:
Il giocatore #1 ha un rapporto partite vinte/partite perse pari al 70% dopo aver giocato 10.000 scommesse.
Il giocatore #2 ha un rapporto partite vinte/partite perse pari all' 80% dopo aver giocato 500 scommesse.

Con l'obiettivo di scegliere il giocatore più affidabile nel lungo termine, cioè quello che continuerà a trarre profitto + o - costante chi scegliereste? Perchè?

Se mi permettete una frase che probabilmente segnerà il mio ban dal forum: "Ad occhio il giocatore #1 sembra il + affidabile, perchè il giocatore #2 potrebbe essere stato fortunato ed aver ottenuto un punteggio maggiore; come si spiega matematicamente? Qual è la soglia di partite da analizzare per poter affermare con discreta certezza che il giocatore 2 non sta avendo solo fortuna e quindi ritenerlo migliore del giocatore 1?"

Risposte
Rggb1
Facendo due calcoli, è altamente probabile che il giocatore #2 sia più bravo (mi viene una $Z$ standard circa 4.78, qualcuno può verificare?), l'unica cosa che non mi convince è la differenza numerica fra i due campioni, ma tanté...

icklazza
IO ragionerei così per farla semplice
Quando gli intervalli di confidenza delle p stimate dei 2 giocatori non si sovrappongono più.

uno ha una varianza di (0.7*0.3)/10000
allora ha un intervallo di confidenza a un livello del 5% di 0.7 +- 2 * radice della varianza

l'altro lo costruisco allo stesso modo, se i due intervalli di confidenza non hanno punti in comune posso dire che le due probabilità di vittoria sono diverse.

Ma pensandoci meglio esistono dei test apposta per cose del genere, che non ricordo bene, ma non penso che il ragionamento sia troppo diverso dal mio. Qualcuno ha altre idee?

cenzo1
"icklazza":
esistono dei test apposta per cose del genere, che non ricordo bene, ma non penso che il ragionamento sia troppo diverso dal mio.

Concordo. Il test appropriato dovrebbe essere quello per la differenza tra due proporzioni (vedasi anche questo post).
A conti fatti mi viene un $"p-value"\sim10^(-6)$ (confermo la $Z$ di Rggb). Quindi il giocatore 2 è significativamente migliore.

Rggb1
"cenzo":
...confermo la $Z$ di Rggb..

Meno male... l'ho calcolata al volo, a mano. :-D

PS. Ho ovviamente usato lo stesso metodo del post che hai segnalato.

cenzo1
"Rggb":
... l'ho calcolata al volo, a mano. :-D

:shock: complimenti! :wink:

Ne approfitto per proporre un quesito simile che trovai un po' di tempo fa (prof. Masarotto, univ. Padova) e di cui non sono riuscito a trovare un criterio risolutivo soddisfacente... :oops:

Una fabbrica di televisori produce due tipi di tubi catodici: il tipo A e il tipo B. I tubi catodici hanno tempi di durata media, rispettivamente di 1495 ore e 1875 ore e scarti quadratici rispettivamente di 280 ore e 310 ore. In generale, è preferibile il tubo catodico che ha la durata più alta e variabilità più bassa. Quale dei due tubi catodici è preferibile ?


In pratica la situazione è illustrata nel seguente grafico:



Cosa ne pensate?

Grazie dei suggerimenti :)

Rggb1
Bellino questo esercizio.

Ora stacco, magari ci ritorno domattina. A naso direi di partire dall'ipotesi nulla che media e varianza siano uguali e vedere un'alternativa sui parametri per qualche livello altamente significativo (diciamo almeno 1%). Se avevi già fatto qualche calcolo mettilo, poi analizziamo.

cenzo1
Il quesito sta in un paragrafo in cui si tratta di indici di variabilità.
Ne deduco che, forse, l'intenzione dell'autore è di proporre il criterio del coefficiente di variazione.
In tal caso risulterebbe per il tubo A $280/1495\sim0.187$ e per il tubo B $310/1875\sim0.165$
Quindi sarebbe da preferire il tubo B perchè ha il minore rapporto tra scarto quadratico medio e media.

Però mi verrebbero in mente anche altri criteri per stabilire il tubo "preferibile".
Uno potrebbe essere di stabilire un parametro che tenga conto di media e scarto quadratico pesati in qualche modo..
oppure scegliere il tubo che ha la maggiore probabilità di superare una soglia di durata minima..

Mah.. non mi convince molto il coefficiente di variazione.

Riguardo alla tua proposta suggerisci una ipotesi nulla che coinvolga contemporaneamente media e varianza. Non saprei però come gestirla poi :?

Edit Riflettevo su un'altra cosa: nel disegnare il grafico ho dato per scontato che la durata del tubo catodico segua una distribuzione normale. In verità il testo non dice nulla in proposito.

Arado90
Masarotto fu mio professore a Statistica I :P
Quell'esercizio l'ho fatto pure io in preparazione all'esame l'anno scorso, e la soluzione col coefficiente di variazione è quella corretta (o almeno, dato che erano dispense di esercizi per il corso di Statistica I, quella era la soluzione che ci si aspettava dato il livello di conoscenze)

cenzo1
Grazie Arado per la conferma sul coefficiente di variazione.

[OT]
Ho scaricato e letto alcune delle dispense di Masarotto (che tra l'altro mi risulta abbia contribuito allo sviluppo di R) e le trovo molto chiare, essenziali e con esempi interessanti e divertenti! :) Per esempio "I cuculi e Darwin (per non parlare di pettirossi, scriccioli e maiali)" :P Sarebbe stato bello seguire un suo corso.
[/OT]

Arado90
Di nulla :D

[OT]Sì, le sue lezioni erano ottime, e non ci si annoiava mai :D
Vero, fa parte dell'R Development Core Team e ha curato l’implementazione di R per i sistemi Windows, oltre ad aver scritto "Laboratorio di Statistica con R" con Iacus. L'anno prossimo ce l'ho di nuovo per il corso di Statistica Computazionale :P[/OT]

BryanM1
Grazie mille delle numerose e pronte risposte ragazzi!

Come potete immaginare però il quesito posto è solo ideale in quanto è raro trovare 2 persone che abbiano effettuato scommesse sportive ad una quota media identica.

Ora com'è possibile valutare, con lo stesso metodo da voi proposto, persone che non hanno nè la stessa quota media a cui hanno scommesso, nè lo stesso profitto(ROI, return on investment, espresso in percentuale), nè lo stesso numero di giocate effettuate (turnover, rappresenta i soldi fin'ora giocati).

In particolare:

Come valutereste queste 3 persone?

- persona #1: ROI = +16.2% / TURNOVER = $15290
- persona #2: ROI = +17.1% / TURNOVER = $11000
- persona #3: ROI = +4.4% / TURNOVE = $197 499

Sareste così gentili da spiegarmi i passaggi matematici che effettuate oltre che darmi la risposta? :-D

Grazie in anticipo e buon Sabato a tutti

Rggb1
"cenzo":
Riguardo alla tua proposta suggerisci una ipotesi nulla che coinvolga contemporaneamente media e varianza.

Ehm no, mi sono espresso male, semmai partendo da $H_0$ che le medie sono uguali trovare un livello per poter fare una analisi successiva. Ma ovviamente mi stavo incartando, è chiaro che con i coefficiente di variazione è immediato.
PS. Vado subito a cercare ste' dispense...

@BryanM
Il metodo l'ha spiegato cenzo qui:
https://www.matematicamente.it/forum/ma- ... tml#501060
ovviamente, non fare caso al titolo ;). Si chiama, formalmente, test di ipotesi sulle differenze di frequenze relative (o differenze di proporzioni).

cenzo1
"BryanM":
Ora com'è possibile valutare, con lo stesso metodo da voi proposto, persone che non hanno nè la stessa quota media a cui hanno scommesso, nè lo stesso profitto(ROI, return on investment, espresso in percentuale), nè lo stesso numero di giocate effettuate (turnover, rappresenta i soldi fin'ora giocati).

In particolare:

Come valutereste queste 3 persone?

- persona #1: ROI = +16.2% / TURNOVER = $15290
- persona #2: ROI = +17.1% / TURNOVER = $11000
- persona #3: ROI = +4.4% / TURNOVE = $197 499

Queso caso mi sembra diverso dal precedente che hai proposto.

Intanto non guarderei tanto a quello che chiami turnover, cioè i soldi finora giocati.
Diciamo che sono sufficientemente grandi per ritenere attendibili le stime del ROI.
Un parametro che manca nei dati che hai proposto è la varianza del ROI: immagino che quelli che hai indicato sono dei valori attesi, ma che nascondono una certa aleatorietà.

Mi sembra a questo punto di intravedere un problema di natura economica, del tipo "ottimizzazione di un portafoglio".
La media del ROI è una misura del ritorno dell'investimento, la varianza è una misura del rischio.
In generale, più è alto il ritorno, maggiore è il rischio.
Il problema quindi potrebbe essere di minimizzare il rischio fissando un minimo ritorno atteso, oppure massimizzare il ritorno fissando un massimo rischio tollerabile.
Nel "portafoglio" potresti anche mettere una certa aliquota (non nulla) di tutti e 3 gli investimenti. Voglio dire che il problema non è più decidere quale delle 3 persone è migliore, ma qual è il mix ottimale.

Potresti trovare maggiore riscontro a questo problema della sezione di Economia del forum.

BryanM1
Grazie della risposta, comunque i turnover non sono eccessivamente grandi infatti non rappresentano valori reali bensì solo ideali, fai conto che la bet standard è di 100 quindi il terzo giocatore ha effettuato un numero significativo di bet in più degli altri 2. (almeno credo sia significativo :-D ).

I ROI non rappresentano valori previsti bensì ciò che fin'ora i singoli giocatori hanno effettivamente guadagnato. Tutti e tre sono in profitto avendo ROI positivo però in diversa misura.

Più che altro vorrei sapere se è possibile stabilire chi dei tre giocatori sarà il più profittevole da seguire in futuro per ottenere il massimo rendimento.

Nello specifico, se ci sarà un match su cui tutti e tre fanno una previsione, a chi affidarsi?

BryanM1
A pensarci meglio ora apro un altro thread e spiego meglio nei dettagli :-D

Rispondi
Per rispondere a questa discussione devi prima effettuare il login.