Distribuzione binomiale applicata al gioco del lotto

Tomasotto
Buon giorno
Come prima cosa mi complimento per il forum, utilissimo, con tanti esempi ed esercizi risolti, anche se molte cose sono fuori dalle mie conoscenze matematiche.
Ho studiato, qualche decennio fa, al liceo scientifico, il programma prevedeva studio di funzioni, integrali e una spolverata sulle derivate, non ho mai studiato però l'insiemistica. All'università ho dato un esame di statistica di base orientato all'economia, sempre senza insiemistica. Nella vita lavorativa non ho più avuto modo di approfondire né la matematica né la statistica. Questa premessa nella speranza che l'eventuale risposta sia redatta in maniera a me comprensibile.

Arrivo al problema che come da titolo riguarda la distribuzione binomiale applicata al gioco del lotto.

$((n),(k)) * p^k * q^(n-k)$

con $p = 5/90 = 1/18 = 0,0556$ , $q = 1-p = 0,9444$ , $n = 72$

la risoluzione per $k = 0, 1, 2, 3 ... 20$, mi rappresenta quante volte, teoricamente, un numero esce 1 volta, 2 volte, ... nelle 72 estrazioni considerate.

Quindi ad esempio
$p_k$ per $k = 0, = 0,0163193 * 90 = 1,4687385 $ 1 numero (e mezzo :) ) non esce durante le 72 estrazioni.
$p_k$ per $k = 1, = 0,0691171 * 90 = 6,2205396 $ 6 numeri escono una sola volta
$p_k$ per $k = 2, = 0,1443328 * 90 = 12,9899503 $ 13 numeri escono 2 volte
$p_k$ per $k = 3, = 0,1981038 * 90 = 17,8293435 $ 18 numeri escono 3 volte
La somma di tutte le $p_k$ ( per k da 0 a 20) da quasi $1$ , (gli arrotondamenti non permettondo di ottenere $1$ esatto)

Un altro valore importante nel gioco del lotto è il ritardo. Ho quindi calcolato la distribuzione teorica degli estratti in base al ritardo.

La formula usata è $p * q ^ (r-1)$ dove $r$ è il ritardo considerato da 1 a 72.

Sin qui è tutto giusto o ho commesso degli errori?

A questo punto vorrei ottenere una tabella con $r$ righe e $k$ colonne, ogni cella della tabella dovrebbe rappresentare la distribuzione nelle $k$ classi in base al ritardo $r$".

Essendo due variabili aleatorie indipendenti tra di loro ogni cella della tabella è data dalla somma di $p_k + p_r$ ? o devo ricalcolare la distribuzione binomiale in funzione della riga $r$?

Mi sono perso e non riesco a venirne a capo.

Tomasotto

Risposte
markowitz
"Tomasotto":

Arrivo al problema che come da titolo riguarda la distribuzione binomiale applicata al gioco del lotto.

$ ((n),(k)) * p^k * q^(n-k) $

con $ p = 5/90 = 1/18 = 0,0556 $ , $ q = 1-p = 0,9444 $ , $ n = 72 $

la risoluzione per $ k = 0, 1, 2, 3 ... 20 $, mi rappresenta quante volte, teoricamente, un numero esce 1 volta, 2 volte, ... nelle 72 estrazioni considerate.

Quindi ad esempio
$ p_k $ per $ k = 0, = 0,0163193 * 90 = 1,4687385 $ 1 numero (e mezzo :) ) non esce durante le 72 estrazioni.
$ p_k $ per $ k = 1, = 0,0691171 * 90 = 6,2205396 $ 6 numeri escono una sola volta
$ p_k $ per $ k = 2, = 0,1443328 * 90 = 12,9899503 $ 13 numeri escono 2 volte
$ p_k $ per $ k = 3, = 0,1981038 * 90 = 17,8293435 $ 18 numeri escono 3 volte
La somma di tutte le $ p_k $ ( per k da 0 a 20) da quasi $ 1 $ , (gli arrotondamenti non permettondo di ottenere $ 1 $ esatto)

Un altro valore importante nel gioco del lotto è il ritardo. Ho quindi calcolato la distribuzione teorica degli estratti in base al ritardo.

La formula usata è $ p * q ^ (r-1) $ dove $ r $ è il ritardo considerato da 1 a 72.

Sin qui è tutto giusto o ho commesso degli errori?


Buongiorno Tommasotto,
le formule sono corrette.
Comunque innanzitutto da dove esce $72$?

Quello che puoi trovare è la prob che il numero scelto si presenti $k$ volte nell'insieme delle $72$. La prob di osservare $0$ volte il numero scelto è circa $1,68%$; $3$ volte è $19,81%$; $10$ volte è $0,43%$ ecc. ... i tuoi calcoli sono corretti

Nei calcoli che mostri $90$ che ruolo ha?

Tomasotto
Grazie per la risposta
Hai ragione non ho spiegato perché ho scelto $n=72$. E' una scelta del tutto arbitraria, è dato da 4 volte il ciclo teorico 4*18=72 (in 18 estrazioni dovrebbero uscire tutti i 90 numeri), se utilizzo valori minori di 4 ottengo dei ritardi troppo bassi e molti casi li trovo nella classe $k=0$ (non usciti), se utilizzo valori più alti di 4 mi avvicino troppo alla distribuzione teorica e non riesco a mettere in evidenza anomalie del periodo considerato. Devo ancora però verificare se 4 è il numero di cicli giusto per quello che voglio trovare.
Ho moltiplicato la probabilità per 90 solo per comodità, così verifico subito la differenza tra la distribuzione teorica e la distribuzione calcolata su dati reali.

Grazie ancora per la risposta

markowitz
"Tomasotto":
Grazie ancora per la risposta

Il tema di cui parli mi incuriosisce :-)

"Tomasotto":
(in 18 estrazioni dovrebbero uscire tutti i 90 numeri)...

Fai molta attenzione a quel "dovrebbero" ... è meglio sostituirlo con un "potrebbero" ... in effetti è il numero minimo di estrazioni necessarie per osservare tutti i numeri ... ma la probabilità che ciò avvenga è bassissima, non dovrebbe esserci neanche una ripetizione. Diciamo che se le estrazioni fossero senza reinmissione $18$ sarebbero quelle necessarie per veder estrarre tutti i numeri. Ma vi è reinmissione quindi è tutta un'altra storia :D

"Tomasotto":

Devo ancora però verificare se 4 è il numero di cicli giusto per quello che voglio trovare.

Mi spieghi un po meglio cosa intendi ? Potrebbe essere utile anche a te per fissare le idee.

Tomasotto
Certo 18 è del tutto teorico, se uscissero tutti in 18 estrazioni, possibilmente anche in fila 1,2,3,4 ... 89,90, per poi ricominciare da 1, il gioco non esisterebbe e lo stato sarebbe più povero.

18 è il ciclo teorico o tempo medio di successo. $T=1/p$. E' 18 in questo caso, ma se si considerano altre combinazioni di gioco, ad esempio giocare 2 numeri sperando che almeno 1 esca, cambiano la probabilità e quindi anche $q$, $n$ e $T$.

Una volta che si è stabilita la probabilità per ogni classe $k$, basta prendere un qualsiasi periodo lungo almeno 72 estrazioni (in questo caso) e verificare che la realtà si scosta, a volte anche sensibilmente dalla teoria. Ti riporto un esempio in cui $Pk=p_k*90$ e $Qk$ è il numero reale contando i singoli numeri usciti.
per $k=0 Pk=1,46 Qk=3$
per $k=1 Pk=6,22 Qk=5$
per $k=2 Pk=12,98 Qk=13$
per $k=3 Pk=17,82 Qk=22$
per $k=4 Pk=18,09 Qk=15$
per $k=5 Pk=14,47 Qk=10$
per $k=6 Pk=9,50 Qk=11$
per $k=7 Pk=5,27 Qk=4$
per $k=8 Pk=2,52 Qk=4$
per $k=9 Pk=1,05 Qk=3$
se ho ricopiato correttamente i numeri, la somma dei Pk e Qk da 90.

A questo punto si può fare una considerazione.
Si vede che la classe $k=3$ ha troppi numeri (22 su 18 previsti). I casi in cui il valore di questa classe diminuisce sono due. Il primo: il numero esce quindi nel periodo considerato passa da $k=3$ a $k=4$, come si vede la classe $k=4$ ha pochi elementi (15 su 18 previsti) e verrebbe rimpolpata da questo evento. Il secondo è più difficile da spiegare, cercherò di essere chiaro. Man mano che avvengono le estrazioni, il nostro campione di 72 estrazioni si sposta verso il basso di una riga (pensando di accodare i nuovi 5 numeri alla tabella precedente) e si perde una riga dall'alto, se il numero era uscito proprio in questa riga passa da $k=3$ a $k=2$.

Su come selezionare tra i 22 numeri quello vincente... su questo non credo che esista una risposta.

Si può facilmente provare che basta utilizzare 7 cicli (882 estrazioni) per ottenere una distribuzione reale molto simile alla teorica e quindi non aver più elementi da considerare per un ipotetico cambiamento di classe.

Quello che sto cercando adesso è vedere se esiste una relazione tra questa distribuzione ed il ritardo del numero. Il campione reale che ho a disposizione è molto piccolo, le prove effettuate sino ad ora non danno alcuna relazione.
In una normale tabella ho riportato sulle righe il ritardo $R$, sulle colonne le classi $k$, ad ogni estrazione distribuisco i 90 numeri in base a $R$ e $k$, conto quanti valori ho in ogni casella e quali sono i casi vincenti. Il rapporto tra questi 2 numeri mi dovrebbe dire se esistono delle combinazioni di $R$ e $k$ da preferire nella selezione dei numeri.

axpgn
Il problema è che non ti serve a niente scoprire anomalie perché sono casuali, non ripetitive, dato che i numeri sono equiprobabili (a meno di taroccamenti, ovvio ... :-D ) , diversamente dal totocalcio dove gli eventi NON sono equiprobabili e lì sì che aveva senso (adesso molto meno ... cmq, qualcosa ho vinto ... :wink: ... se poi passasse di qui nino ... :D )

Cordialmente, Alex

markowitz
A prescindere dal fatto che ha ragione Alex ... mi interessa capire il tuo ragionamento ... che ora mi sembra più chiaro.
Quindi dando per buono che lo scostamento osservabile per $k=3$, in qualche convincente senso, è statisticamente anomalo ... alla fine si tratta di numeri che si sono presentati "troppe volte", che ne deduci? E soprattutto a livello strategico, come procedi ?

Tomasotto
"markowitz":
E soprattutto a livello strategico, come procedi ?

Continuo a divertirmi, stavo per usare il termine giocare ma in questo contesto poteva avere un doppio senso, e a passare il tempo tenendo svegli i pochi neuroni rimasti. La settimana enigmistica e i sudoku dopo un po' stancano.
Penso che sia chiaro a tutti che generando casualmente un qualsiasi numero, tra 1 e 90, e ponendolo in gioco (sino alla sua uscita e solo allora si genera un secondo numero da mettere in gioco), prima o poi questo uscirà, sino ad ora almeno è sempre andata così. Se si fa un rapporto tra i numeri giocati e i numeri vinti, nel lungo periodo, si ottiene esattamente 18, come previsto dalle formule. Per ora, provando e riprovando diversi "algoritmi" (il termine algoritmi è un po' eccessivo, sono solo condizioni di scelta su cosa giocare) in un gioco continuato sono riuscito ad abbassare questo rapporto da 18 a 16,52. Sono molto contento di questo risultato che detto così non sembra, ma ha dell'incredibile (per cui quanto detto da axpgn è sicuramente vero, ma... ). Lo stato paga 10, per cui il mio miglior risultato è sicuramente in perdita economica.

Non avendo le conoscenze matematiche adeguate, sono costretto a procedere con la "statistica empirica", per tentativi, il che richiede tanto tempo e grande pazienza e intuito per analizzare i risultati ottenuti.

"markowitz":
alla fine si tratta di numeri che si sono presentati "troppe volte"

Perché non cominciare da quelli che si sono presentati "poche volte" e vedere se recuperano :) .

Tomasotto

markowitz
"Tomasotto":

Continuo a divertirmi, stavo per usare il termine giocare ma in questo contesto poteva avere un doppio senso, e a passare il tempo tenendo svegli i pochi neuroni rimasti. La settimana enigmistica e i sudoku dopo un po' stancano.
...
Non avendo le conoscenze matematiche adeguate, sono costretto a procedere con la "statistica empirica", per tentativi, il che richiede tanto tempo e grande pazienza e intuito per analizzare i risultati ottenuti.

Ottima idea :D

"Tomasotto":

Se si fa un rapporto tra i numeri giocati e i numeri vinti, nel lungo periodo, si ottiene esattamente 18, come previsto dalle formule. Per ora, provando e riprovando diversi "algoritmi" (il termine algoritmi è un po' eccessivo, sono solo condizioni di scelta su cosa giocare) in un gioco continuato sono riuscito ad abbassare questo rapporto da 18 a 16,52. Sono molto contento di questo risultato che detto così non sembra, ma ha dell'incredibile ...

[quote="markowitz"] ... alla fine si tratta di numeri che si sono presentati "troppe volte"

Perché non cominciare da quelli che si sono presentati "poche volte" e vedere se recuperano :) .

Tomasotto[/quote]
E' qui che ti volevo :-)
certo che si può cominciare da quelli ... ma alla fine, in un modo più o meno sofisticato che sia, si sta sempre girando attorno al concetto di numeri ritardatari. E' una strategia che in varie forme continua a ripresentarsi sempre ... ma resta sempre perdente, almeno in teoria.
Sarebbe da vedere come hai ottenuto quel $16,52$ e poi valutare se davvero si tratta di un risultato "incredibile", ovvero se è, in qualche convincente senso statistico, significativamente diverso da $18$.
Rispondere potrebbe non essere facile ma, tanto per cominciare, guardando la distribuzione teorica vs empirica che hai riportato sopra (ottima idea) ... gli scostamenti "ad occhio" non mi sembrano anomali ... anche se andrebbero valutati ad esempio con un test $chi^2$.

Inoltre il bello è che, come probabilmente intendeva Alex, anche quando qualche test confermasse la "stranezza" delle realizzazioni ... difficilmente si potrebbe veramente credere ad una probabilità non equa tra i vari numeri o ad una loro dipendenza di qualche tipo. Il processo generatore dei dati è noto ... mentre tutte le inferenze statistiche che si possono costruire sono state pensate per processi che non lo sono. Ergo, qualunque stranezza è dovuta al caso per definizione.

"Tomasotto":

Lo stato paga 10, per cui il mio miglior risultato è sicuramente in perdita economica.

Infatti il Lotto è un gioco lungi dall'essere equo ... anche ammesso che in qualche gioco si possa cercare qualche "stranezza" per guadagnarci sopra ... sicuramente non è il caso del Lotto dove questa dovrebbe essere colossale.

In definitiva, soldi al Lotto non ne farai mai, a meno di aver grande fortuna, ma se è per tenere sveglia la mente ... non smettere mai. E' quello che cerco di fare anche io :)

Tomasotto
"markowitz":

... anche se andrebbero valutati ad esempio con un test $chi^2$.


Guardo cos'è e come si fa, caso mai ti chiedo aiuto :), poi mi aiuti, spero, a valutare i risultati. Grazie del consiglio.

Tomasotto
"markowitz":

si sta sempre girando attorno al concetto di numeri ritardatari. E' una strategia che in varie forme continua a ripresentarsi sempre ... ma resta sempre perdente, almeno in teoria.

Si il ritardatario è una strategia perdente, anche se il tempo, il susseguirsi delle varie estrazioni, è intrinseco nel gioco. Se non si gioca il ritardatario, comunque si gioca qualcosa che nel tempo deve variare o non variare, un interessante esempio è l'equilibrio instabile.

"markowitz":

Sarebbe da vedere come hai ottenuto quel $16,52$ e poi valutare se davvero si tratta di un risultato "incredibile", ovvero se è, in qualche convincente senso statistico, significativamente diverso da $18$.

Hai un minimo di preparazione sul gioco del lotto? Conosci i sistemi virtuali e i ritardi relativi? Posso raccontarti tutto, ma temo che il burbero tommik, ci espelle dal forum per continuato "Fuori tema" e "Istigazione al gioco" :lol: .

Veniamo al calcolo del $ chi^2 $.
Sto leggendo le dispense del Prof. Nicola Cufaro Petroni, se servono trovi l'indirizzo del file.pdf nei testi consigliati, ero arrivato al capitolo 2, pag.20 ed in un colpo solo sono passato a pag, 129 :) "Test del $ chi^2 $ di adattamento".
Per calcolarlo ho realizzato una tabella come indicato sulle dispense, in 8.1, che riporta frequenze assolute, probabilità e frequenze relative. Ho raggruppato le classi $k=0$ e $k=1$ in $k=1$, e la $k=7$ è $k>=7$. Facendo riferimento all'esempio del messaggio precedente ottengo $chi^2 = 3,99$ che corrisponde, guardando sulle tabelle del $chi^2$ per 6 gradi di libertà ad un livello di probabilità di $0,8$.
Se ho capito questo vuol dire che la distribuzione reale è molto vicina alla distribuzione teorica. Quindi le "anomalie" che vedo (22 casi su 18 previsti) in realtà sono dei "normali" scostamenti.

Come puoi immaginare di tabelle di queste genere ne riesco a creare migliaia, avendo a disposizione circa 3000 dati di estrazioni per 10 ruote. Spulciando qua e la, ho trovato ad esempio un valore di $chi^2= 13,24$, a cui corrisponde un livello di probabilità di $0,05$. (le $Q_k$ considerate in questo caso per $k$ da 1 a 7 sono, 9,6,25,21,6,11,12) come devo interpretare questo dato? Se hai un attimo di tempo puoi verificare i valori del $chi^2$ che ottengo solo per controllo, se sono sbagliati :( entriamo nel dettaglio dei conti e vediamo di capire dove ho sbagliato. Qual'è un valore di soglia del $chi^2$ per cui devo considerare "speciali" i dati della distribuzione?

Grazie per l'aiuto che mi dai.

Lo_zio_Tom
"Tomasotto":
ma temo che il burbero tommik, ci espelle dal forum per continuato "Fuori tema" e "Istigazione al gioco"

cerco solo di fare del mio meglio per mantenere la stanza in ordine; in ogni caso le mie osservazioni sono in ottemperanza al regolamento e non per idiosincrasie personali.

Ciò premesso, pur non entrando nel merito del topic né di come hai impostato il test, ti faccio solo notare quanto segue:

"Tomasotto":

ottengo $chi^2 = 3,99$ che corrisponde, guardando sulle tabelle del $chi^2$ per 6 gradi di libertà ad un livello di probabilità di $0,8$.


Come vedi già 3.45 ha un p-value di 0.75 e quindi è evidente che il p-value di 3.99 sarà minore....


Click sull'immagine per visualizzare l'originale


...e con 6 gdl viene circa $0.678$. Con le tavole non è nemmeno facile calcolarlo, a meno che tu non abbia una tavola molto dettagliata...per avere il risultato preciso devi usare un calcolatore, anche Excel va bene.
Inoltre, per decidere se accettare o meno $H_0$ non serve calcolare il p-value ma basta confrontare il $chi_(S T A T)^2=3.99$ con il valore critico, ad esempio al 5%, di 12.6 per accettare l'ipotesi.

Tomasotto
"tommik":

cerco solo di fare del mio meglio per mantenere la stanza in ordine; in ogni caso le mie osservazioni sono in ottemperanza al regolamento e non per idiosincrasie personali.

Certo, e lo fai anche molto bene. La mia non era una critica o polemica, come vedi ho messo anche una faccina sorridente. Spiegherei volentieri a markowitz i vari procedimenti, soprattutto per capire se le varie ipotesi fatte possono avere qualche fondamento scientifico o sono solo "elucubrazioni" di un folle, ma non mi sembra questa la sede adatta. Adesso vedo se posso contattare markowitz in privato, naturalmente se ha ancora voglia di darmi retta, e lasciamo sul forum solo la parte statistica e l'interpretazione dei risultati.

"tommik":

Come vedi già 3.45 ha un p-value di 0.75 e quindi è evidente che il p-value di 3.99 sarà minore....

Purtroppo per l'interpretazione dei dati ho fatto riferimento a questa tabella, http://www00.unibg.it/dati/corsi/40025/ ... a_chi2.pdf che proprio per la colonna 0.25 ha dei valori diversi, adesso cerco di capire se è un banale errore di stampa o un altro modo di calcolare il chi quadro con relativa tabella di interpretazione.

"tommik":

con il valore critico, ad esempio al 5%, di 12.6 per accettare l'ipotesi.

Grazie, è un buon punto di partenza, provo ad evidenziarmi i casi maggiori di tale valore e vedo cosa ne cavo fuori (devo ancora capire se sono i casi che mi possono interessare o quelli da scartare).

Grazie mille Tomasotto

Lo_zio_Tom
la tua tabella è identica alla mia...solo che la mia, oltre ad essere un po' più dettagliata, dà la funzione di ripartizione $P(X<=x)$ mentre la tua dà il p-value $P(X>x)$

Se guardi la mia tabella alla colonna 0.75 ottieni gli stessi numeri della tua colonna 0.25.

Dato che non stai studiando per un esame, puoi tranquillamente lasciare perdere le tavole ed usare Excel, dove ci sono tabulate tutte le principali distribuzioni. Per la $chi^2$ basta fare

DISTRIB.CHI(X;gdl)


ed ottieni subito il valore di $alpha$ richiesto

PS: mi sfugge sempre come hai trovato p=0.8

per prendere un po' di confidenza con il test in oggetto puoi guardare questo

markowitz
Buongiorno Tommasotto, sono tornato.
"Tomasotto":
[quote="markowitz"]
si sta sempre girando attorno al concetto di numeri ritardatari. E' una strategia che in varie forme continua a ripresentarsi sempre ... ma resta sempre perdente, almeno in teoria.

Si il ritardatario è una strategia perdente, anche se il tempo, il susseguirsi delle varie estrazioni, è intrinseco nel gioco. Se non si gioca il ritardatario, comunque si gioca qualcosa che nel tempo deve variare o non variare, un interessante esempio è l'equilibrio instabile.[/quote]
Non capisco cosa intendi.

"Tomasotto":

[quote="markowitz"]
Sarebbe da vedere come hai ottenuto quel $16,52$ e poi valutare se davvero si tratta di un risultato "incredibile", ovvero se è, in qualche convincente senso statistico, significativamente diverso da $18$.

Hai un minimo di preparazione sul gioco del lotto? Conosci i sistemi virtuali e i ritardi relativi? Posso raccontarti tutto, ma temo che il burbero tommik, ci espelle dal forum per continuato "Fuori tema" e "Istigazione al gioco" :lol: .
[/quote]
Se avrai la pazienza di cercare di spiegarmi i tratti centrali senza passare a terminologie usate in qualche sito di "specialisti" ma rimanendo a basi statistico-probabilistiche decenti ... penso di poter capire ... e penso che tommik non ci banni. Infondo il forum dovrebbe servire a condividere idee non solo conoscenze accademiche.

"Tomasotto":

Veniamo al calcolo del $ chi^2 $.
...
Se ho capito questo vuol dire che la distribuzione reale è molto vicina alla distribuzione teorica. Quindi le "anomalie" che vedo (22 casi su 18 previsti) in realtà sono dei "normali" scostamenti.

Infatti è così ed è proprio ciò che sospettavo.
Per i dettagli numerici: anche io utilizzo sette classi: $k=0 and 1$,$k=2,3,4,5,6$ e $k>=7$ e però trovo che la statistica è circa $3,66$ con p-valore circa $0,72$.

"Tomasotto":

Come puoi immaginare di tabelle di queste genere ne riesco a creare migliaia, avendo a disposizione circa 3000 dati di estrazioni per 10 ruote. Spulciando qua e la, ho trovato ad esempio un valore di $chi^2= 13,24$, a cui corrisponde un livello di probabilità di $0,05$. (le $Q_k$ considerate in questo caso per $k$ da 1 a 7 sono, 9,6,25,21,6,11,12) come devo interpretare questo dato? Se hai un attimo di tempo puoi verificare i valori del $chi^2$ che ottengo solo per controllo, se sono sbagliati :( entriamo nel dettaglio dei conti e vediamo di capire dove ho sbagliato. Qual'è un valore di soglia del $chi^2$ per cui devo considerare "speciali" i dati della distribuzione?


Qui devi fare occhio. Il problema è un poco delicato e ... puoi fregare molte persone (anche non neofite) ... tra cui te stesso.
Non puoi selezionare scientemente l'insieme di dati che minimizza il p-valore e comportarti come se fosse una estrazione del tutto casuale (per inciso sembra proprio che molti contributi di ricerca soffrano di questo problema). La selezione deve essere appunto onestamente casuale ... o altrimenti dovresti cambiare i valori critici ... ma evitiamo.
In ogni caso facendo finta che la realizzazione (9,6,25,21,6,11,12) l'avessi trovata "onestamente" allora avremmo che secondo i miei calcoli la statistica varrebbe circa $13,66$ ed il p-valore circa $0,0337$ ovvero sarebbe si sospettosamente basso.
Quindi mi chiedi (o meglio mi chiederesti ... se non fosse una realizzazione selezionata) che fare ?
Si ritorna a quanto già accennato da me in precedenza ... il processo generativo dei dati lo conosciamo o no? O in altri termini siamo davvero disposti a credere che la nulla possa essere falsa o siamo persuasi del fatto che qualunque scostamento è, per definizione, solo disturbo statistico. In quest'ultimo caso concluderemmo che il campione scelto era semplicemente "casualmente inusuale", nel caso precedente ... si sospetta.
Qui entriamo in filosofia. Come ti dicevo questi test sono stati pensati per casi in cui il processo generativo dei dati è ignoto e quindi la veridicità delle ipotesi ... veramente in discussione.

Ti faccio un paio di esempi numerici così ti diverti anche con i conti. La realizzazione $8,13,18,18,14,10,9$ è, per cosi dire, perfetta ovvero produce un p-valore massimizzato per il caso di specie ovvero poco inferiore ad $1$ ; mentre la realizzazione $8,6,35,14,10,6,11$ produce un p-valore poco superiore a $0$.
Diciamo che se prendessi a caso un insieme di $72$ cinquine e, sistemando i dati come qui facciamo, trovassi la seconda realizzazione ... ci crederei poco al campione sfigato e molto al fatto che i numeri/palline non si presentano in modo equiprobabile e/o indipendente per estrazione ... ergo, almeno in assenza di altre informazioni, penserei ad un gioco in qualche senso truccato.

"Tomasotto":

Grazie per l'aiuto che mi dai.

Sono feliche di contribuire a temi interessanti. Spero di essere stato utile.

markowitz
"Tomasotto":
Spiegherei volentieri a markowitz i vari procedimenti, soprattutto per capire se le varie ipotesi fatte possono avere qualche fondamento scientifico o sono solo "elucubrazioni" di un folle, ma non mi sembra questa la sede adatta. Adesso vedo se posso contattare markowitz in privato, naturalmente se ha ancora voglia di darmi retta, e lasciamo sul forum solo la parte statistica e l'interpretazione dei risultati.

Parlare in privato non è un problema ma penso si possa restare sul forum. Il metodo d'indagine di cui stiamo provando a parlare, a prescindere da possibili errori, è senza dubbio scientifico.

markowitz
"markowitz":

...
Quindi mi chiedi (o meglio mi chiederesti ... se non fosse una realizzazione selezionata) che fare ?
Si ritorna a quanto già accennato da me in precedenza ... il processo generativo dei dati lo conosciamo o no? O in altri termini siamo davvero disposti a credere che la nulla possa essere falsa o siamo persuasi del fatto che qualunque scostamento è, per definizione, solo disturbo statistico. In quest'ultimo caso concluderemmo che il campione scelto era semplicemente "casualmente inusuale", nel caso precedente ... si sospetta.
Qui entriamo in filosofia. Come ti dicevo questi test sono stati pensati per casi in cui il processo generativo dei dati è ignoto e quindi la veridicità delle ipotesi ... veramente in discussione.

Ti faccio un paio di esempi numerici così ti diverti anche con i conti. La realizzazione $8,13,18,18,14,10,9$ è, per cosi dire, perfetta ovvero produce un p-valore massimizzato per il caso di specie ovvero poco inferiore ad $1$ ; mentre la realizzazione $8,6,35,14,10,6,11$ produce un p-valore poco superiore a $0$.
Diciamo che se prendessi a caso un insieme di $72$ cinquine e, sistemando i dati come qui facciamo, trovassi la seconda realizzazione ... ci crederei poco al campione sfigato e molto al fatto che i numeri/palline non si presentano in modo equiprobabile e/o indipendente per estrazione ... ergo, almeno in assenza di altre informazioni, penserei ad un gioco in qualche senso truccato.


Diciamo che a parziale soluzione della problematica di cui parlo si può andare a ragionare di livello di significatività del test. In generale si usano i livelli $0,10 - 0,05 - 0,01$ che corrisponde alla probabilità dell'errore di prima specie. Diciamo che sostenere una priori forte sulla veridicità della nulla implica che si debba considerare più seriamente l'errore di prima specie rispetto a quello di seconda (che peraltro non è sotto controllo). Questo implica che nel caso in oggetto ci si debba orientare su livelli di significatività bassi, tipo $0,01$ o inferiori.
Ragionando in questo modo si può capire che un p-valore superiore a $0,03$, come quello prima visto, non sarebbe comunque convincente; l'esempio successivo che ho riportato, che ha un p-valore inferiore a $1/1000$, lo sarebbe.

In soldoni per mettere seriamente in discussione la "corretezza" di un gioco come il Lotto l'evidenza statistica dovrebbe essere schiacciante.

Tomasotto
"Tomasotto":

A questo punto vorrei ottenere una tabella con $r$ righe e $k$ colonne, ogni cella della tabella dovrebbe rappresentare la distribuzione nelle $k$ classi in base al ritardo $r$".

Essendo due variabili aleatorie indipendenti tra di loro ogni cella della tabella è data dalla somma di $p_k + p_r$ ? o devo ricalcolare la distribuzione binomiale in funzione della riga $r$?

Mi sono perso e non riesco a venirne a capo.
Tomasotto


Buona sera
mi scuso se non mi sono fatto più vivo, ma è cominciato un "difficile" periodo di vacanza, che in parte ho passato, tra la lettura delle dispense e la risoluzione del problema di come realizzare la tabella.
La tabella a doppia entrata o (di contingenza) sono riuscito finalmente a calcolarla... e una volta vista tutto il problema si è chiarito.
E' una tabella dove sulle colonne ho riportato il valore di $k$ mentre sulle righe il ritardo $r$. Ad ogni estrazione ho quindi i 90 numeri caratterizzati da una $r$ (per $r>72$ $r=0$) e da una $k$ (per $k>10$ $k=0$), dove $k$ è il numero delle volte in cui il numero è uscito nelle precedenti 72 estrazioni. E' evidente (e questa è l'intuizione che mi è mancata) che un numero al ritardo 1 può essere uscito più volte nelle precedenti 72 estrazioni, mentre un numero a ritardo 72 può essere uscito solo 1 volta (quella proprio al ritardo 72). Quello che si ottiene quindi è una tabella triangolare!
La stessa cosa avviene se si calcola la distribuzione binomiale con $n=72$, $n=71$, ... $n=1$.

markowitz adesso leggo con calma le tue risposte e ti rispondo.

Rispondi
Per rispondere a questa discussione devi prima effettuare il login.