Lotto: ambo che non esce
chissà da quanti decenni truccano il lotto. Possibile che da 6000 estrazioni non esca il 17-56 a bari ? Un ambo, con 5 nr estratti ha una probabilità su 400 di uscire. Secondo media matematica sarebbe dovuto uscire almeno 15 volte ! Molto strano. Probabilmente vedono che molta gente punta all'ambo 17-56 e quando decidono di "estrarre" il 17, tolgono il 56 e viceversa. Non mi stupirei visti i livelli di corruzione e marciume che contraddistingue l'Italia.
Ecco vorrei vedere, numeri alla mano, se la probabilità che tale ambo non esca per tutte quelle volte sia davvero così bassa da poter essere considerato come evento sospetto. Un volontario che fa i calcoli?
Io qualche tempo fa ho fatto qualcosa di simile in questa discussione sulla roulette, vorrei rifare qualcosa del genere per questo caso, ma non ho il tempo/voglia ora.
Grazie a chi si cimenterà!
Infatti, non ha nessun significato ad es. chiedersi se la roulette è taroccata o meno perché si è osservata una serie di 15 uscite consecutive di numeri pari.
Occorre esaminare dopo quanti lanci questo evento si verifica mediamente: se il numero di lanci è 200, la cosa è fortemente sospetta e sicuramente quella roulette non è regolare (il massimo ritardo medio dei dispari + lo zero dovrebbe essere 8); se invece il numero dei lanci è 20.000, la cosa non è assolutamente sorprendente, anzi rientra nella perfetta previsione.
Analogamente è per l'ambo più ritardatario su ogni ruota: come avevo scritto nel mio primo messaggio di questa discussione, dalla storia del lotto italiano (oltre 9.000 estrazioni) sono stati estratti quasi un milione di ambi.
Ognuno dei 4005 ambi che si possono formare con 90 numeri dovrebbe quindi essersi presentato 250 volte (+- 50 volte circa, 3 sigma).
Con questa massa, ci si aspetta ed è perfettamente normale avere un ambo che abbia (avuto) un ritardo di circa 5.500 estrazioni.
Le 6.200 estrazioni di ritardo del 17 - 56 su Bari sono in effetti un po' anomale; ma secondo me l'evento rientra tra le fluttuazioni con cui possono presentarsi gli eventi rari e sono convinto che non si tratti di nessuna irregolarità messa in atto dall'ente organizzatore del gioco del lotto.
Ho capito quello che dici, tuttavia ciò non risponde (secondo me) del tutto al dubbio che ho espresso in questa discussione.
Tu stimi il ritardo medio massimo per un ambo che si ha dato un certo numero di estrazioni (ignoro come si faccia, non ho capito, per miei limiti teorici, la spiegazione che hai dato nella tua prima risposta qui, ma non importa) e dici che un ritardo di 5500 estrazioni è abbastanza normale.
Però poi non dai una stima quantitativa di quale possa essere la probabilità di avere un ritardo superiore alla media di una data quantità (le 6000 e oltre estrazioni).
Io cerco una stima quantitativa che possa darmi la probabilità che quel ritardo sia anomalo.
Hai parlato di 3 sigma, forse si può da quello arrivare a definire una stima quantitativa?
Per il resto devo dire che più penso a questo problema più non arrivo a nulla, all'inizio confesso che ero quasi convinto che l'idea di stimare la probabilità di avere almeno un ambo, tra i 4005 ambi possibili, con un ritardo superiore alle 6000 (per esempio) estrazioni su almeno una delle ruote, fosse buona.
Ma i dubbi sui vari punti di vista e le osservazioni di markowitz, che riprendono alcuni dei dubbi che in sostanza avevo anch'io, mi hanno fatto capire che anche tale metodo può essere fallace.
"Faussone":
Tu stimi il ritardo medio massimo per un ambo che si ha dato un certo numero di estrazioni (ignoro come si faccia, non ho capito, per miei limiti teorici, la spiegazione che hai dato nella tua prima risposta qui, ma non importa) e dici che un ritardo di 5500 estrazioni è abbastanza normale.
Non "abbastanza normale", ma è il ritardo più probabile che si osserva per l'ambo più ritardato dopo una serie di 9000 estrazioni di 5 numeri su 11 ruote.
Il calcolo del massimo ritardo medio è simile a quello verificato dal prof. Fabri e altri per quanto riguarda l'estratto, vedi qui:
http://www.digitanto.it/mc-online/PDF/A ... _169_0.pdf
"nino_":
[quote="Faussone"]
Tu stimi il ritardo medio massimo per un ambo che si ha dato un certo numero di estrazioni (ignoro come si faccia, non ho capito, per miei limiti teorici, la spiegazione che hai dato nella tua prima risposta qui, ma non importa) e dici che un ritardo di 5500 estrazioni è abbastanza normale.
Non "abbastanza normale", ma è il ritardo più probabile che si osserva per l'ambo più ritardato dopo una serie di 9000 estrazioni di 5 numeri su 11 ruote.
[/quote]
Veramente ho riportato quello che hai scritto tu (ho solo scritto "abbastanza" invece di "perfettamente")....

"nino_":
Con questa massa, ci si aspetta ed è perfettamente normale avere un ambo che abbia (avuto) un ritardo di circa 5.500 estrazioni.
"nino_":
Il calcolo del massimo ritardo medio è simile a quello verificato dal prof. Fabri e altri per quanto riguarda l'estratto, vedi qui:
http://www.digitanto.it/mc-online/PDF/A ... _169_0.pdf
Grazie per questo link! Lo leggerò con attenzione (anche se lì ad una veloce occhiata mi pare si parli di ambata e non di ambo).
Tra l'altro, ripensandoci, calcolare il ritardo medio massimo degli ambi credo sia in qualche modo equivalente a stimare la probabilità che almeno un ambo non esca su alcuna ruota al variare del numero delle estrazioni, che tra le varie opzioni che avevo pensato era, a dire il vero, quella che mi sembra(va) più convincente.
"Faussone":
Veramente ho riportato quello che hai scritto tu (ho solo scritto "abbastanza" invece di "perfettamente")....
Significati:
-abbastanza: piuttosto, alquanto, sufficiente
-perfettamente: completamente, del tutto
(solo perché sei "un difensore della nostra povera lingua italiana"

"Faussone":
Grazie markowitz.
... ma mi sorgono molte domande....
Se per un attimo ci spostiamo dal lotto al lancio di una moneta (che è un ambito un po' più ristretto) per verificare analogamente se, data una sequenza di N lanci, la moneta sia truccata o no, mi vengono per ora in mente due strade.
La prima è simile a quella che stavo seguendo per i lotto: conto il numero di T e C della sequenza e vedo che probabilità avrei in una sequenza di N lanci di ottenere un numero di T (appurato per esempio che nella sequenza abbia T > C) maggiori o uguali di quelle ottenute nella sequenza in oggetto, se ottengo una probabilità molto bassa dico che l'evento è sospetto.
Un secondo diverso modo di procedere potrebbe essere dividere la sequenza in tante sotto-sequenze di stessa lunghezza, ora data la lunghezza della sotto-sequenza so come è fatta la distribuzione discreta teorica della frequenza di teste e di croci, a questo punto la mia ipotesi nulla è che le diverse frequenze misurate nelle sotto-sequenze possano appartenere alla distribuzione discreta di T e C di lunghezza pari a quella delle sotto-sequenze, faccio un test (non so quale ma sicuramente ce ne è uno adatto per questo) e vedo la significatività per decidere se rigettare o no l'ipotesi nulla e dire quindi se la sequenza è sospetta o meno.
Non mi viene in mente niente altro infatti per fare un confronto con una distribuzione discreta nota.
Cosa altro potrei fare in questo caso? Ha senso il modo di procedere che ho scelto? Se sì, in base a cosa scelgo la lunghezza delle sotto-sequenze?
Prego

Provo a rispondere
(N.B: quello che dirò, ed almeno in parte che ho già detto, penso sia corretto ma non prenderlo come oro colato perchè è fondamentalmente farina del mio sacco ed anche se penso di poter dimostrare ciò che dico ... non faccio riferimento a nessuna letteratura specifica)
Il primo metodo che proponi è sicuramente parte della strada giusta. In sostanza vai a rispondere alla domanda / testare l'ipotesi $H_0: P(T)=P(C)$ ... tanto per cominciare questa NON deve essere rifiutata altrimenti ... la moneta non è equilibrata.
Un accenno di teoria ... forse non troppo consapevolmente hai già proposto di sottoporre a test l'ipotesi che il fenomeno aleatorio "lancio della moneta" segua una distribuzione benurliana $B(p)$ di parametro $p=0,5$ ... conviene tenerlo a mente.
Dopodichè, la seconda procedura che proponi, se capisco bene cosa intendi, è concettualmente interessante ... ma si può fare di meglio. Una volta accettato il modello di riferimento $B(0,5)$ ci resta "solo" da studiare la struttura di dipendenza di quello che, almeno adesso, conviene vedere come processo stocastico. Chiamando $S(T,C)$ una qualunque serie ben determinata di teste e croci dovremmo idealmente verificare che $P(T|S(T,C))=P(T)$ cosi come $P(C|S(T,C))=P(C)$ per qualunque possibile $S(T,C)$ ... come fare in pratica ?
Io consiglio di prendere a riferimento/osservare una serie di lunghezza $N$ con N il più possibile grande. Allora dovrebbe valere che chiamando $T_k$ le formazioni di lunghezza $k$ con ininterrottamente testa (ricordare siamo già confidenti che $p=0,5$, ... si procederebbe analogamente per le croci), le seguenti sono le aspettative sulla numerosità di dette formazioni:
$T_k = N*1/2^(k+2)$
ovvero ad esempio se $N=1000$ mi aspetto:
$T_1 = 125$ del tipo ...CTC...
$T_2 = 62,5$
$T_3 = 31,25$
$T_4 = 15,625$
$T_8 = 0,97...$
formazioni più lunghe dovrebbero essere improbabili ma comunque si deve catalogare fino alla più lunga osservata.
A questo punto si devono confrontare le frequenze teoriche/attese con quelle osservate e questo lo si può fare in qualche modo col test chi-quadro
https://it.wikipedia.org/wiki/Test_chi_quadrato
che se interessano problemi di questo tipo si incontra spesso. Questo test permette di confrontare una distribuzione teorica con una osservata in condizioni molto generali ed anche di sottoporre a test le impotesi di indipendenza stocastica come qui si vorrebbe fare.
Infatti dovrei riuscire a dimostrarvi che le frequenza osservate si discostano significativamente da quelle attese solo se l'indipendenza stocastica non è verificata. In particolare se vi è una qualche persistenza del segno ovvero $P(T|T)>P(T)$ vi è una spoporzione di serie lunghe se imvece vi è antipersistenza ovvero $P(T|T)
serie corte (è questo anche se globalmente p=0,5 è verificata ... le verifiche parziali di cui parlavi tu qui tornano in qualche modo in gioco). Le strutture di peristenza/antipersistenza possono essere le più semplici come quelle che ho scritto o più complicate ma il risultato dovrebbe essere generale:
Se le frequenze osservate sulle varie $T_k$ sono coerenti con quelle teoriche, allora non vi è evidenza di nessuna struttura di dipendenza.
In definitiva, la serie è "buona". Allora con nessuna strategia potro mai prevedere il prossimo colpo con più del 50'% di prob ... ovvero in ogni gioco riconducibile a questo schema non otterrò mai $P(T|S(T,C))!=0,5$ ... con buona pace di tutti i giocatori.
"Faussone":
Come estendo poi questo all'esempio del lotto? Controllo usando le ultime 6000 estrazioni solo le frequenze di tutti i 90 numeri?
In qualche modo non dovrei controllare le frequenze di uscita di tutti i vari ambi e confrontare pure quelli con la relativa distribuzione teorica nota. Come?
Per il Lotto le cose si complicano di molto, comunque si ... verificare che $P(1)=P(2)=...=P(89)=P(90)=5/90$ è un passo che direi inprescindibile in tal modo si ha contezza del fatto che un modello di uniforme discrteta $U(90)$ è adatto.
Per gli ambi e le altre combinazioni teoricamente si può fare lo stesso. Quello che diceva nino_ sulle 250 osservazioni attese su ogni ambo e le possibili distanze da tale aspettativa sono infatti in qualche modo un test su $U(4005)$
Ragionando sulle strutture di dipendenza qui ci si può sbizzarrire.
Per tornare all'ambo $17,56$ di Bari, se si verificasse che almeno uno dei due numeri è "raro" allora la rarità dell'ambo ne sarebbe, sotto indipendenza, una conseguenza ma se così non fosse si potrebbe congetturare che $P(17|56)
Inoltre se proprio vi interessano le posizioni degli ambi, svincolandosi dall'ultimo ritardatario e ragionando di distribuzione si può pensare alle statistiche d'ordine e vedere qual'è la posizione (numero di ritardi) attesa per l'ambo maggiormente ritardatario in N lanci quale quella del secondo più ritardatario, del terzo e così via ... per poi vedere la concordanza tra dato osservato e valore teorico. E' una strada che mi pare però dura.
In ogni caso ribadisco che se si vuole generalità si deve ragionare in qualche modo su tutta la distribuzione di tutti i dati a disposizione. Ragionare su qualsiasi altro insieme/risultato più particolare, l'ultimo caso di cui parlava nino_ dell'ambo più ritardatario nelle totali 9000 estrazioni è un'altra alternativa a quelle già viste, è possibile farlo ed in modo anche coerente ... ma i risultati sono troppo condizionati dal punto di vista e allora ... secondo me assolutamente SI non capirci nulla diventa la regola

"nino_":
Significati:
-abbastanza: piuttosto, alquanto, sufficiente
-perfettamente: completamente, del tutto
(solo perché sei "un difensore della nostra povera lingua italiana")
Lo sono, lo sono (anche se questo non significa non commettere mai errori).

@markowitz
Grazie ancora per questa tua ennesima paziente risposta! Perdonami per le imprecisioni, non sono molto attento alla forma matematica, e tendo a dare per scontato le assunzioni che faccio senza sottolinearle (sono un praticone, non essendo un matematico, ma un ingegnere).
Per ora ho letto quello che hai scritto abbastanza velocemente (mi propongo di approfondire). Molto interessante il test che proponi per la moneta! Illuminante per me il punto di vista di dire infine di voler dimostrare che $P(C|S(T,C))=P(C)$ §(e analogamente per le T).
Non capisco, forse mi sfugge qualcosa, non possiamo pensare di estendere questo metodo anche al problema del lotto?
"markowitz":
Ragionare su qualsiasi altro insieme/risultato più particolare, l'ultimo caso di cui parlava nino_ dell'ambo più ritardatario nelle totali 9000 estrazioni è un'altra alternativa a quelle già viste, è possibile farlo ed in modo anche coerente ...
In effetti quando avevo proposto le mie varie opzioni, avevo anche scritto un'opzione (la numero 4) che è , credo, "perfettamente" equivalente a quella di nino_, cioè calcolare la probabilità che almeno un ambo su almeno uno ruota in 9000 estrazioni totali abbia un ritardo massimo di 6000 (per esempio) estrazioni. Il calcolo esatto di questa probabilità credo sia fattibile anche in maniera esatta, anche se ci vuole un po' di attenzione... ieri ci ho provato ma ho perso un sacco di tempo, senza riuscirci infatti

"markowitz":
...ma i risultati sono troppo condizionati dal punto di vista e allora ... secondo me assolutamente SI non capirci nulla diventa la regola
Questo l'ho capito bene

Rimangono comunque i dubbi e le cautele di cui si è discusso quando si esamina una serie storica, ma questo per ora mi appare il modo più praticabile e, se non migliore, direi sensato, di procedere.
Si può prendere come riferimento un ritardo pari a 6000 e un numero di estrazioni pari a 9000 e 11 ruote, tanto per farsi un'idea del famoso ritardo dell'ambo su Bari.
Facendo il conto si trova che questa probabilità è pari circa all'11%, quindi non è tutto sommato un evento così remoto.
Riassumo qui passaggi per arrivare al calcolo di quella probabilità, visto che non è proprio immediato trovarla.
E' stato utilissimo il link al pdf che ha messo nino_ più sopra a questa discussione (grazie ancora), riassumo brevemente qui il concetto che ho utilizzato.
Detta $g(N,r,p)$ la probabilità che un evento (un ambo nel nostro caso) avente probabilità $p$ ritardi almeno $r$ volte in $N$ estrazioni totali, si ha che:
$g(N,r,p)=0$ per $N
$g(N,r,p)=(1-p)^r$ per $N=r$
visto che in tal caso la probabilità è quella che l'evento non si verifichi per $r$ volte;
$g(N,r,p)=g(N-1,r,p)+(1-g(N-r-1,r,p))*(1-p)^r*p$ per $N>r$
visto che in tal caso la probabilità è pari alla probabilità che il ritardo si sia già verificato nelle $N-1$ estrazioni precedenti più la probabilità che il ritardo di $r$ si verifichi proprio alla $N$esima estrazione.
Questa ultima probabilità è pari alla probabilità che l'evento contemporaneamente:
si sia verificato alla estrazione $N-r-1$ (probabilità $p$);
che l'evento non si sia verificato per $r$ volte dalla $N-r$esima estrazione alla $N$esima (probabilità $(1-p)^r$);
nelle $N-r-1$ estrazioni precedenti non si sia mai verificato il ritardo di $r$ (probabilità $1-g(N-r-1,r,p)$.
Per cui la probabilità che il ritardo si verifichi proprio alla $N$esima estrazione è appunto $(1-g(N-r-1,r,p)*(1-p)^r*p$ vista l'indipendenza delle 3 probabilità descritte prima.
Il calcolo di $g$ è abbastanza semplice scrivendo un programmino (la formula si può scrivere elegantemente con una funzione ricorsiva, ma non è opportuno visto che per numeri di interesse il livello di ricorsione sarebbe troppo profondo, meglio usare pertanto una tecnica non ricorsiva, se a qualcuno interessa posso metter qui le poche righe che ho scritto per calcolare la $g$).
Noto $g$ è semplice poi calcolare la probabilità di cui sopra.
Metto in allegato il grafico che dà per $N=9000$ come varia tale probabilità al variare di $r$.

E' anche possibile calcolare a questo punto la probabilità che un certo ritardo massimo $r$ si verifichi in $N$ estrazioni totali (da cui il famoso ritardo medio massimo di cui ha parlato nino_).
Tale ritardo infatti, chiamiamolo $h$, è pari semplicemente a $h(N,r,p)=g(N,r,p)-g(N,r+1,p)$.
Riporto qui l'andamento.

Si ha un massimo attorno alle 5200 estrazioni ed una media di circa 5400 (il ritardo più probabile e quello medio non coincidono data la non simmetricità della distribuzione), nino_ aveva stimato un ritardo medio massimo attorno alle 5500 con un metodo approssimato, risultato perfettamente compatibile.
Mi rimane ancora da riflettere sul metodo proposto da markowitz sul prendere tutto lo storico e verificare se le varie frequenze siano congruenti con quelle attese, ma quello temo sia più complicato e non so se avrò tempo e voglia di dedicarmici. Sono già contento di questo
