Test d'ipotesi sul Superenalotto: l'estrazione è casuale ?

cenzo1
Vorrei testare l'ipotesi $H_0:$ "l'estrazione della sestina vincente è casuale"

E' noto che la probabilità indovinare la sestina vincente, stante l'ipotesi $H_0$, vale $p=1/(C_(90,6))=1/622614630$
Se al $k$-esimo concorso sono state giocate $N_k$ schedine, la probabilità che nessuna sia vincente è $P("nessun 6")=(1-1/(C_(90,6)))^(N_k)$
Se esaminiamo $m$ concorsi consecutivi in cui non è risultato nessun 6, la probabilità di tale evento è allora
$"p-value"=P("nessun 6 in m concorsi")=prod_(k=1)^(m)(1-1/(C_(90,6)))^(N_k)$

In questo sito trovate l'elenco dei concorsi giocati dal 11.02.2010 al 16.10.2010, senza nessun 6, col relativo montepremi.
In base all'art. 4 del regolamento Sisal risulta che il montepremi è costituito dal $34.648%$ dell'ammontare delle giocate. E' possibile allora, conoscendo il montepremi, ricavare l'ammontare delle giocate: $"Ammontare giocate"="Montepremi"/0.34648$
Dato che ogni schedina (intesa come singola combinazione) costa $0.50€$, è possibile trovare il numero di combinazioni giocate, dividendo l'ammontare complessivo delle giocate per il costo della singola combinazione.


Ad esempio, nel concorso n.124 del 16.10.2010 risulta un montepremi di $8334994.43€$
$"Ammontare complessivo"=8334994.43/0.34648=24056206.51€$
$"Combinazioni giocate"=(24056206.51€)/(0.50€)=48112413$
$P("nessun 6 nel concorso n.124")=(1-1/622614630)^48112413=0.9256$

Si ritiene ciascun concorso indipendente dagli altri, per cui facendo il prodotto delle probabilità di non fare 6 dal concorso n.18 del 11.02.2010 al concorso n.124 del 16.10.2010 (107 concorsi), mi risulta un $"p-value"=0.0126$

Posso pertanto rigettare $H_0$ al livello di significatività $alpha=5%$
Non posso rigettare $H_0$ al livello di significatività $alpha=1%$

Il ragionamento è giusto o c'è qualche errore ?

Risposte
Rggb1
Solo un appunto: nessuno garantisce che il numero di giocate fatte siano tutte differenti. Questo però dovrebbe solo in parte modificare il risultato: prova a ipotizzare che una certa percentuale siano giocate uguali (per dire, un 5% o 10%) e confronta i risultati.

cenzo1
"Rggb":
Solo un appunto: nessuno garantisce che il numero di giocate fatte siano tutte differenti. Questo però dovrebbe solo in parte modificare il risultato: prova a ipotizzare che una certa percentuale siano giocate uguali (per dire, un 5% o 10%) e confronta i risultati.

Ciao Rggb, innanzitutto grazie per il feedback! :-)

All'inizio anche a me era venuto in mente che le giocate in genere non sono tutte diverse e non sapevo come affrontare la questione (spinosa).

Tu suggerisci di fissare una certa percentuale, ad esempio 5%, di giocate uguali, e quindi 95% di giocate diverse (uniche).
In tal caso avremmo, relativamente ad un certo concorso di $N$ giocate, $N_u=0.95*N$ giocate uniche.
Il tuo suggerimento, se l'ho compreso, è quindi di usare questo valore nella formula per ottenere la probabilità che non vi sia nessun 6 in un certo concorso: $P("nessun 6")=(1-1/(C_(90,6)))^(N_u)=(1-1/(C_(90,6)))^(0.95*N)$
Ho compreso bene ?

In verità questa ipotesi non mi convince.
Se io sapessi il numero esatto delle giocate uniche $N_u$ di un certo concorso, sarei propenso a valutare la probabilità di fare almeno un 6 come:
$P("almeno un 6")=N_u/(C_(90,6))$ e quindi $P("nessun 6")=1-N_u/(C_(90,6))$

Se uguaglio le due probabilità di non fare nessun 6, riesco quindi ad ottenere una stima delle giocate uniche $N_u$:
$P("nessun 6")=1-N_u/(C_(90,6))=(1-1/(C_(90,6)))^N$ da cui $N_u=[1-(1-1/(C_(90,6)))^N]C_(90,6)$ $(1)$
(facendo qualche calcolo con i dati a disposizione mi viene compresa tra l'1,3% e il 3,8% delle giocate totali N)

In definitiva la formula $P("nessun 6")=(1-1/(C_(90,6)))^N$ dovrebbe tenere conto implicitamente anche delle possibili giocate non uniche.

Sarebbe interessante provare a ricavare direttamente la $(1)$ con un ragionamento probabilistico, trovando il valore atteso della variabile aleatoria "numero di giocate uniche presenti in N giocate", cioè tipo: $N_u=\sum_(x=1)^(N)P(x)*x$
Se ottenessimo la stessa formula della $(1)$ ciò dovrebbe costituire una prova a favore della correttezza del ragionamento.
Ho provato a determinare $P(x)$ ma ho incontrato notevoli difficoltà e la cosa non mi sembra alla mia portata.

Esempio: abbiamo 7 giocate totali di cui 5 uniche. Ciò si può realizzare sia con una tripla giocata ripetuta e le altre tutte diverse, sia con due giocate doppie e le altre diverse:
1,1,1,2,3,4,5 (7 giocate totali e 5 uniche)
1,1,2,2,3,4,5 (sempre 7 giocate totali e 5 uniche)
Non so se ho reso l'idea in modo corretto o se ci sono modi più semplici di approcciare il problema.

Rggb1
"cenzo":
Il tuo suggerimento, se l'ho compreso, è quindi di usare questo valore nella formula per ottenere la probabilità che non vi sia nessun 6 in un certo concorso: $P("nessun 6")=(1-1/(C_(90,6)))^(N_u)=(1-1/(C_(90,6)))^(0.95*N)$
Ho compreso bene ?

No, sarebbe sbagliato. Semmai quello che dici poi (hai perfettamente impostato il problema):

"cenzo":
Se io sapessi il numero esatto delle giocate uniche $N_u$ di un certo concorso, sarei propenso a valutare la probabilità di fare almeno un 6 come:
$P("almeno un 6")=N_u/(C_(90,6))$ e quindi $P("nessun 6")=1-N_u/(C_(90,6))$

e confrontare i risultati per vedere se l'ipotesi è valida, sotto l'ipotesi "aggiuntiva" di una certa percentuale di giocate uguali fra loro.

E poi lì per lì non mi è venuto in mente, ma

"cenzo":
Se uguaglio le due probabilità di non fare nessun 6, riesco quindi ad ottenere una stima delle giocate uniche $N_u$:
$P("nessun 6")=1-N_u/(C_(90,6))=(1-1/(C_(90,6)))^N$ da cui $N_u=[1-(1-1/(C_(90,6)))^N]C_(90,6)$ $(1)$
(facendo qualche calcolo con i dati a disposizione mi viene compresa tra l'1,3% e il 3,8% delle giocate totali N)


direi è il numero delle giocate uniche, non solo la stima.

cenzo1
Ok, allora ho ipotizzato ad ogni concorso $k$ una percentuale di giocate non uniche pari al doppio di quella desumibile dalla precedente formula $(1)$ (quindi variabile tra il 2,6% e il 7,5%).
In tali ipotesi ottengo un $"p-value"=\prod_(k=1)^(m)(1-N_(u,k)/(C_(90,6)))=0.0139$
dove $N_(u,k)$ è appunto il numero di giocate uniche al concorso $k$.

Ottengo un p-value giusto un po' più grande (prima era $0.0126$), ma stiamo lì.

E' prevedibile che, se non ci sarà nessun "6" nei prossimi 4-5 concorsi, e l'andamento delle giocate proseguirà con questi ritmi:


allora avremo realizzato un evento con un $"p-value"<0.01$

Domanda: ma se rigettiamo l'ipotesi $H_0$, quali ipotesi alternative possiamo formulare ? :shock:

markowitz
"cenzo":


$P("nessun 6 nel concorso n.124")=(1-1/622614630)^48112413=0.9256$

Si ritiene ciascun concorso indipendente dagli altri, per cui facendo il prodotto delle probabilità di non
fare 6 dal concorso n.18 del 11.02.2010 al concorso n.124 del 16.10.2010 (107 concorsi),
mi risulta un $"p-value"=0.0126$

Posso pertanto rigettare $H_0$ al livello di significatività $alpha=5%$
Non posso rigettare $H_0$ al livello di significatività $alpha=1%$


Un solo appunto, la formula mi sembra concettualmente sbagliata, anche se poi forse ve ne siete
accorti ma per chiarezza lo segnalo.
Sarebbe corretta se per ogni colonna giocata ci fosse un'estrazione, ma non è così perché
l'estrazione avviene dopo un "blocco" di giocate. Allora vale:
$P("nessun 6 nel concorso n.124")=(1-48112413/622614630)=0.9227$
il risultato cambia poco, ma è più basso, se ci pensate deve essere così.
La formula generale diventa
$P("nessun 6 nel concorso per m concorsi")=prod_(k=1)^(m) (1-N_k/C_(90,6))$
dove chiaramente $N_k$ è il numero di colonne giocate nel concorso k-esimo.
Successivamente dobbiamo inserire il problema delle "colonne ripetute"
a questo punto non ritengo che sia il caso di affannarsi con spiegazioni probabilisticamente complicate
1) Il problema sarebbe di cristallina rilevanza se $N_k>=C_(90,6)$ per qualche $k$
e se comunque $N_k non meno del 30-50%). Ma in considerazione del fatto che $N_k$ molto $ ovvero sempre (o quasi) $<10%$, l'assunzione semplificatrice di assenza di "combinazioni ripetute" è più che
plausibile. Ovvero l'effetto sul test è trascurabile.
2) Se si vuole essere rigorosi bisogna necessariamente avere accesso al database della SISAL
è osservare senza più indugi $N_k$ "depurato". Ipotizzare noi tale valore è più un costo che un beneficio.

Se ho ben capito alla fine hai impostato la formula corretta e ti risulta $"p-value"=0,0139$
i concorsi da allora sono proseguiti ed ad oggi (23/10/2010) il 6 non è uscito, quindi, (se non prendo abbagli) a rigore
siamo autorizzati a rifiutare l'$H_0$ di estrazioni casuali ed indipendenti, con significatività $1%$.

Tuttavia, non credo di essere in grado di dimostrarlo, ma "ho paura" che il test, anche se corretto, sia debole
ovvero abbia "bassa potenza"; in soldoni accettiamo l'alternativa quando è vera la nulla (errore di seconda specie)
troppo spesso.

Certo quello che sta accadendo è anomalo! Ma c'è bisogno di altre evidenze a sfavore della nulla
(altri test, di diversa struttura) per parlare con convinzione di eventuali "sbilanciamenti" nell'urna.

Comunque bel lavoro ;-)
solo su questo forum potevo trovare persona che affrontassero in modo serio tale tipo di problemi.

Umby2
"markowitz":


Un solo appunto, la formula mi sembra concettualmente sbagliata, anche se poi forse ve ne siete
accorti ma per chiarezza lo segnalo.
Sarebbe corretta se per ogni colonna giocata ci fosse un'estrazione, ma non è così perché
l'estrazione avviene dopo un "blocco" di giocate. Allora vale:
$P("nessun 6 nel concorso n.124")=(1-48112413/622614630)=0.9227$
il risultato cambia poco, ma è più basso, se ci pensate deve essere così.


Non capisco cosa c'entri il fatto dell'estrazione e del "blocco".
Secondo questo tuo ragionamento, se le giocate sono maggiori rispetto ai 622 Milioni di combinazioni .... prova te a vedere cosa vien fuori.
Potrebbe aver senso nel caso in cui non ci siano ripetizioni ... (ma cosi' non è ...)

IMHO: Il calcolo esatto è quello fatto da cenzo nel suo primo intervento (escluderei anche la osservazione di Rggb)

markowitz
No, è giusto quello che ho scritto io.
"Umby":

Non capisco cosa c'entri il fatto dell'estrazione e del "blocco".


Provo a spiegartelo. La formulazione presentata da cenzo, e da te ribadita come corretta, sarebbe giusta
se ad ogni sestina giocata fosse associata una sestina vincente; ma non è così.
Con la parola blocco intendo dire che ad $N_k$ sestine giocate è associata una ed una sola sestina vincente.
Il fatto che si lavora con $N_k$ piccoli nei confronti di $C_(90,6)$ rende numericamente esigua la differenza
ma concettualmente è importante. Facciamo l'esempio del dado (1,6) si deve indovinare il numero che esce
allora se si ci sono 3 giocatori che giocano uno alla volta ed ad ogni giocata è associata un'estrazione
la prob. che nessuno vinca è $(1/6)^3=0,578...$, se si gioca in "blocco" una sola sestina vincente per tutti
la stessa prob vale $1/2$ sensibilmente minore.

"Umby":

Secondo questo tuo ragionamento, se le giocate sono maggiori rispetto ai 622 Milioni di combinazioni .... prova te a vedere cosa vien fuori.

qualcuno vincerebbe di sicuro!
"Umby":

Potrebbe aver senso nel caso in cui non ci siano ripetizioni ... (ma cosi' non è ...)

HA senso SOLO nel caso (ipotesi) in cui non ci siano ripetizioni, ed è spiegato chiaramente nel prosieguo del post
ed è anche argomentata la plausibilità dell'ipotesi, ed anche una procedura per chi non si accontenta.

lo stesso cenzo diceva
"cenzo":
Se io sapessi il numero esatto delle giocate uniche $N_u$ di un certo concorso, sarei propenso a valutare la probabilità di fare almeno un 6 come:
$P("almeno un 6")=N_u/(C_(90,6))$ e quindi $P("nessun 6")=1-N_u/(C_(90,6))$

si deve solo togliere la parola "almeno". Perché se ne può fare solamente uno.

Inoltre nella formula originale di cenzo, che rimane concettualmente sbagliata anche in assenza
di ripetizioni, nel caso di ripetizioni, appunto, genera un "errore" di valutazione decisamente più
grossolano rispetto alla forma presentata da me, ed in un certo senso anche da lui stesso.

Andrea2976
Mi baso solo sul post iniziale di "cenzo".

Tu hai impostato un test d'ipotesi e hai calcolato una probabilità di successo ma nel tuo caso non è chiaro il test che usi.

Dato che confronti $p=\frac{1}{C_{90,6}}$ contro $p\ne \frac{1}{C_{90,6}}$, a questo punto direi che ti trovi con un test binomiale (riconducibile al solito test normale o t-student) con la statistica $T=\frac{\sum X_i-np}{\sqrt{np(1-p)}}$, con $X_i\sim ber(p)$.

Gatto891
Nel caso non siano ammesse ripetizioni sono ovviamente d'accordo con Markovitz, ma nel caso in cui ogni giocata è indipendente dalle altre (che mi sembra l'ipotesi più ragionevole da supporre in questo caso) dovrebbe essere uguale se la "sestina vincente" sia sempre la stessa o se cambi. No?

markowitz
Cerco di spiegarmi ancora, se no forse ci si fraintende.
$p("fare il sei")=1-(1-p)^n$
non si può usare!
Mettiamo anche che non ci siano ripetizioni, ($n$=numero di sestine giocare relative ad un concorso).
Questo perché la formula sopra varrebbe solo se la probabilità che ogni sestina sia quella vincente
fosse indipendente dall'altra, ma NON è così! Se abbiamo la sestina A e quella B
allora $P(A|B)!=P(A)$ anche se di pochissimo. Provate a pensarci e vi convincerete.
Invece l'indipendenza ci sarebbe se ad ogni sestina fosse associata una "propria" estrazione,
capire questo, secondo me, è essenziale.
Poi il fatto che numericamente il risultato si approssimi bene è un'altro paio di maniche.
NON si può lavorare come se le giocate fossero un "calderone" dove mettere tutte le sestine di
tutti i concorsi ed il motivo è quello sopra.
Più o meno per questo motivo il test proposto da Andrea2976 non è adeguato, almeno dal punto di vista teorico
inoltre anche soprassedendo sull'indipendenza delle $X_i$ ci rimane un $p$ troppo piccolo
per poter usare l'approssimazione normale.
Comunque l'idea non è male. Il fatto è che con la proposta di cenzo si lavorava sulla durata dell'attesa
per il $6$ (effettivamente anomala), con Andrea2976 si dovrebbe ragionare sui $6$ usciti ma non in relazione
alle sestine giocate ma ai concorsi effettuati. In questo caso la piccolezza di $p$ fa in modo che i dati,
in tempi non geologici, saranno sempre pochissimi.

Poi forse Gatto89 si riferisce all'indipendenza tra le "idee" degli scommettitori.
Be se c'è non fa che rafforzare l'ipotesi di assenza di sestine ripetute,
se non c'è pazienza, facciamo finta che valga o se no bisogna avere i dati dalla SISAL.

Gatto891
Non mi sembra stiamo dicendo cose diverse... sono d'accordo che le sestine scelte non sono del tutto indipendenti l'una dall'altra (dopotutto l'indipendenza totale è una cosa abbastanza rara da ottenere in realtà) ma un modello così sarebbe impossibile da studiare, tra l'altro per mancanza di dati, quindi non ha senso occuparsene. Visto che la dipendenza è debolissima, si può supporre un modello in cui ogni sestina sia indipendente dall'altra e studiare quello per trarre conclusioni sul modello reale (non sarà il risultato esatto ma sarà molto vicino).

markowitz
Non mi sembra sia proprio cosi.
Volevo solo dire che il problema della
non dipendenza
l'avevo risolto in precedenza, si riesce abbastanza bene, quindi perché non farlo?
sono le ripetizioni
che non possono essere affrontate, se non dati alla mano, e quindi facciamo finta che non
ci sono e sbagliamo di pochissimo.
Sei d'accordo?

Umby2
@markowiz

Ci sarebbe molto da commentare, mi limito solo a riprorre la tua formula, ed applicare (cosi come ti avevo detto nel mio precedente intervento), con un numero di giocate superiore a 622M.

Esempio, nel prossimo concorso, ci saranno 1000M di colonne giocate.

"markowitz":

La formula generale diventa
$P("nessun 6 nel concorso per m concorsi")=prod_(k=1)^(m) (1-N_k/C_(90,6))$
dove chiaramente $N_k$ è il numero di colonne giocate nel concorso k-esimo.



Ora il tuo calcolo da come probabilità

1 - 1000/622 = -0,6

Ti ripeto che le colonne giocate sono CON ripetizioni (non senza).

Umby2
"Gatto89":
Nel caso non siano ammesse ripetizioni sono ovviamente d'accordo con Markovitz, ma nel caso in cui ogni giocata è indipendente dalle altre (che mi sembra l'ipotesi più ragionevole da supporre in questo caso) dovrebbe essere uguale se la "sestina vincente" sia sempre la stessa o se cambi. No?


E' proprio quello che sto dicendo.
Ogni giocatore gioca la sua colonna, potrebbe essere la stessa di una altra , ma potrebbe non esserlo.

Inizialmente ci saranno poche colonne doppione, ma piu andiamo avanti, e piu ci avviciniamo al numero massimo di colonne diverse (622 Milioni), le colonne uguali aumenteranno sempre di più.....

markowitz
@ Umby
ma hai letto almeno il mio primo post ?
Bé non credo, altrimenti non riproporresti problemi già discussi.

Non fare come alcuni giornalisti che strappano le frasi dal contesto e....

ragiona su tutto quello che ho detto poi ne discutiamo

cenzo1
"markowitz":
sono le ripetizioni
che non possono essere affrontate, se non dati alla mano, e quindi facciamo finta che non
ci sono e sbagliamo di pochissimo

Le ripotizioni possono esserci. Fare finta e imporre che non ci sono porta ad un errore di valutazione. Errore che è tanto più accentuato quanto più alto è il numero di colonne giocate. Fino ad arrivare all'assurdo di probabilità negative (come ti ha suggerito Umby...) o maggiori di uno. Le ripetizioni possono essere affrontate come nel primo post del thread, assumendo l'indipendenza tra le diverse colonne giocate.
L'assunzione che non ci possano essere ripetizioni, viceversa, porta alla dipendenza delle colonne giocate. Infatti se la colonna A è già stata giocata, la colonna B non potrà essere uguale alla colonna A. Quindi la colonna B dipende dalla colonna A. E' questo che succede in realtà? (Evidentemente no).

Propongo un grafico che confronta le due formule relative alla probabilità di fare almeno un 6.
La prima formula (del primo post) è $P("almeno un 6")=1-(1-1/(C_(90,6)))^(N)$
La formula di Markowitz è $P("almeno un 6")=N/(C_(90,6))$
$N$ è il numero totale di colonne giocate. Stiamo ragionando su una singola estrazione della sestina vincente.



Si vede che le due formule danno risultati simili per un numero di giocate basso, ma all'aumentare delle giocate si evidenzia molto bene la differenza. La formula proposta da Markowitz fornisce una probabilità $1$ per $N=C_(90,6)$, in quanto assume che le colonne siano tutte diverse (ti sembra realistico?).
La prima formula, per $N=C_(90,6)$ prevede una probabilità di fare almeno un 6 pari al $63.21%$
Per $N>C_(90,6)$ la formula proposta da Markowitz fornisce probabilità maggiori di $1$. Assurdo.
La prima formula invece fornisce probabilità crescenti e tendenti asintoticamente ad $1$ al crescere delle colonne giocate.

Comunque, al di là del modello corretto e coerente di calcolo della probabilità (sul quale non mi sembra ci siano dubbi) sarebbe interessante, ad esempio per calcolare la potenza del test, formulare un'ipotesi di lavoro alternativa $H_1$.
Si, possiamo ipotizzare $p<1/(C_(90,6))$. Ma quanto? E, soprattutto, quali potrebbero essere le cause prime, da prendere in considerazione, per le quali risulterebbe l'effetto $p<1/(C_(90,6))$ ?
Un difetto dell'urna o dei bussolotti? (l'estrazione è manuale?)
Un bug nel software di estrazione della sestina vincente? (l'estrazione è digitale?)
Ci potremmo sbizzarrire nel proporre le ipotesi più fantasiose... io ne ho una che mi è venuta in mente guardando il grafico delle giocate nel tempo....

Umby2
@cenzo

Ovviamente, concordo su tutto. :wink:

Una sola piccolissima precisazione. La linea rossa (quella senza ripetizioni) arrivata a 600 Milioni, la fermerei, invece di farla proseguire superando il limite della probabilità certa . Come succede per la tombola, tiro il primo numeretto, poi il secondo .... poi il 90esimo, e poi STOP (..son finiti..)

markowitz
Non ha senso rispiegare tutto il ragionamento, d'altra parte è già scritto sopra,

è sufficiente leggere con gli occhi di chi vuol capire.

Si evidentemente ho sbagliato il mio GRAVE errore era questo

"markowitz":

Comunque bel lavoro ;-)
solo su questo forum potevo trovare persona che affrontassero in modo serio tale tipo di problemi.

e non mi riferisco all'errore grammaticale

Se poi avete osservazioni SERIE da fare possiamo comunque discuterne.

cenzo1
"Umby":
@cenzo
Ovviamente, concordo su tutto. :wink:
Una sola piccolissima precisazione....

Ci siam capiti :wink:

markowitz
Rileggendo con più attenzione deduco che, forse, le perplessità presentate siano "sincere" anche se mi sembra strano
accada dopo una lettura attenta fatta da persone come voi che ne masticano dell'argomento.
Provo ancora a rispiegarmi

"cenzo":

Comunque, al di là del modello corretto e coerente di calcolo della probabilità (sul quale non mi sembra ci siano dubbi)

non sarei così convinto di quello che hai scritto.

"cenzo":

Propongo un grafico che confronta le due formule relative alla probabilità di fare almeno un 6.
La prima formula (del primo post) è $P("almeno un 6")=1-(1-1/(C_(90,6)))^(N)$
La formula di Markowitz è $P("almeno un 6")=N/(C_(90,6))$
$N$ è il numero totale di colonne giocate. Stiamo ragionando su una singola estrazione della sestina vincente.

fin qui tutto bene ma mentre la tua formula, se non erro, non ha bisogno di premesse, ciò non vale per la mia,
e l'avevo detto. $N$ , nel mio caso, deve rappresentare il numero di colonne giocate senza le ripetizioni
era l'assunzione di partenza.
Ed avevo messo in guardia dai problemi che ne derivano.
"markowitz":

1) Il problema sarebbe di cristallina rilevanza se $N_k>=C_(90,6)$ per qualche $k$
e se comunque $N_k non meno del 30-50%). Ma in considerazione del fatto che $N_k$ molto $ ovvero sempre (o quasi) $<10%$, l'assunzione semplificatrice di assenza di "combinazioni ripetute" è più che
plausibile. Ovvero l'effetto sul test è trascurabile.
2) Se si vuole essere rigorosi bisogna necessariamente avere accesso al database della SISAL
è osservare senza più indugi $N_k$ "depurato". Ipotizzare noi tale valore è più un costo che un beneficio.

Perché fate finta che non l’abbia scritto ed accusate il mio modello di restituire prob. negative?
Basta ricordare cosa rappresenta $N$ per capire che è impossibile che accada(forse Umby , alla fine, l’aveva capito).
Poi cenzo scopre che la mia ipotesi non è realistica per $N$ grande (adesso con $N$ intendo giocate “grezze” cioè non
ripulite da doppioni, tripli, ecc).
Ma se io ero stato il primo a dirlo!!! Ed ho aggiunto che, ragionando con le grandezze empiricamente rilevate l’ipotesi era plausibile.
Poi se tale ipotesi sta proprio sullo stomaco possiamo ragionarci…

Faccio osservare che, sotto la mia maledetta ipotesi, il mio modello è coerente ed inopinabilmente l’unico da usare.
Quello di cenzo, su cui non servono ipotesi (il che già è un brutto segnale) NON E’ COERENTE ma soffre di due problemi
1)le ripetizioni le stai gestendo male, per il semplice fatto che non le consideri. Infatti non specifichi nulla sulla “depurazione” o meno
di $N$, ti sembra corretto? Se hai 100 colonne giocate tutte diverse la tua formula sembra(*) corretta, ma se le 100 sono uguali?
Ammetterai che la $p$ in causa rimane quella di una sola sestina!
2)Anche se ipotizziamo che nel tuo modello, come nel mio, $N$ è senza ripetizioni, il tuo è ancora incoerente.
Qua la questione è più sottile e l’avevo già affrontata. La tua formula sarebbe, adesso, corretta se e solo se
ad ogni sestina giocata fosse associata un estrazione vincente. Soltanto così la prob. che ogni singola sestina sia vincente è pari
ad $1/C_(90,6)$ . Dunque per l’indipendenza vale il prodotto, quindi vale la tua formula.
Peccato però che la sestina vincente sia una per tutti! Ed allora OCCHIO non fatevi ingannare dal fatto che la prob. MARGINALE
che ogni sestina sia quella vincente è pari a $(1/C_(90,6))$. Questo non è il contesto adatto perché noi stiamo
studiando $P("ALMENO un sei")$ quindi una caratteristica CONGIUNTA ed è chiaro che le prob. CONDIZIONATE
non sono uguali alle non condizionate (anche se di pochissimo), quindi non puoi fare il prodotto, quindi la tua formula anche in questo caso è sbagliata.

Poi l’indipendenza di cui parli tu, quella sulle idee degli scommettitori, mi trova d’accordo ma il tutto è liquidato
dall’ assunzione “maledetta” che inserito ai tempi… di solito qualcuna la si deve fare, poi per problemi così complicati…

Dopodiché il tuo modello non fa schifo! Questo perché in base
alla $p=1/C_(90,6)$ piccolissima e gli $N$ molto grandi l’approssimazione che ne esce fuori è più che buona.
Anche questo l’avevo detto dall’inizio, infatti dall’inizio non ho criticato i risultati che sono
praticamente corretti . ED E’ PROPRIO LI (nei modelli falsi che danno risposte sensate)
CHE GLI ERRORI DI TEORIA SI ANNIDANO, E PER QUELLO CHE TI HANNO FREGATO.

Una volta capito questo, il passaggio a più concorsi non dovrebbe creare particolari problemi.

Spero di essere riuscito, finalmente, a spiegarmi sia per cenzo ed Umby che per altri potenziali lettori.

Proseguendo con l’argomento:
anche se $N$ (non depurato ) è relativamente piccolo genera comunque un errore,
chiamiamolo errore di tipo A
(si commette sia col mio modello che con quello di cenzo. L’altro (quello sulla dipendenza)
che fa solo il modello di cenzo lo chiamo errore di tipo B)
Tale errore (A) potrebbe diventare non trascurabile specie nel caso di concorsi multipli.
Suppongo che, ma è solo una congettura, doppione dopo doppione l’errore di tipo A abbia un “costo marginale”
più alto nel mio modello che in quello di cenzo, dove però è annidato anche l’errore di tipo B.

In definitiva, se abbiamo i dati dalla SISAL il modello da usare è il mio, ma visto che non li abbiamo:

Chi approssima meglio? Sicuramente dipende dal numero di doppioni, tripli,ecc…

Come stimare un $N$ depurato che non abbiamo?

Erano queste le domande che volevo sentire. A cui io non so rispondere.

Tuttavia credo che questi siano crucci per matematici. La sostanza pratica, sulla casualità nel gioco,
non credo cambi molto; ovvero l’$H_0$ iniziale è rifiutabile.

Tutto questo casino solo per dimostrare che l’attesa che si sta delineando per la sestina vincente è
inopinabilmente anomala.
D'altra parte, in campo scientifico, quasi sempre si fanno discorsi complicati per spiegare cose facili;
quelli che offrono spiegazioni semplici per problemi enormi di solito sono...

Per chiudere
"cenzo":

Si, possiamo ipotizzare $p<1/(C_(90,6))$. Ma quanto? E, soprattutto, quali potrebbero essere le cause prime, da
prendere in considerazione, per le quali risulterebbe l'effetto $p<1/(C_(90,6))$ ?
Un difetto dell'urna o dei bussolotti? (l'estrazione è manuale?)
Un bug nel software di estrazione della sestina vincente? (l'estrazione è digitale?)
Ci potremmo sbizzarrire nel proporre le ipotesi più fantasiose... io ne ho una che mi è venuta in mente guardando il
grafico delle giocate nel tempo....

questo mi piace, però cercherei altre conferme su $H_0$ scritte in modo diverso prima
di "dare la caccia" ai numeri magici.

Rispondi
Per rispondere a questa discussione devi prima effettuare il login.