Ripetizioni e Probabilità

mikykhol
Buonasera,
Sono uno studente di Biologia del terzo anno che non possiede forti basi di statistica e vi chiedo consiglio su come approcciarmi alla risoluzione di un problema inerente al nostro codice genetico.
Chiedo scusa in anticipo ma non userò terminologia tecnica al fine di non complicare ancora di più i problemi.
Il nostro DNA è costituito fondamentalmente da 4 lettere: A, T, C, G.
All'interno del nostro intero genoma troviamo 3,4 miliardi di lettere (date dall'alternanza delle quattro lettere fondamentali A, T, C, G).
Immaginando di suddividere tutto il nostro genoma in gruppi di 6 lettere (esempio AATCGA), quali sono le probabilità che una stessa sequenza di 6 lettere sia presente più volte nel nostro genoma ?

Ho letto il regolamento ed invitate gli iscritti a proporre una soluzione ai problemi matematici. Io, personalmente, pensavo di risolvere il problema attraverso il calcolo combinatorio ma non riesco a raccapezzarmi molto.

Vi ringrazio per l'aiuto che potrete darmi per risolvere questo problema.

Ps: come potete notare all'interno dei gruppi le 4 lettere si ripetono.

Risposte
superpippone
Con 4 lettere diverse, puoi fare $4^6=4.096$ gruppi di 6 lettere (anche con 6 lettere uguali AAAAAA).
Con 3,4 miliardi di lettere, puoi fare circa 566.000.000 gruppi di 6 lettere.
E' ovvio che ci siano gruppi che si ripetono. Anche svariate volte.

Rispondi
Per rispondere a questa discussione devi prima effettuare il login.