Definicja klasyczna. Prawdopodobieństwo warunkowe i całkowite. Zmienne losowe i ich parametry. Niezależność. Prawa wielkich liczb oraz centralne twierdzenia graniczne i ich zastosowania.
Nie jestem pewien, czy moje rozwiązanie ma jakikolwiek sens. Czy mógłby ktoś zerknąć okiem?
Treść:
Genom człowieka zawiera 3 miliardy nukleotydów(A/T/G/C) ułożonych w długie szeregi sekwencji. Jaka jest minimalna długość sekwencji DNA, która występowałaby z największym prawdopodobieństwem tylko raz w genomie człowieka? Możesz się skupić tylko na jednej z nici i założyć, że wszystkie cztery nukleotydy występują w równych ilościach.
Rozwiązanie
Prawdopodobieństwo wystąpienia określonej sekwencji o długości \(\displaystyle{ n}\) nukleotydów to \(\displaystyle{ \frac{1}{4^{n}} }\)
Skoro chcemy, aby sekwencja ta występowała 1 raz w naszym łańcuchu to musimy zastosować nierówność: \(\displaystyle{ \frac{1}{4^{n}}< \frac{1}{ 3\cdot 10^{9}},}\)
czyli \(\displaystyle{ 4^{n}> 3\cdot 10^{9} }\)
Najmniejsze \(\displaystyle{ n}\) dla którego jest ona spełniona to \(\displaystyle{ n=16}\), ponieważ \(\displaystyle{ 4^{16}= 4294967296> 3\cdot 10^{9}}\) \(\displaystyle{ 4 ^{15} = 1073741824< 3\cdot 10^{9}}\)
Z góry dziękuję za pomoc
Ostatnio zmieniony 12 kwie 2020, o 19:23 przez Jan Kraszewski, łącznie zmieniany 1 raz.
Powód:Symbol mnożenia to \cdot. Poprawa wiadomości.
Dziękuję za odpowiedź, mam jeszcze 2 pytania:
Czy jeśli w treści nie byłoby zdania "wszystkie cztery nukleotydy występują w równych ilościach", to czy tamto rozwiązanie byłoby dobre?
Skąd dokładnie wzór: \(\displaystyle{ Pr({S=n})=\frac{n!}{4^{n}}}\)
tzn. co przeczytać, aby umieć samemu wyprowadzać takie wzory?
Dołączam się do pytania. W szczególności, dla \( n = 2 \) wzór daje odpowiedź "osiem", co jest trochę sporą wartością jak na prawdopodobieństwo
Dodano po 1 godzinie 10 minutach 43 sekundach:
To zadanie rozumieć na kilka sposobów.
Sposób 1:
Sekwencję DNA uznajemy za dobrą, jeżeli bardziej prawdopodobne jest, że wystąpi w losowym genomie dokładnie raz, niż że wystąpi zero, dwa, trzy, ... razy. Jaka jest minimalna długość dobrej sekwencji DNA?
Istnieją tylko cztery dobre sekwencje: "A", "C", "G", "T", zatem odpowiedź brzmi: jeden. Problem bierze się stąd, że większość genomów nie zawiera danej sekwencji wcale. Na przykład wśród genomów długości sześć, 2911 nie zawiera sekwencji "AG", 1091 zawiera ją raz, 93 zawiera dwa razy, 1 zawiera trzy razy. Ponieważ \( 2911 > 1091 \), ta sekwencja nie jest dobra.
Sposób 2:
Sekwencję DNA uznajemy za dobrą, jeżeli bardziej prawdopodobne jest, że wystąpi w losowym genomie dokładnie raz, niż że wystąpi dwa, trzy, ... razy. Jaka jest minimalna długość dobrej sekwencji DNA?
Tutaj nie jestem pewien, jaka jest dobra odpowiedź.
Sposób 3. Sekwencję DNA uznajemy za dobrą, jeśli wartość oczekiwana liczby jej wystąpień w losowym genomie wynosi mniej niż jeden. Jaka jest minimalna długość dobrej sekwencji DNA?
Niech \( X \) będzie zmienną losową opisującą liczbę wystąpień sekwencji DNA w losowym genomie. Niech \( X_k \) będzie zmienną losową przyjmującą wartość jeden, jeżeli genom w miejscu \( k \) zaczyna się od naszej sekwencji DNA, zero w przeciwnym przypadku. Wtedy oczywiście:
gdzie \( M = 3 \cdot 10^9 \) jest długością genomu. Sekwencji DNA o długości \( n \) jest dokładnie \( 4^n \). Prawdopodobieństwo, że fragment genomu od pewnego miejsca \( k \) zaczyna się od tej sekwencji wynosi \( 4^{-n} \), ale tylko pod warunkiem, że \( k + n - 1 \le M \), to znaczy: nasza sekwencja zdąży się skończyć przed końcem genomu, wtedy zmienna losowa \( X_k \) ma rozkład zero-jedynkowy ( z parametrem \( p = 4^{-n} \). Jeżeli tak nie jest, zmienna losowa \( X_k \equiv 0 \) przyjmuje zawsze wartość zero (pozostały kawałek genomu jest za krótki, żeby zmieściła się w nim sekwencja). Ponieważ genom jest bardzo długi, możemy przyjąć w uproszczeniu, że ta druga sytuacja w ogóle nie ma miejsca. I teraz zadanie sprowadza się do znalezienia najmniejszego \( n \), że
\( \mathbb E[X] \approx M \cdot 4^{-n} < 1 \).
To jest rozwiązanie Autora tematu, znalazł on, że \( n = 16 \) jest właśnie taką najmniejszą wartością. Ja się z tym rozwiązaniem zgadzam.
@gosda
Reasumując "sposób trzeci" , aby to rozwiązanie było poprawne, to zadanie powinno brzmieć:
"Jaka jest minimalna długość sekwencji DNA, która występowałaby z największym prawdopodobieństwem MNIEJ NIŻ raz w genomie człowieka?"
Dobrze rozumiem?
W innym przypadku treść bardziej sugeruje sposób 1 lub 2, a tego nie da się porównać tym równaniem? Tak? Oczywiście upraszczając i pomijając w rozwazaniach skrajne przypadki typu sekwencja o długość n złożona z samych A i dopisanie jednej A to już kolejne wystąpienie danej sekwencji?
Nie umiem zmienić treści tego zadania tak, żeby sugerowała sposób trzeci.
"Jaka jest minimalna długość sekwencji DNA, aby średnio występowała mniej niż raz w losowo wybranym genomie człowieka?"
Może coś takiego. Moim zdaniem zadanie powinno od razu używać jakiejś notacji matematycznej, czyli na przykład: niech \(\displaystyle{ X}\) będzie zmienną losową opisującą... jaka jest minimalna długość sekwencji DNA, aby ... (i tu jakiś warunek matematyczny).
Panie Gozda , nie ma Pan racji musimy dodatkowo uwzględnić w sekwencji długości \(\displaystyle{ n }\) ilość różnych permutacji nukleidów \(\displaystyle{ n! }\) Proszę zapoznać się z podstawami genetyki człowieka. Wtedy dowie się Pan, że najmniejszej długości genomem występującym najczęściej w DNA człowieka w jednej jego nici jest genom białka RNA złożony z \(\displaystyle{ 25 }\) nukleidów.
@Janusz47 To Pan się właśnie nie zapoznał :/
1. Genom= kompletna informacja genetyczna (w tym przypadku DNA) zawarta w określonej komórce
2. Sekwencje kodujące białko stanowią tylko małą część genomu, np. u człowieka około 1,5% genomu.
W tym zadaniu rozważamy nić o długości podanej w zadaniu, a nie kilka nici które po zsumowaniu dadzą taką długość.
Panie Januszu, przyznaję, że brakuje mi rozumienia biologii czy dziedzin jej pokrewnych. Z mojego punktu widzenia, należy zdefiniować przestrzeń probabilistyczną, określić albo zmienną losową, albo zdarzenie sprzyjające, policzyć coś na podstawie tego. Proszę uzupełnić luki (znaki zapytania):
\(\displaystyle{ \Omega = ?}\)
\(\displaystyle{ A = ?}\) (oczywiście \(\displaystyle{ A \subseteq \Omega}\) może być dowolnym podzbiorem, bo \(\displaystyle{ \Omega}\) jest skończona).
W tym zadaniu mówimy o jednej nici i nadal twierdzę Panie tsssssss, że należy w sekwencji długości \(\displaystyle{ n }\) uwzględnić permutację \(\displaystyle{ \frac{n!}{4^{n}} }\) nukleoidów.
Niech Pan zajrzy na przykład do podręcznika: Leah Edeistein Keshet. Mathematical models in biology.2005 SIAM.
Jakiś komentarz odnośnie tego, że prawdopodobieństwo czasami wychodzi większe niż jeden? Jeżeli nie, to ja chyba zrezygnuję z dalszego udziału w tym wątku.
Wyobraźmy sobie sytuację (hipotetyczną), kiedy nukleotydów jest jedenaście: A, B, C, ..., I, J, K. Wtedy napisalibyśmy \(\displaystyle{ P = 11^n / n!}\), które jest większe niż jeden dla \(\displaystyle{ n = 1, 2, \ldots, 27}\). Czemu wzór ma działać dopiero od dwudziestu ośmiu? Dla krótszych odcinków nie da się obliczyć prawdopodobieństwa? To brzmi absurdalnie.
Dlaczego nierealne? Jakieś prawo biologiczne zakazuje takiej sytuacji? A jeśli nie to dlaczego ten model się w takim przypadku sypie? To jest w sumie dość istotne z punktu widzenia spójności modelu.