Ilość powtórzeń sekwencji

Definicja klasyczna. Prawdopodobieństwo warunkowe i całkowite. Zmienne losowe i ich parametry. Niezależność. Prawa wielkich liczb oraz centralne twierdzenia graniczne i ich zastosowania.
tsssssss
Użytkownik
Użytkownik
Posty: 7
Rejestracja: 24 sty 2017, o 01:35
Płeć: Mężczyzna
Lokalizacja: Warszawa
Podziękował: 2 razy

Ilość powtórzeń sekwencji

Post autor: tsssssss »

Nie jestem pewien, czy moje rozwiązanie ma jakikolwiek sens. Czy mógłby ktoś zerknąć okiem?

Treść:
Genom człowieka zawiera 3 miliardy nukleotydów(A/T/G/C) ułożonych w długie szeregi sekwencji. Jaka jest minimalna długość sekwencji DNA, która występowałaby z największym prawdopodobieństwem tylko raz w genomie człowieka? Możesz się skupić tylko na jednej z nici i założyć, że wszystkie cztery nukleotydy występują w równych ilościach.

Rozwiązanie
Prawdopodobieństwo wystąpienia określonej sekwencji o długości \(\displaystyle{ n}\) nukleotydów to
\(\displaystyle{ \frac{1}{4^{n}} }\)
Skoro chcemy, aby sekwencja ta występowała 1 raz w naszym łańcuchu to musimy zastosować nierówność:
\(\displaystyle{ \frac{1}{4^{n}}< \frac{1}{ 3\cdot 10^{9}},}\)
czyli
\(\displaystyle{ 4^{n}> 3\cdot 10^{9} }\)
Najmniejsze \(\displaystyle{ n}\) dla którego jest ona spełniona to \(\displaystyle{ n=16}\), ponieważ
\(\displaystyle{ 4^{16}= 4294967296> 3\cdot 10^{9}}\)
\(\displaystyle{ 4 ^{15} = 1073741824< 3\cdot 10^{9}}\)
Z góry dziękuję za pomoc :D
Ostatnio zmieniony 12 kwie 2020, o 19:23 przez Jan Kraszewski, łącznie zmieniany 1 raz.
Powód: Symbol mnożenia to \cdot. Poprawa wiadomości.
janusz47
Użytkownik
Użytkownik
Posty: 8035
Rejestracja: 18 mar 2009, o 16:24
Płeć: Mężczyzna
Podziękował: 30 razy
Pomógł: 1707 razy

Re: Ilość powtórzeń sekwencji

Post autor: janusz47 »

Ciekawe i praktyczne zadanie z teorii Bioinformatyki.

Zakładając, że wszystkie nukleoidy występują w równych ilościach zachodzą równości

\(\displaystyle{ P(A) = P(C) = P(G) = P(T) \ \ (1)}\)

\(\displaystyle{ P(A) + P(B) + P(C) + P(T) = 1 \ \ (2) }\)

Z równości \(\displaystyle{ (1), (2) }\) wynika, że

\(\displaystyle{ P(A) = P(C) = P(G) = P(T) = \frac{1}{4}. }\)

Prawdopodobieństwo wystąpienia określonej sekwencji \(\displaystyle{ S }\) nukleoidów o długości \(\displaystyle{ n }\) jest równe

\(\displaystyle{ Pr(\{ S = n\}) = \frac{1}{\frac{n!}{4^{n}}}.}\)

Stąd wynika nierówność

\(\displaystyle{ Pr(\{ S = n\}) =\frac{1} {\frac{n!}{4^{n}}} < \frac{1}{N} }\)

\(\displaystyle{ \frac{1}{\frac{n!}{4^{n}}} < \frac{1}{3\cdot 10^{9}} }\)

\(\displaystyle{ \frac{n!}{4^{n}} > 3\cdot 10^{9} }\)

Co daje sekwencję \(\displaystyle{ 25 }\) nukleoidów.

Sekwencja ta odpowiada cząsteczce białka RNA w jednej nici.
tsssssss
Użytkownik
Użytkownik
Posty: 7
Rejestracja: 24 sty 2017, o 01:35
Płeć: Mężczyzna
Lokalizacja: Warszawa
Podziękował: 2 razy

Re: Ilość powtórzeń sekwencji

Post autor: tsssssss »

Dziękuję za odpowiedź, mam jeszcze 2 pytania:
Czy jeśli w treści nie byłoby zdania "wszystkie cztery nukleotydy występują w równych ilościach", to czy tamto rozwiązanie byłoby dobre?
Skąd dokładnie wzór:
\(\displaystyle{ Pr({S=n})=\frac{n!}{4^{n}}}\)
tzn. co przeczytać, aby umieć samemu wyprowadzać takie wzory?
Awatar użytkownika
Gosda
Użytkownik
Użytkownik
Posty: 338
Rejestracja: 29 cze 2019, o 19:46
Płeć: Mężczyzna
wiek: 1
Lokalizacja: Oulu
Podziękował: 42 razy
Pomógł: 60 razy

Re: Ilość powtórzeń sekwencji

Post autor: Gosda »

Dołączam się do pytania. W szczególności, dla \( n = 2 \) wzór daje odpowiedź "osiem", co jest trochę sporą wartością jak na prawdopodobieństwo :)

Dodano po 1 godzinie 10 minutach 43 sekundach:
To zadanie rozumieć na kilka sposobów.
Sposób 1:    
Sposób 2:    
Sposób 3. Sekwencję DNA uznajemy za dobrą, jeśli wartość oczekiwana liczby jej wystąpień w losowym genomie wynosi mniej niż jeden. Jaka jest minimalna długość dobrej sekwencji DNA?

Niech \( X \) będzie zmienną losową opisującą liczbę wystąpień sekwencji DNA w losowym genomie. Niech \( X_k \) będzie zmienną losową przyjmującą wartość jeden, jeżeli genom w miejscu \( k \) zaczyna się od naszej sekwencji DNA, zero w przeciwnym przypadku. Wtedy oczywiście:

\(\displaystyle{ \mathbb E[X] = \sum_{k = 1}^M \mathbb E[X_k],}\)

gdzie \( M = 3 \cdot 10^9 \) jest długością genomu. Sekwencji DNA o długości \( n \) jest dokładnie \( 4^n \). Prawdopodobieństwo, że fragment genomu od pewnego miejsca \( k \) zaczyna się od tej sekwencji wynosi \( 4^{-n} \), ale tylko pod warunkiem, że \( k + n - 1 \le M \), to znaczy: nasza sekwencja zdąży się skończyć przed końcem genomu, wtedy zmienna losowa \( X_k \) ma rozkład zero-jedynkowy ( z parametrem \( p = 4^{-n} \). Jeżeli tak nie jest, zmienna losowa \( X_k \equiv 0 \) przyjmuje zawsze wartość zero (pozostały kawałek genomu jest za krótki, żeby zmieściła się w nim sekwencja). Ponieważ genom jest bardzo długi, możemy przyjąć w uproszczeniu, że ta druga sytuacja w ogóle nie ma miejsca. I teraz zadanie sprowadza się do znalezienia najmniejszego \( n \), że

\( \mathbb E[X] \approx M \cdot 4^{-n} < 1 \).

To jest rozwiązanie Autora tematu, znalazł on, że \( n = 16 \) jest właśnie taką najmniejszą wartością. Ja się z tym rozwiązaniem zgadzam.
tsssssss
Użytkownik
Użytkownik
Posty: 7
Rejestracja: 24 sty 2017, o 01:35
Płeć: Mężczyzna
Lokalizacja: Warszawa
Podziękował: 2 razy

Re: Ilość powtórzeń sekwencji

Post autor: tsssssss »

@gosda
Reasumując "sposób trzeci" , aby to rozwiązanie było poprawne, to zadanie powinno brzmieć:
"Jaka jest minimalna długość sekwencji DNA, która występowałaby z największym prawdopodobieństwem MNIEJ NIŻ raz w genomie człowieka?"
Dobrze rozumiem?
W innym przypadku treść bardziej sugeruje sposób 1 lub 2, a tego nie da się porównać tym równaniem? Tak? Oczywiście upraszczając i pomijając w rozwazaniach skrajne przypadki typu sekwencja o długość n złożona z samych A i dopisanie jednej A to już kolejne wystąpienie danej sekwencji?
Awatar użytkownika
Gosda
Użytkownik
Użytkownik
Posty: 338
Rejestracja: 29 cze 2019, o 19:46
Płeć: Mężczyzna
wiek: 1
Lokalizacja: Oulu
Podziękował: 42 razy
Pomógł: 60 razy

Re: Ilość powtórzeń sekwencji

Post autor: Gosda »

Nie umiem zmienić treści tego zadania tak, żeby sugerowała sposób trzeci.

"Jaka jest minimalna długość sekwencji DNA, aby średnio występowała mniej niż raz w losowo wybranym genomie człowieka?"

Może coś takiego. Moim zdaniem zadanie powinno od razu używać jakiejś notacji matematycznej, czyli na przykład: niech \(\displaystyle{ X}\) będzie zmienną losową opisującą... jaka jest minimalna długość sekwencji DNA, aby ... (i tu jakiś warunek matematyczny).
janusz47
Użytkownik
Użytkownik
Posty: 8035
Rejestracja: 18 mar 2009, o 16:24
Płeć: Mężczyzna
Podziękował: 30 razy
Pomógł: 1707 razy

Re: Ilość powtórzeń sekwencji

Post autor: janusz47 »

Panie Gozda , nie ma Pan racji musimy dodatkowo uwzględnić w sekwencji długości \(\displaystyle{ n }\) ilość różnych permutacji nukleidów \(\displaystyle{ n! }\) Proszę zapoznać się z podstawami genetyki człowieka. Wtedy dowie się Pan, że najmniejszej długości genomem występującym najczęściej w DNA człowieka w jednej jego nici jest genom białka RNA złożony z \(\displaystyle{ 25 }\) nukleidów.
tsssssss
Użytkownik
Użytkownik
Posty: 7
Rejestracja: 24 sty 2017, o 01:35
Płeć: Mężczyzna
Lokalizacja: Warszawa
Podziękował: 2 razy

Re: Ilość powtórzeń sekwencji

Post autor: tsssssss »

@Janusz47 To Pan się właśnie nie zapoznał :/
1. Genom= kompletna informacja genetyczna (w tym przypadku DNA) zawarta w określonej komórce
2. Sekwencje kodujące białko stanowią tylko małą część genomu, np. u człowieka około 1,5% genomu.

W tym zadaniu rozważamy nić o długości podanej w zadaniu, a nie kilka nici które po zsumowaniu dadzą taką długość.
Awatar użytkownika
Gosda
Użytkownik
Użytkownik
Posty: 338
Rejestracja: 29 cze 2019, o 19:46
Płeć: Mężczyzna
wiek: 1
Lokalizacja: Oulu
Podziękował: 42 razy
Pomógł: 60 razy

Re: Ilość powtórzeń sekwencji

Post autor: Gosda »

Panie Januszu, przyznaję, że brakuje mi rozumienia biologii czy dziedzin jej pokrewnych. Z mojego punktu widzenia, należy zdefiniować przestrzeń probabilistyczną, określić albo zmienną losową, albo zdarzenie sprzyjające, policzyć coś na podstawie tego. Proszę uzupełnić luki (znaki zapytania):

\(\displaystyle{ \Omega = ?}\)

\(\displaystyle{ A = ?}\) (oczywiście \(\displaystyle{ A \subseteq \Omega}\) może być dowolnym podzbiorem, bo \(\displaystyle{ \Omega}\) jest skończona).

\(\displaystyle{ P(S = n) = \frac{|A|}{|\Omega|} = \frac{?}{?} = \frac{1}{\frac{n!}{4^n}} = \frac{4^n}{n!}}\)

W szczególności proszę wyjaśnić, czemu dla \(\displaystyle{ n = 2}\) "prawdopodobieństwo"

\(\displaystyle{ P(S = 2) = \frac{16}{2} = 8}\)

jest większe niż jeden.

Pozdrawiam,
Gosda
janusz47
Użytkownik
Użytkownik
Posty: 8035
Rejestracja: 18 mar 2009, o 16:24
Płeć: Mężczyzna
Podziękował: 30 razy
Pomógł: 1707 razy

Re: Ilość powtórzeń sekwencji

Post autor: janusz47 »

W tym zadaniu mówimy o jednej nici i nadal twierdzę Panie tsssssss, że należy w sekwencji długości \(\displaystyle{ n }\) uwzględnić permutację \(\displaystyle{ \frac{n!}{4^{n}} }\) nukleoidów.

Niech Pan zajrzy na przykład do podręcznika: Leah Edeistein Keshet. Mathematical models in biology.2005 SIAM.
Awatar użytkownika
Gosda
Użytkownik
Użytkownik
Posty: 338
Rejestracja: 29 cze 2019, o 19:46
Płeć: Mężczyzna
wiek: 1
Lokalizacja: Oulu
Podziękował: 42 razy
Pomógł: 60 razy

Re: Ilość powtórzeń sekwencji

Post autor: Gosda »

Jakiś komentarz odnośnie tego, że prawdopodobieństwo czasami wychodzi większe niż jeden? Jeżeli nie, to ja chyba zrezygnuję z dalszego udziału w tym wątku.
janusz47
Użytkownik
Użytkownik
Posty: 8035
Rejestracja: 18 mar 2009, o 16:24
Płeć: Mężczyzna
Podziękował: 30 razy
Pomógł: 1707 razy

Re: Ilość powtórzeń sekwencji

Post autor: janusz47 »

Bierzemy odwrotność dla \(\displaystyle{ n \geq 4. }\)
Awatar użytkownika
Gosda
Użytkownik
Użytkownik
Posty: 338
Rejestracja: 29 cze 2019, o 19:46
Płeć: Mężczyzna
wiek: 1
Lokalizacja: Oulu
Podziękował: 42 razy
Pomógł: 60 razy

Re: Ilość powtórzeń sekwencji

Post autor: Gosda »

Wyobraźmy sobie sytuację (hipotetyczną), kiedy nukleotydów jest jedenaście: A, B, C, ..., I, J, K. Wtedy napisalibyśmy \(\displaystyle{ P = 11^n / n!}\), które jest większe niż jeden dla \(\displaystyle{ n = 1, 2, \ldots, 27}\). Czemu wzór ma działać dopiero od dwudziestu ośmiu? Dla krótszych odcinków nie da się obliczyć prawdopodobieństwa? To brzmi absurdalnie.
janusz47
Użytkownik
Użytkownik
Posty: 8035
Rejestracja: 18 mar 2009, o 16:24
Płeć: Mężczyzna
Podziękował: 30 razy
Pomógł: 1707 razy

Re: Ilość powtórzeń sekwencji

Post autor: janusz47 »

Założenia są nierealne.
Awatar użytkownika
AiDi
Moderator
Moderator
Posty: 3797
Rejestracja: 25 maja 2009, o 22:58
Płeć: Mężczyzna
Lokalizacja: Warszawa
Podziękował: 49 razy
Pomógł: 707 razy

Re: Ilość powtórzeń sekwencji

Post autor: AiDi »

Dlaczego nierealne? Jakieś prawo biologiczne zakazuje takiej sytuacji? A jeśli nie to dlaczego ten model się w takim przypadku sypie? To jest w sumie dość istotne z punktu widzenia spójności modelu.
ODPOWIEDZ