Śmiertelność koronawirusa na podstawie Diamond Princess

Procesy stochastyczne. Sposoby racjonalizowania wielkich ilości informacji. Matematyka w naukach społecznych.
matemix
Użytkownik
Użytkownik
Posty: 465
Rejestracja: 10 cze 2008, o 19:38
Płeć: Mężczyzna
Lokalizacja: Wrocław
Podziękował: 12 razy
Pomógł: 1 raz

Śmiertelność koronawirusa na podstawie Diamond Princess

Post autor: matemix »

Mam zbiór \(\displaystyle{ 712}\) osób. Wiem, że pewna liczba z nich jest w wieku:

\(\displaystyle{ 10-19}\)
\(\displaystyle{ 20-29}\)
\(\displaystyle{ 30-39}\)
\(\displaystyle{ 40-49}\)
\(\displaystyle{ 50-59}\)
\(\displaystyle{ 60-69}\)
\(\displaystyle{ 70-79}\)
\(\displaystyle{ 80+}\)

Mediana wieku wynosi \(\displaystyle{ 65}\) lat. Jak znaleźć lub sensownie oszacować możliwą liczbę osób w poszczególnych przedziałach wiekowych? Jednocześnie wiem też, że odpowiednio:

\(\displaystyle{ 0,2 \% \cdot x}\)
\(\displaystyle{ 0,2 \% \cdot x}\)
\(\displaystyle{ 0,2 \% \cdot x}\)
\(\displaystyle{ 0,4 \% \cdot x}\)
\(\displaystyle{ 1.3 \% \cdot x}\)
\(\displaystyle{ 3,6 \% \cdot x}\)
\(\displaystyle{ 8,0 \% \cdot x}\)
\(\displaystyle{ 14,8 \% \cdot x}\)

W poszczególnych grupach wiekowych zmarło. Nie znam \(\displaystyle{ x}\) (na pewno jest mniejsze od jedynki), ale znam proporcje tych śmierci, jak wyżej. Wiem też, że zmarło w sumie \(\displaystyle{ 11}\) osób. Jak wyznaczyć \(\displaystyle{ x}\)? Świta mi taki pomysł, żeby jakoś znaleźć przeciętny (tylko co to znaczy) rozkład z medianą \(\displaystyle{ 65}\), taki który daje w sumie \(\displaystyle{ 712}\) osób. Załóżmy, że wiem, że, żeby mediana tyle wynosiła, to w poszczególnych grupach wiekowych muszę mieć odpowiednio \(\displaystyle{ a=1,5}\) osoby, \(\displaystyle{ b=}\) ... itd. Gdybym to miał, to mogę napisać równanie:

\(\displaystyle{ (0,002 \cdot a+0,002 \cdot b+0,002 \cdot c+0,004 \cdot d+0,013 \cdot e+0,036 \cdot f+0,08 \cdot g+0,148 \cdot h) \cdot x = 11}\)

I wyznaczyć \(\displaystyle{ x}\). Dobrze mi się wydaje? Tylko jak znaleźć liczebności tych grup wiekowych. One mogą się mocno różnić, z tego co rozumiem, bo taką dowolność stwarza definicja mediany. Ale powiedzmy, że weźmiemy takie najbardziej typowe. Jak się to określa w statystyce? To jest jakiś rodzaj rozkładu? Poissona?

Dodano po 1 godzinie 57 minutach 48 sekundach:
Policzyłem to na szybko, łopatologicznie. Wziąłem rozkład Pascala i funkcję masy prawdopodobieństwa (dla \(\displaystyle{ k}\) od \(\displaystyle{ 0}\) do \(\displaystyle{ 100}\)):

Kod: Zaznacz cały

https://en.wikipedia.org/wiki/Negative_binomial_distribution#Probability_mass_function


Ręcznie dobrałem parametry \(\displaystyle{ r}\) oraz \(\displaystyle{ p}\), tak, żeby dostać odpowiednio kopniętą funkcję, której szczyt wypada dla mniej więcej dla \(\displaystyle{ k=35}\). Teraz jak ponumeruję sobie to od tyłu, zaczynając od \(\displaystyle{ 100}\) mam szczyt funkcji gdzieś na \(\displaystyle{ 65}\). Dzięki temu suma wartości funkcji od \(\displaystyle{ k=100}\) do \(\displaystyle{ k=65}\) wynosi mniej więcej tyle samo co suma od \(\displaystyle{ k=64}\) do \(\displaystyle{ k=0}\). Czyli tam jest mediana tego rozkładu, mniej więcej. Podsumowałem jaki odsetek w całym rozkładzie wynoszą sumy kolejno przedziałów wiekowych \(\displaystyle{ 0-19}\), \(\displaystyle{ 20-29}\) itd. Stąd wyznaczyłem:

\(\displaystyle{ a=1,5599}\)
\(\displaystyle{ b=6,5262}\)
\(\displaystyle{ c=23,3328}\)
\(\displaystyle{ d=67,9789}\)
\(\displaystyle{ e=15,1237}\)
\(\displaystyle{ f=223,4545}\)
\(\displaystyle{ g=182,3108}\)
\(\displaystyle{ h=56,7130}\)

I obliczyłem \(\displaystyle{ x=0,4271}\).

Ale wiem, że popełniłem po drodze pewnie masę błędów i nadużyć. Nie mam pojęcia, czy rozkład Pascala ma tu sens, parametry wziąłem z czapy, byle szczyt się zgadzał, a do tego dobrałem je ręcznie... Teraz chcę oszacować - jaka byłaby śmiertelność, gdybyśmy wzięli ludzi z normalną medianą wieku i w ten sposób oszacować normalną śmiertelność, a nie taką zawyżoną z uwagi na tak wysoką medianę. Czuję, że to ma sens, ale brak mi podstaw formalnych trochę.

Dodano po 53 minutach 59 sekundach:
To chyba nie ma sensu, co dotąd zrobiłem. Przecież to na ile współczynnik śmierci jest zaniżony mogłem policzyć sumując śmiertelność we wszystkich grupach wiekowych i licząc średnią śmiertelność:

\(\displaystyle{ \frac {0,2+0,2+0,2+0,4+1,3+3,6+8+14,8}{8}=3,59}\)

I porównać to z \(\displaystyle{ \frac {11}{712}=1,54}\). Mamy proporcje \(\displaystyle{ 0,4306}\). Wychodzi nam to samo, łatwiej. Wynika z tego, że oficjalne dane o śmiertelności są ponad dwukrotnie przeszacowane względem tego co widzimy z tych danych - przypadek zakażeń wirusem na Diamond Princess. Zmarło tam tylko \(\displaystyle{ 11}\) ludzi, pomimo, że średnia śmiertelność, której się spodziewamy z oficjalnych statystyk WHO powinna wynieść więcej. A i tak byli to ludzie z medianą wieku mocno powyżej tej, która jest w normalnym społeczeństwie (ok. \(\displaystyle{ 37}\) lat).

Znalazłem parametry tego rozkładu mniej więcej dla mediany w okolicach \(\displaystyle{ 37}\) lat. I wyszło, że śmiertelność jest jeszcze \(\displaystyle{ 6,19}\) razy mniejsza (dla rozkładu z taką medianą). Cały czas zakładam, że proporcje oficjalnych danych nt. odsetka zgonów w poszczególnych grupach wiekowych są mniej więcej poprawne. Jednak wielkości tych odsetków już nie, bo bardzo dużo przypadków infekcji pozostaje niewykrytych. Śmiertelność w poszczególnych grupach wiekowych powinna wynosić więc mniej więcej:

\(\displaystyle{ 0,032 \% }\)
\(\displaystyle{ 0,032 \% }\)
\(\displaystyle{ 0,032 \% }\)
\(\displaystyle{ 0,065 \% }\)
\(\displaystyle{ 0,210 \% }\)
\(\displaystyle{ 0,582 \% }\)
\(\displaystyle{ 1,292 \% }\)
\(\displaystyle{ 2,391 \% }\)

A średnio \(\displaystyle{ 0,25 \% }\), czyli mniej więcej tyle co grypy. Tylko, żebym ja to umiał poprawnie z formalnego punktu widzenia policzyć.
janusz47
Użytkownik
Użytkownik
Posty: 7917
Rejestracja: 18 mar 2009, o 16:24
Płeć: Mężczyzna
Podziękował: 30 razy
Pomógł: 1671 razy

Re: Śmiertelność koronawirusa na podstawie Diamond Princess

Post autor: janusz47 »

Jakie są konkretne dane statystyczne i co chce Pan konkretnie policzyć na podstawie tych danych? Bo post zawiera pomieszanie z poplątaniem.
matemix
Użytkownik
Użytkownik
Posty: 465
Rejestracja: 10 cze 2008, o 19:38
Płeć: Mężczyzna
Lokalizacja: Wrocław
Podziękował: 12 razy
Pomógł: 1 raz

Re: Śmiertelność koronawirusa na podstawie Diamond Princess

Post autor: matemix »

Mam \(\displaystyle{ 712}\) osób i wiem, że mediana ich wieku wynosi \(\displaystyle{ 65}\) lat. Chcę ustalić ile osób będzie w takiej grupie w następujących przedziałach wiekowych:

\(\displaystyle{ 10-19}\)
\(\displaystyle{ 20-29}\)
\(\displaystyle{ 30-39}\)
\(\displaystyle{ 40-49}\)
\(\displaystyle{ 50-59}\)
\(\displaystyle{ 60-69}\)
\(\displaystyle{ 70-79}\)
\(\displaystyle{ 80+}\)

Następnie chcę wiedzieć ile osób będzie w tych przedziałach, jeśli mediania wyniesie \(\displaystyle{ 37}\) lat. Gdy już to mam - kolejna sprawa - wiem, że śmiertelność w poszczególnych grupach wynosi (ale nie znamy \(\displaystyle{ x}\)):

\(\displaystyle{ 0,2 \% \cdot x}\)
\(\displaystyle{ 0,2 \% \cdot x}\)
\(\displaystyle{ 0,2 \% \cdot x}\)
\(\displaystyle{ 0,4 \% \cdot x}\)
\(\displaystyle{ 1.3 \% \cdot x}\)
\(\displaystyle{ 3,6 \% \cdot x}\)
\(\displaystyle{ 8,0 \% \cdot x}\)
\(\displaystyle{ 14,8 \% \cdot x}\)

Oficjalnie wiemy, że śmiertelność w losowo wybranej próbce populacji wynosi:

\(\displaystyle{ \frac {0,2+0,2+0,2+0,4+1,3+3,6+8,0+14,8}{8} = 3.5875 \% }\), ale wiemy, że dane te są przeszacowane (stąd trzeba je skorygować o \(\displaystyle{ x}\)). W naszym przypadku, jeśli zmarło w sumie \(\displaystyle{ 11}\) osób, to wiadomo, że śmiertelność wynosi \(\displaystyle{ \frac {11}{712}=1,54 \% }\), a zatem \(\displaystyle{ x=0,4293}\). Ale, to są dane dla populacji z zawyżoną medianą \(\displaystyle{ 65}\) lat. Ile wyniesie śmiertelność dla społeczeństwa o normalnej medianie \(\displaystyle{ 37}\) lat? Wydaje mi się, że wystarczy oszacować liczbę osób w poszczególnych przedziałach wiekowych w dwóch populacjach i porównać ze sobą. Przykładowo ustaliłem ile osób zmarło dla mediany \(\displaystyle{ 65}\) lat na tym statku. Policzyłem, że w poszczególnych grupach wiekowych musiało tam być tyle osób (bo skonstruowałem rozkład wieku społeczeństwa dla mediany \(\displaystyle{ 65}\) lat):

\(\displaystyle{ 10-19}\) - było \(\displaystyle{ 2,46}\) osób
\(\displaystyle{ 20-29}\) - było \(\displaystyle{ 8,61}\) osób
\(\displaystyle{ 30-39}\) - było \(\displaystyle{ 28,29}\) osób
\(\displaystyle{ 40-49}\) - było \(\displaystyle{ 83,64}\) osób
\(\displaystyle{ 50-59}\) - było \(\displaystyle{ 184,5}\) osób
\(\displaystyle{ 60-69}\) - było \(\displaystyle{ 274,29}\) osób
\(\displaystyle{ 70-79}\) - było \(\displaystyle{ 223,86}\) osób
\(\displaystyle{ 80+}\) - było \(\displaystyle{ 70,11}\) osób

W sumie około \(\displaystyle{ 712}\). I teraz wiemy, że zmarło z nich w poszczególnych grupach wiekowych tyle procent:

\(\displaystyle{ 0,2 \% \cdot 0,4293}\)
\(\displaystyle{ 0,2 \% \cdot 0,4293}\)
\(\displaystyle{ 0,2 \% \cdot 0,4293}\)
\(\displaystyle{ 0,4 \% \cdot 0,4293}\)
\(\displaystyle{ 1.3 \% \cdot 0,4293}\)
\(\displaystyle{ 3,6 \% \cdot 0,4293}\)
\(\displaystyle{ 8,0 \% \cdot 0,4293}\)
\(\displaystyle{ 14,8 \% \cdot 0,4293}\)

Ale to wciąż nie sumuje się do \(\displaystyle{ 11}\) zgonów, tylko do około \(\displaystyle{ 17}\). Zakładam, że wynika to z błędu w rozkładzie wieku, który założyliśmy lub z jakichś fluktuacji w śmiertelności w poszczególnych grupach wiekowych akurat na tym statku. Teraz musimy ustalić ile osób umrze przy normalnym rozkładzie wieku w społeczeństwie, gdy mediana wynosi \(\displaystyle{ 37}\) lat. Ustaliłem taki rozkład i policzyłem procenty powyżej, dodałem i wyszła mi pewna liczba zgonów. Oczywiście mniejsza, skoro mamy więcej osób w niższych grupach wiekowych, a tam jest też mniejsza śmiertelność. Wyszło mi, że śmiertelność względem populacji o medianie \(\displaystyle{ 65}\) jest blisko \(\displaystyle{ 6}\) mniejsza. Stąd wnioskuję, że śmiertelność na koronawirusa realnie wynosi nie \(\displaystyle{ \frac {11}{712}=1,54 \% }\), ale jeszcze \(\displaystyle{ 6}\) mniej.
ODPOWIEDZ