\(\displaystyle{ 10-19}\)
\(\displaystyle{ 20-29}\)
\(\displaystyle{ 30-39}\)
\(\displaystyle{ 40-49}\)
\(\displaystyle{ 50-59}\)
\(\displaystyle{ 60-69}\)
\(\displaystyle{ 70-79}\)
\(\displaystyle{ 80+}\)
Mediana wieku wynosi \(\displaystyle{ 65}\) lat. Jak znaleźć lub sensownie oszacować możliwą liczbę osób w poszczególnych przedziałach wiekowych? Jednocześnie wiem też, że odpowiednio:
\(\displaystyle{ 0,2 \% \cdot x}\)
\(\displaystyle{ 0,2 \% \cdot x}\)
\(\displaystyle{ 0,2 \% \cdot x}\)
\(\displaystyle{ 0,4 \% \cdot x}\)
\(\displaystyle{ 1.3 \% \cdot x}\)
\(\displaystyle{ 3,6 \% \cdot x}\)
\(\displaystyle{ 8,0 \% \cdot x}\)
\(\displaystyle{ 14,8 \% \cdot x}\)
W poszczególnych grupach wiekowych zmarło. Nie znam \(\displaystyle{ x}\) (na pewno jest mniejsze od jedynki), ale znam proporcje tych śmierci, jak wyżej. Wiem też, że zmarło w sumie \(\displaystyle{ 11}\) osób. Jak wyznaczyć \(\displaystyle{ x}\)? Świta mi taki pomysł, żeby jakoś znaleźć przeciętny (tylko co to znaczy) rozkład z medianą \(\displaystyle{ 65}\), taki który daje w sumie \(\displaystyle{ 712}\) osób. Załóżmy, że wiem, że, żeby mediana tyle wynosiła, to w poszczególnych grupach wiekowych muszę mieć odpowiednio \(\displaystyle{ a=1,5}\) osoby, \(\displaystyle{ b=}\) ... itd. Gdybym to miał, to mogę napisać równanie:
\(\displaystyle{ (0,002 \cdot a+0,002 \cdot b+0,002 \cdot c+0,004 \cdot d+0,013 \cdot e+0,036 \cdot f+0,08 \cdot g+0,148 \cdot h) \cdot x = 11}\)
I wyznaczyć \(\displaystyle{ x}\). Dobrze mi się wydaje? Tylko jak znaleźć liczebności tych grup wiekowych. One mogą się mocno różnić, z tego co rozumiem, bo taką dowolność stwarza definicja mediany. Ale powiedzmy, że weźmiemy takie najbardziej typowe. Jak się to określa w statystyce? To jest jakiś rodzaj rozkładu? Poissona?
Dodano po 1 godzinie 57 minutach 48 sekundach:
Policzyłem to na szybko, łopatologicznie. Wziąłem rozkład Pascala i funkcję masy prawdopodobieństwa (dla \(\displaystyle{ k}\) od \(\displaystyle{ 0}\) do \(\displaystyle{ 100}\)):
Kod: Zaznacz cały
https://en.wikipedia.org/wiki/Negative_binomial_distribution#Probability_mass_function
Ręcznie dobrałem parametry \(\displaystyle{ r}\) oraz \(\displaystyle{ p}\), tak, żeby dostać odpowiednio kopniętą funkcję, której szczyt wypada dla mniej więcej dla \(\displaystyle{ k=35}\). Teraz jak ponumeruję sobie to od tyłu, zaczynając od \(\displaystyle{ 100}\) mam szczyt funkcji gdzieś na \(\displaystyle{ 65}\). Dzięki temu suma wartości funkcji od \(\displaystyle{ k=100}\) do \(\displaystyle{ k=65}\) wynosi mniej więcej tyle samo co suma od \(\displaystyle{ k=64}\) do \(\displaystyle{ k=0}\). Czyli tam jest mediana tego rozkładu, mniej więcej. Podsumowałem jaki odsetek w całym rozkładzie wynoszą sumy kolejno przedziałów wiekowych \(\displaystyle{ 0-19}\), \(\displaystyle{ 20-29}\) itd. Stąd wyznaczyłem:
\(\displaystyle{ a=1,5599}\)
\(\displaystyle{ b=6,5262}\)
\(\displaystyle{ c=23,3328}\)
\(\displaystyle{ d=67,9789}\)
\(\displaystyle{ e=15,1237}\)
\(\displaystyle{ f=223,4545}\)
\(\displaystyle{ g=182,3108}\)
\(\displaystyle{ h=56,7130}\)
I obliczyłem \(\displaystyle{ x=0,4271}\).
Ale wiem, że popełniłem po drodze pewnie masę błędów i nadużyć. Nie mam pojęcia, czy rozkład Pascala ma tu sens, parametry wziąłem z czapy, byle szczyt się zgadzał, a do tego dobrałem je ręcznie... Teraz chcę oszacować - jaka byłaby śmiertelność, gdybyśmy wzięli ludzi z normalną medianą wieku i w ten sposób oszacować normalną śmiertelność, a nie taką zawyżoną z uwagi na tak wysoką medianę. Czuję, że to ma sens, ale brak mi podstaw formalnych trochę.
Dodano po 53 minutach 59 sekundach:
To chyba nie ma sensu, co dotąd zrobiłem. Przecież to na ile współczynnik śmierci jest zaniżony mogłem policzyć sumując śmiertelność we wszystkich grupach wiekowych i licząc średnią śmiertelność:
\(\displaystyle{ \frac {0,2+0,2+0,2+0,4+1,3+3,6+8+14,8}{8}=3,59}\)
I porównać to z \(\displaystyle{ \frac {11}{712}=1,54}\). Mamy proporcje \(\displaystyle{ 0,4306}\). Wychodzi nam to samo, łatwiej. Wynika z tego, że oficjalne dane o śmiertelności są ponad dwukrotnie przeszacowane względem tego co widzimy z tych danych - przypadek zakażeń wirusem na Diamond Princess. Zmarło tam tylko \(\displaystyle{ 11}\) ludzi, pomimo, że średnia śmiertelność, której się spodziewamy z oficjalnych statystyk WHO powinna wynieść więcej. A i tak byli to ludzie z medianą wieku mocno powyżej tej, która jest w normalnym społeczeństwie (ok. \(\displaystyle{ 37}\) lat).
Znalazłem parametry tego rozkładu mniej więcej dla mediany w okolicach \(\displaystyle{ 37}\) lat. I wyszło, że śmiertelność jest jeszcze \(\displaystyle{ 6,19}\) razy mniejsza (dla rozkładu z taką medianą). Cały czas zakładam, że proporcje oficjalnych danych nt. odsetka zgonów w poszczególnych grupach wiekowych są mniej więcej poprawne. Jednak wielkości tych odsetków już nie, bo bardzo dużo przypadków infekcji pozostaje niewykrytych. Śmiertelność w poszczególnych grupach wiekowych powinna wynosić więc mniej więcej:
\(\displaystyle{ 0,032 \% }\)
\(\displaystyle{ 0,032 \% }\)
\(\displaystyle{ 0,032 \% }\)
\(\displaystyle{ 0,065 \% }\)
\(\displaystyle{ 0,210 \% }\)
\(\displaystyle{ 0,582 \% }\)
\(\displaystyle{ 1,292 \% }\)
\(\displaystyle{ 2,391 \% }\)
A średnio \(\displaystyle{ 0,25 \% }\), czyli mniej więcej tyle co grypy. Tylko, żebym ja to umiał poprawnie z formalnego punktu widzenia policzyć.