Badanie z grupą kontrolną - istotność statystyczna wyniku
: 25 lis 2021, o 21:06
W badaniu RCT maseczek w grupie kontrolnej było \(\displaystyle{ 163861}\) osób, a w grupie zamaskowanej było \(\displaystyle{ 178322}\) osób.
W grupie kontrolnej odnotowano \(\displaystyle{ 1106}\) osób z objawami, potwierdzonych testem, a w grupie noszącej maseczki \(\displaystyle{ 1086}\) takich osób.
Czy wynik jest istotny statystycznie? Jakie jest prawdopodobieństwo, że zaobserwowana różnica to tylko przypadek?
Dodano po 17 godzinach 40 minutach 24 sekundach:
Policzyłem prawdopodobieństwo wylosowania co najwyżej \(\displaystyle{ 1086}\) białych kul przy \(\displaystyle{ 178322}\) losowaniach, gdy prawdopodobieństwo wylosowania jednej kuli, to zgodnie z próbą kontrolną \(\displaystyle{ \frac {1106}{163861}}\). Czyli \(\displaystyle{ 0,1,2,...,1086}\) sukcesów - sumę schematów Bernoulliego. To całkiem duże liczby i duża suma, dlatego napisałem kod w Pythonie:
I otrzymałem wynik \(\displaystyle{ 0.0002612759971674247776504472446}\). Wydaje się zatem, że szanse na zaobserwowanie czegoś takiego przypadkiem są jak \(\displaystyle{ 1:3827}\). Wynik jest istotny statystycznie. Pytanie, czy w ogóle w taki sposób powinienem to liczyć, czy może zupełnie nie tak się powinno tę istotność szacować?
Pomijam tu fakt wielu zarzutów merytorycznych do publikacji: oraz fakt, że było to badanie z zastosowaniem klasteryzacji, więc nie można istotności statystycznej liczyć w taki sposób wprost. Rozpatrujemy uproszczony przypadek, który opisałem w pytaniu. Pomijam też fakt, że mamy wiele innych solidnych badań RCT, które nie wykazały żadnej istotnej statystycznie korzyści z noszenia maseczek:
W grupie kontrolnej odnotowano \(\displaystyle{ 1106}\) osób z objawami, potwierdzonych testem, a w grupie noszącej maseczki \(\displaystyle{ 1086}\) takich osób.
Czy wynik jest istotny statystycznie? Jakie jest prawdopodobieństwo, że zaobserwowana różnica to tylko przypadek?
Dodano po 17 godzinach 40 minutach 24 sekundach:
Policzyłem prawdopodobieństwo wylosowania co najwyżej \(\displaystyle{ 1086}\) białych kul przy \(\displaystyle{ 178322}\) losowaniach, gdy prawdopodobieństwo wylosowania jednej kuli, to zgodnie z próbą kontrolną \(\displaystyle{ \frac {1106}{163861}}\). Czyli \(\displaystyle{ 0,1,2,...,1086}\) sukcesów - sumę schematów Bernoulliego. To całkiem duże liczby i duża suma, dlatego napisałem kod w Pythonie:
Kod: Zaznacz cały
import math
import math
import decimal
suma=0
for k in range(1086):
a = math.comb(178322, k) * (decimal.Decimal(1106/163861))**k * (decimal.Decimal(1-1106/163861))**(178322-k)
suma += a
print(suma)
Pomijam tu fakt wielu zarzutów merytorycznych do publikacji:
Kod: Zaznacz cały
http://www.argmin.net/2021/11/23/mask-rct-revisited/
Kod: Zaznacz cały
https://wwwnc.cdc.gov/eid/article/26/5/19-0994_article?fbclid=IwAR2s3Iiz77NwHkOtXmGULVLfaTWK_lK_muS0eBKsNN4WPL7P-QEaI0Cq3MU#tnF2