ustalenie niezbędnej liczby respondentów

dawidowski · Post autor: **dawidowski** » 21 wrz 2013, o 18:55

Mam problem.
Mam grupę badawczą (200 os.) i skalę 10 punktową (1 - 10). Jak wyznaczyć niezbędną liczbę osób aby uznać wyniki za reprezentatywne, z jakiego wzoru skorzystać i co przeliczyć kiedy na zadane pytanie:

Ile dni potrzebujesz na przygotowanie się do ważnego egzaminu uzyskane odpowiedzi przedstawiały się następująco:

4 dni - 22 osoby
5 dni - 21 osób
6 dni - 81 osób
7 dni - 27 osób
8 dni - 18 osób
9 dni - 15 osób
10 dni - 16 osób

Czy wzór byłby inny kiedy otrzymane odpowiedzi byłby jedynie 3 ?
8 dni - 2 osoby
9 dni - 8 osób
10 dni - 190 osób

Czy można też w jakiś sposób zbadać istotność wpływu poszczególnych odpowiedzi na szybkość nauki?

Jestem laikiem w tych sprawach więc proszę o wyrozumiałość

szw1710 · Post autor: **szw1710** » 21 wrz 2013, o 19:54

Kod: Zaznacz cały

> czas=rep(c(4,5,6,7,8,9,10),c(22,21,81,27,18,15,16))
> shapiro.test(czas)

	Shapiro-Wilk normality test

data:  czas 
W = 0.9007, p-value = 2.77e-10

To wydruk z programu R. Sprawdziłem czy Twoje dane pochodzą z rozkładu normalnego i wynik testu jest negatywny - nie pochodzą. Można by sprawdzić czy to nie rozkład Poissona. W tym celu można wykonać test chi-kwadrat porównując ten rozkład z rozkładem Poissona o parametrze \(\displaystyle{ \lambda=\bar{x}}\), gdzie \(\displaystyle{ \bar{x}}\) oznacza średnią z Twojej próby. Jeśli wyjdzie pozytywnie, trzeba by znaleźć wzór na przedział ufności dla średnej w rozkładzie Poissona i założyć sobie jakiś poziom ufności, powiedzmy \(\displaystyle{ 2\%}\). Test ten musiałby zależeć od liczebności próby. Następnie trzeba by wyliczyć taką minimalną liczebność, aby Twoja średnia z próby wpadała do tego przedziału ufności.

Adifek · Post autor: **Adifek** » 21 wrz 2013, o 21:25

szw1710, przecież na oko widać, że jedyny sensowny rozkład w tym przypadku to po prostu rozkład wielomianowy.

Ja bym to robił tak:

Mamy nasze zmienne losowe (odpowiedzi ankietowanych) \(\displaystyle{ X_i}\) o rozkładzie wielomianowym ( ) z parametrami \(\displaystyle{ 1}\) (pojedyncza odpowiedź) oraz (nieznane)\(\displaystyle{ p_1, ..., p_k}\) (prawdopodobieństwa poszczególnych odpowiedzi).

Najprostszym oszacowaniem na \(\displaystyle{ p_j}\) jest \(\displaystyle{ \widehat{p_j}= \frac{1}{n} \sum_{i=1}^{n}1{\hskip -2.5 pt}\hbox{l}_{\left\{ X_i = j \right\} }}\). Nietrudno zauważyć, że \(\displaystyle{ n\widehat{p_j}}\) ma rozkład \(\displaystyle{ B(n,p_j )}\).

Teraz jakoś na pałę możemy oszacować, np. z Markowa:

\(\displaystyle{ P( |\widehat{p_j} - p_j | >\varepsilon )=P( |n\widehat{p_j} - np_j | >n\varepsilon ) \le \frac{np_j (1-p_j )}{n^{2}\varepsilon^{2}} \le \frac{1}{4n\varepsilon ^{2}}}\)

Co do reprezentatywności:
Ja to rozumiem, że chcesz, by częstości pojawień się poszczególnych odpowiedzi były obarczone co najwyżej pewnym błędem. Ten błąd to u mnie \(\displaystyle{ \varepsilon}\). Teraz, jeśli chcesz, żeby to wszystko było z prawdopodobieństwem co najmniej \(\displaystyle{ 1-\alpha}\), to musisz znaleźć najmniejsze \(\displaystyle{ n}\), aby było \(\displaystyle{ \frac{1}{4n\varepsilon ^{2}}\le \alpha}\). To już będzie wystarczająca liczba ankietowanych dla Twojej precyzji

Przynajmniej ja bym tak to robił

szw1710 · Post autor: **szw1710** » 21 wrz 2013, o 21:57

Co widać na oko i co się stało z chłopem, można dyskutować Dla mnie za Poissonem przemawia szybkie maksimum i znaczne różnice poza nim. Ale pewnie się pofatyguję i zrobię to chi-kwadrat na Poissona. Do tablicy mnie wywołałeś.

Adifek · Post autor: **Adifek** » 21 wrz 2013, o 22:06

A dla mnie przeciw Poissonowi przemawia brak wielkości większych od 10, mimo, że już wcześniej gęstość się wypłaszcza (18,16,15 wobec max 81 )

szw1710 · Post autor: **szw1710** » 21 wrz 2013, o 22:14

A mógłbyś zrobić to chi-kwadrat dla Poissona? Mam parę obowiązków domowych teraz, ale chętnie spojrzę na wyniki Dzięki z góry.

Ale chyba nie ma potrzeby. Średnia ok. \(\displaystyle{ 6.5}\), wariancja ok. \(\displaystyle{ 2.7}\). A w Poissonie są równe. Nadużyciem jest twierdzenie, że są tu sobie bliskie. Przyznaję Ci rację, że to nie Poisson

Adifek · Post autor: **Adifek** » 21 wrz 2013, o 22:35

Leniwa Statistica nie chce liczyć

Kod: Zaznacz cały

Zmienna: Zmn2, Rozkład: Poissona, Lambda = 28,57143 (Arkusz1)
Chi-kwadrat: ------ ,df = 0 , p = ---

Zdaje się, że na zajęciach wtedy odrzucaliśmy hipotezę (empirycznie wydumaliśmy, że p>0,15).

dawidowski · Post autor: **dawidowski** » 22 wrz 2013, o 10:31

Analizuję wszystkie Wasze wypowiedzi ale dalej nie wiem jak wyznaczyć niezbędną liczbę pomiarów aby moje wyniki uznać za reprezentatywne. Domyślam się w każdym razie, że to jest o wiele bardziej zaawansowane niż jeden wzór. Czy ktoś z Was tym samym mógłby mi wypisać w punktach jakie kroki mam przeprowadzić aby ustalić niezbędną liczbę respondentów i tym samym uznać wyniki za reprezentatywne?

Adifek · Post autor: **Adifek** » 22 wrz 2013, o 20:16

Widzisz, bo to wcale nie jest trywialne zadanie. Przede wszystkim zdefiniuj co wg Ciebie znaczy "reprezentatywność". Moja metoda może wyznaczyć dostateczną liczbę obserwacji, jednak nie konieczną, tj. może się okazać, że mniejsza również jest wystarczająca.

Czy można też w jakiś sposób zbadać istotność wpływu poszczególnych odpowiedzi na szybkość nauki?

To akurat łatwo zbadać każdym pakietem statystycznym.

Masz model

\(\displaystyle{ y_i =\alpha + \alpha_{ij}}\), gdzie \(\displaystyle{ \alpha _{ik}}\) jest wpływem \(\displaystyle{ i}\)-tej odpowiedzi na \(\displaystyle{ j}\)-tym poziomie (po ludzku: i to numer respondenta, a j numer odpowiedzi, którą wybrał).

Dodając całkiem rozsądne założenie, że \(\displaystyle{ \sum_{j=1}^{k}\alpha_{ij}=0}\) (tzn., że wszystkie efkty się znoszą) testujemy istotność wpływu, tj. badamy hipotezę \(\displaystyle{ H_0 : \ \alpha_{i1} = ... = \alpha_{ik}=0}\). Np. pakiet Satistica automatycznie bada tę hipotezę po wybraniu odpowiedniego modelu wielomianowego.