Korelacja histogramów

Procesy stochastyczne. Sposoby racjonalizowania wielkich ilości informacji. Matematyka w naukach społecznych.
Awatar użytkownika
Borneq
Użytkownik
Użytkownik
Posty: 247
Rejestracja: 23 lip 2010, o 07:50
Płeć: Mężczyzna
Lokalizacja: geo:lat=0 geo:lon=0
Podziękował: 13 razy

Korelacja histogramów

Post autor: Borneq »

Analizuję tekst na obecność UTF16 czy UTF32.
Kolejne bajty wrzucam do kubełków 0,1,2,3, i od nowa - czyli mam 4 histogramy.
Tekst UTF8 z japońskimi znakami, ma silnie ze sobą skorelowane:
227: 40
131: 20
130: 11
129: 8
188: 5
128: 4
171: 4

227: 39
131: 20
130: 11
129: 9
128: 5
188: 5
171: 4

227: 40
131: 20
130: 11
129: 8
171: 5
128: 4

227: 40
131: 20
130: 11
129: 9
128: 4
171: 4
188: 4

Tekst UTF32 miałby cztery niezależne histogramy, podobnie tekst UTF16 z surogatami, a tekst UTF16 zwykły miałby korelację 0-2 i 1-3. Zwykły tekst i losowy czy też UTF8 ma wszystkie 4 ze sobą skorelowane. Jak to wyliczyć? Może Bayesem czy inną metodą?

Albo tylko korelacja dwóch: sprawdziłby 0 z 2, 1 z 3 i jeśli oba były by skorelowane, to patrzyłbym na korelację ich sum.
Test chi-kwadrat? ale jak?

Dla uproszczenia weźmy 6 wartości kostki albo 2 wartości monety.
Zostało wyrzucone 70 orłów i 30 reszek. Nie koreluje się do 50/50 ale na przykład do 72/28 tak - z jakim prawdopodobieństwem?
-------------
Wyprowadzenie:
Mamy dwie serie rzutów monetą:
w jednej dwa orły 8 reszek, w drugiej 6 orłów 4 reszki.
Jakie prawdopodobieństwo że to ta sama moneta?
bierzemy sumarycznie: 8 orłów i 12 reszek. Badamy czy prawdopodobieństwo orła to 0.4.
Czyli sumujemy jeden: 2 orły i 8 reszek i wszystko w tę stronę czyli
+ 1 orzeł 9 reszek, 0 orłów i 10 reszek.
Teraz drugie: 6 orłów 4 reszki + 7 orłów, 3 reszki + 8 orłów 2 reszki
+ 9 orłów 1 reszka + 10 orłów 0 reszek
Mamy więc rozkład Bernoulliego, możemy przybliżyć rozkładem normalnym, bo w istocie będzie
znacznie więcej rzutów niż 10.
Tylko nie możemy korzystać ze wzoru na rozkład normalny ale na jego całkę, może w bibliotekach C++
są specjalne funkcje liczące dystrybuantę?

A teraz moneta trójwartościowa: wartości 0,1 i 2
pierwszy rzut 3,2,5 drugi 1,6,3
sumujemy 4,8,8 czyli prawdopodobieństwa to: 0.2,0.4,0.4
Jak teraz z liczeniem dystrybuanty: 3,2,5 i wszystkie dalsze od rozkładu 2,4,4?
Czyli już tu całka 2 wymiarowa. A dla histogramu będzie 255 wymiarowa?
Mamy (11*12)/2 = 66 przypadków i trzy punkty - jak robić dystrybuantę dla tych dwóch punktów
idąc od centralnego 2,4,4 w stronę końców trójkąta?
--
Należy korzystać z uogólnionego symbolu Newtona:
\(\displaystyle{ {n\choose k_1,k_2,\ldots,k_r} =\frac{n!}{k_1!k_2!\cdots k_r!}}\)
ODPOWIEDZ