mam następujący problem, na zaliczenie przedmiotu na studiach musiałem, wraz z drugą osobą, wybrać sobie zestaw danych ze strony
Kod: Zaznacz cały
http://archive.ics.uci.edu/ml/
Mam w związku z tym do was prośbę, jeśli ktoś podpowiedział by jaki trop obrać i co zrobić, bo z tego co pisała prowadząca nie bardzo robimy to o co chodzi a ona zabardzo nie chce nam z tym pomóc.
Jak ktoś ogarnia matlaba to również byłbym wdzięczny jakby zerknął na kod który jest na końcu dokumentu w załączniku i potwierdził, że regresja jest zapisana poprawnie.
Za wszelką pomoc serdecznie dziękuję, bo już brakuje mi pomysłów a walczę z tym chyba od miesiąca i w czwartek mija mój dead-line.
Moja dokumentacja:
Odpowiedź prowadzącej na dokumentację, którą dołączyłem:
Kod: Zaznacz cały
Przysłany plik został nazwany błędnie 'cwiczeniem'.
Mial to być raport któryby odzwierciedlał
samodzielną pracę studenta/studentów nad wybranym (wybranymi)
tematem/tematami badawczym/badawczymi wykonywanymi
w ciagu semestru letniego r. ak. 2012/2013, odzwierciedlający
wiedzę studentów z zakresu ONT nabytą w ciągu ostatniego roku zajęc.
Niestety, przysłany maszynopis nie odpowiada wymogom stawianym
raportom przedstawianym na zaliczenie zajęć, zawiera liczne blędy,
pomieszanie pojęc i wyraznie świadczy o tym, że autorzy zupełnie
nie rozumieją co miało być przedmiotem ich pracy.
Rozpoczynając od poczatku:
1. Nie sa sformułowane cele badawcze. Eksploratywna analiza danych
nie może byc celem samym w sobie - ma ona jedynie wspierac i wskazywac
kierunki badawcze.
2. Opis danych raczej nie należy do PODSTAW TEORETYCZNYCH.
Wymieniono tu 8 cech
1. MYCT: ilość cykli w nanosekundach (od 17 do 1500)
2. MMIN: minimalna wartość pamięci głównej w kilobajtach (od 64 do 32000)
3. MMAX: maksymalna wartość pamięci głównej w kilobajtach (od 64 do 64000)
4. CACH: pamięć cache w kilobajtach (od 0 do 256)
5. CHMIN: minimalna ilość kanałów w jednostce (od 0 do 52)
6. CHMAX: maksymalna ilość kanałów w jednostce (od 0 do176)
7. PRP: opublikowana względna wydajność (od 6 do 1150)
8. ERP: szacowana względna wydajność z oryginalnego artykułu (od 15 do 1238)
Dodatkowo wartość RP = ERP - PRP
Niestety, zupełnie nie rozumiem opisu cechy PRP i ERP
3. Wstepna analiza danych.
W dalszym ciagu jest brak informacji, co autorzy chca z danymi
Computer Hardware (CH) robić i jakie zagadnienia zwiazane z tymi
danymi rozwiazywac.
Dalej mamy tu dwa histogramy ( z danych prp i erp oraz ich roznicy.
Po co te histogramy i co z nich wynika?
Nic wiecej w tej sekcji nie ma, brak jakichkolwiek komentarzy.
4. Rozdzial zatytułowany ANALIZA DANYCH W ŚRODOWISKU Matlab.
Po co, na co - żadnej zapowiedzi.
podpunkt 4.1 Kroki badań zawiera stek przepisanych wzorów
wyrwanych z kontekstu, tzn. pojedyncze wiersze sa słuszne brane oddzielnie,
ale objaśnienia do nich bardzo często już nie.
Podpunkt 4.2 Regresja wielozmienna dla Computer Hardware
Są wykresy 1-4 zawierajace punkty o 6 kolorach, nie wiadomo jak je uzyskano,
opisy osi sa bardzo dziwne. Na pewno te wykresy nie mają nic wspólnego
z regresją wielokrotną.
Podpunkt zatytułowany 4.2.2 Wnioski, z których pierwsze zdanie
jest sformułowane nastepujaco:
'Prosta, za pomocą której chcielibyśmy przybliżać wartości zmiennej Y za pomocą zmiennej X jest oznaczona kolorem zielonym. Z wykresu jednoznacznie wynika, że spośród 6 cech obserwowanych wartości cechy 2 są najbardziej zbliżone do wartości oczekiwanych z prostej y.'
Nastepne zdanie jest podobnie bez sensu.
Moja uwaga: na rys. 1 jest tylko jedna prosta, ale nie ma ona koloru zielonego.
Co ona oznacza, nie jest napisane.
Takich wykresów jest w sumie cztery - wszystkie o podobnej budowie
i wszystkie tak samo niezrozumiałe.
5. Praca nie zawiera żadnych danych bibliograficznych.
Z przedstawionego opisu wynika że autorzy nie 'splamili się' żeby cokolwiek
przeczytać z literatury na temat 'regresja wielozmienna'.
Tak wiec nadesłana praca świadczy o kompletnej nieznajomości autorów
poruszanych na zajeciach z ONT zagadnień wielozmiennej analizy danych.
takich jak redukcja wymiarowości, rózne metody analizy dyskryminacyjnej
oraz zagadnień regresji wielokrotnej.
Autorzy mieli prawo wybrac dane do analizy - wybrali Computer Hardware,
brzmi to dumnie, ale co z tego, bo zadnej sensownej analizy na tych danych
nie potrafili przeprowadzic.
W manuskrypcie nie sprecyzowano, który z autorów jest odpowiedzialny
za którą część pracy.