Analiza danych statystycznych - ćwiczenia 4

Nasza ocena:

5
Pobrań: 21
Wyświetleń: 875
Komentarze: 0
Notatek.pl

Pobierz ten dokument za darmo

Podgląd dokumentu
Analiza danych statystycznych - ćwiczenia 4 - strona 1 Analiza danych statystycznych - ćwiczenia 4 - strona 2 Analiza danych statystycznych - ćwiczenia 4 - strona 3

Fragment notatki:

 Dyskryminacja oparta na regresji liniowej i logistycznej. Ćwiczenia Plik choroby_serca.txt zawiera dane dotyczące zachorowalności na choroby serca mężczyzn z obszaru Afryki Południowej. W danych znajdują się następu- jące zmienne: sbp skurczowe ciśnienie krwi tobacco całkowite spożycie tytoniu (kg) ldl cholesterol niskobiałkowy adiposity otyłość famhist obecność/brak chorób serca w historii rodziny (Present, Absent) typea zachowanie typu A obesity otyłość alcohol obecne spożycie alkoholu age wiek chd zawał serca : 1 - wystąpił, 0 - nie wystąpił Dla tych danych wykonaj następujące polecenia: i) Dokonaj podziału obserwacji na podzbiór uczący (pierwsze 324 obserwacje) oraz zbiór testowy (pozostałe). ii) Dopasuj model regresji logistycznej bazując na podzbiorze uczącym. iii) Stosując krokową procedurę wyboru modelu zdecyduj, które zmienne powinny pozostać w modelu. iv) Skonstruuj klasyfikator w oparciu o próbę uczącą. Przedstaw na rysunku klasyfikację dokonaną przez klasyfikator. Wyznacz błąd klasyfikacji na pró- bie testowej. v) Skonstruuj klasyfikator w oparciu o metodę LDA bazując na próbie uczącej oraz porównaj jego błąd klasyfikacji na próbie testowej z błędem klasyfikacji klasyfikatora opartego na regresji logistycznej. 1 Zadania Zadanie 7. Plik urine.txt zawiera dane dotyczące obecności krysz- tałów oraz innych właściwości moczu. W danych znajdują się następujące zmienne: pres obecność kryształów (0- brak, 1- obecność) gravity ciężar właściwy ph wartość współczynnika pH osmo osmolarność moczu conduct przewodnictwo urea stężenie mocznika calc stężenie wapnia Dla tych danych wykonaj polecenia z powyższego ćwiczenia. Dla wyz- naczenia zbioru uczącego wybierz losowo 50 obserwacji ze zbioru danych, pozostałe traktując jako zbiór testowy. Zadanie 8. Plik puls.txt zawiera dane dotyczące poziomów tętna spoczynkowego (niskie/wysokie) w grupie 92 pacjentów. W danych znajdują się następujące zmienne: TetnoSpocz poziom tętna spoczynkowego (Niskie/Wysokie) Palacz czy pacjent pali papierosy (0 - nie pali, 1 - pali) Waga waga w kilogramach Dla tych danych wykonaj następujące polecenia: i) Dokonaj podziału obserwacji na podzbiór uczący (75% obserwacji, wybranych w sposób losowy) oraz zbiór testowy (pozostałe). ii) Dopasuj model regresji logistycznej bazując na podzbiorze uczącym, przyj- mując za zmienną objaśnianą TetnoSpocz. iii) Stosując krokową procedurę wyboru modelu zdecyduj, które zmienne powinny pozostać w modelu. iv) Dopasuj model regresji logistycznej bazując na podzbiorze uczącym,

(…)

… - nie pali, 1 - pali)
waga w kilogramach
Dla tych danych wykonaj następujące polecenia:
i) Dokonaj podziału obserwacji na podzbiór uczący (75% obserwacji, wybranych
w sposób losowy) oraz zbiór testowy (pozostałe).
ii) Dopasuj model regresji logistycznej bazując na podzbiorze uczącym, przyjmując za zmienną objaśnianą TetnoSpocz.
iii) Stosując krokową procedurę wyboru modelu zdecyduj, które zmienne
powinny…
... zobacz całą notatkęKomentarze użytkowników (0)

Zaloguj się, aby dodać komentarz