Analiza danych statystycznych - wykład 5

Nasza ocena:

5
Pobrań: 21
Wyświetleń: 616
Komentarze: 0
Notatek.pl

Pobierz ten dokument za darmo

Podgląd dokumentu
Analiza danych statystycznych - wykład 5 - strona 1 Analiza danych statystycznych - wykład 5 - strona 2 Analiza danych statystycznych - wykład 5 - strona 3

Fragment notatki:


PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH Wykład 5 Kwadratowa analiza dyskryminacyjna QDA. Metody klasyfikacji oparte na rozkładach prawdopodobieństwa. PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH Kwadratowa analiza dyskryminacyjna PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH Przykład analizy QDA Czasem nie jest możliwe rozdzielenie klas za pomocą prostej PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH Przykład analizy QDA Lepsze rozdzielenie klas dzięki użyciu funkcji kwadratowej PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH Lepsze rozdzielenie klas dzięki użyciu funkcji kwadratowej PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH Przykład -dane iris 1 # Linear D i s c r i m i n a n t Analysis LDA ( iris data ) 2 require ( MASS ) 3 data ( iris ) 4 iris . lda 

(…)

… przy
zmiennych kosztach błędnych decyzji daje krzywa
operacyjno-charakterystyczna (krzywa ROC).
Jest to wykres zależności między zmiennymi Czułość i 1Specyficzność
PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH
Przykład - dane iris
Rozważmy model regresji logistycznej dla danych iris. Aby móc
analizować dane w ten sposób zmienna objaśniana musi mieć wartości
0-1.
Aby to uzyskać wybieramy jeden z gatunków analizowanych roślin (
np versicolor) i to czy obserwacja pochodzi z tego gatunku czy nie
oznaczamy odpowiednio 1 i 0
Taką zmienną traktujemy jako nową zmienną objaśnianą.
1 Z = Species == " versicolor "
>Z
[1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
...
[46] FALSE FALSE FALSE FALSE FALSE TRUE TRUE TRUE
[61] TRUE TRUE ...
PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH
Przykład - dane iris
Dopasowujemy model…
… klas (g = 2) i
obserwacje w każdej z klas pochodzą z rozkładu normalnego.
Zakładamy że rozkłady w klasach mają taką samą macierz
kowariancji Σ, tj
p(x|k) ∼ N (m k |Σ), k = 1, 2.
Zadanie maksymalizacji po k wielkości p(x|k) w tym przypadku prowadzi
do rozwiązania postaci
δk (x) = x T Σ−1 m k + ln(πk ) .
Funkcje δk (x) dla k = 1, 2, . . . , g nazywamy funkcjami
dyskryminacyjnymi dla klasy k.
PODSTAWY…
… k −m l )T Σ−1 (m k +m l )+(m k −m l )T Σ−1 x = 0.
πl
2
Funkcje δk,l (x) nazywamy funkcjami dyskryminacyjnymi między klasami
k i l.
Przykład: 3 klasy
Obserwacja x zostaje zaklasyfikowana do klasy
1, gdy δ1,2 (x) > 0 i δ1,3 (x) > 0
2, gdy δ1,2 (x) < 0 i δ2,3 (x) > 0
3, gdy δ1,3 (x) < 0 i δ2,3 (x) < 0
PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH
Trzy klasy, ta sama macierz kowariancji
PODSTAWY STATYSTYCZNEJ…

Wartości zmiennej Z dopasowane przez model (Z )
1 # # wartości przewidywane przez model
2 logistic . scores = predict ( logistic . model , type = " response " )
> logistic.scores
1
2
3
4
5
0.084913218 0.282917869 0.171982672 0.268014581 0.067075197
Wyznaczenie TP, TN, FP, FN
1 logistic . rocr = prediction ( logistic . scores , Z )
Rysunek krzywej ROC:
1 plot ( performance ( logistic . rocr , " tpr…
... zobacz całą notatkę

Komentarze użytkowników (0)

Zaloguj się, aby dodać komentarz