Analiza danych statystycznych - wykład 2

Nasza ocena:

5
Pobrań: 28
Wyświetleń: 672
Komentarze: 0
Notatek.pl

Pobierz ten dokument za darmo

Podgląd dokumentu
Analiza danych statystycznych - wykład 2 - strona 1 Analiza danych statystycznych - wykład 2 - strona 2 Analiza danych statystycznych - wykład 2 - strona 3

Fragment notatki:


PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH Wykład 2 Obserwacje nietypowe i wpływowe Regresja nieliniowa PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH Obserwacje nietypowe i wpływowe PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH Obserwacje nietypowe i wpływowe Obserwacje nietypowe w analizie regresji: nietypowe wartości zmiennej Y - prowadzące do dużych reszt modelu ei nietypowe wartości jednej lub większej liczby zmiennych objaśniających - prowadzą do relatywnie małych wartości ei Dla MNK są problematyczne, gdyż w znacznym stopniu determinują postać prostej regresji - są wpływowe Jeżeli obserwacja posiada nietypową wartość Y (duże ei ), to mówimy że ma dużą odmienność. Rysunek przedstawia przykład obserwacji wpływowej. PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH Obserwacje nietypowe i wpływowe Jeżeli obserwacja posiada nietypową wartość Xi i typową wartość Yi (małe ei ) to mówimy że ma dużą dźwignię (ang. leverage). Rysunek przedstawia przykład obserwacji o dużej dźwigni. PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH ’Leverage’ ? Aby wyjaśnić pojęcie punktów o dużej ”dźwigni” (leverage) rozważmy dane pochodzące z pracy Freedman et al. (1991) Dane dotyczą liczby wypalanych papierosów w różnych krajach w 1930 roku oraz liczby zgonów (liczba zgonów na milion mieszkańców) spowodowanych rakiem płuc w 1950 roku. Country Cigarette Deaths 1 Australia 480 180 2 Canada 500 150 3 Denmark 380 170 4 Finland 1100 350 5 Great Britain 1100 460 6 Iceland 230 60 7 Netherlands 490 240 8 Norway 250 90 9 Sweden 300 110 10 Switzerland 510 250 11 USA 1300 200 PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH Punkty o dużej ’dźwigni’ (leverage) Niebieski punkt nazywamy punktem o dużej dźwigni (leverage point) PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH Punkty o dużej ’dźwigni’ (leverage) Mają nietypową wartość x (x- liczba papierosów, y-liczba zgonów) Mają wpływ na własności modelu: Radykalnie zmieniają wartości błędów standardowych i współczynnika dopasowania R 2 Model dopasowany - wszystkie dane y = 67.56087 + 0.22844 ∗ x Adjusted − R 2 = 0.493 Model dopasowany - po usunięciu punktu o dużej dźwigni: y = 9.1393 + 0.3686 ∗ x Adjusted − R 2 = 0.8749 PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH Obserwacje odstające (ang. outliers) Obserwacja odstajaca: jest obserwacją, która nie spełnia równania regresji czyli nie należy do prostej regresji. może znacząco wpływać na postać prostej regresji. Jeśli analizujemy tylko pojedyncze zmienne objaśniające, to

(…)

… zmiennych objaśniających prowadzą do relatywnie małych wartości
ei
Dla MNK są problematyczne, gdyż w
znacznym stopniu determinują postać
prostej regresji - są wpływowe
Jeżeli obserwacja posiada nietypową wartość Y (duże ei ), to
mówimy że ma dużą odmienność.
Rysunek przedstawia przykład obserwacji wpływowej.
PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH
Obserwacje nietypowe i wpływowe
Jeżeli obserwacja posiada…
… dopasowany - po usunięciu punktu o dużej dźwigni:
y = 9.1393 + 0.3686 ∗ x
Adjusted − R 2 = 0.8749
PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH
Obserwacje odstające (ang. outliers)
Obserwacja odstajaca:
jest obserwacją, która nie spełnia równania regresji czyli nie należy
do prostej regresji.
może znacząco wpływać na postać prostej regresji.
Jeśli analizujemy tylko pojedyncze zmienne objaśniające, to
identyfikacja…
… sobie
z sytuacjami, gdy relacja pomiędzy zmieną objaśnianą a zmienną
objaśniającą ma charakter nieliniowy.
W większości przypadków problem sprowadza się do znalezienia
pewnej transformacji jednej lub obu zmiennych (objaśnianej i
objaśniającej), tak, aby uczynić ich wzajemną relację liniową.
Następnie stosowana jest klasyczna metoda regresji liniowej.
PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH
Przykład 2.1 -Dane…
… obserwacji odstajacych odbywa się na podstawie
wykresów rozrzutu lub histogramów.
Jeśli chcemy szukać obserwacji odstających dla wielu zmiennych,
wówczas możemy analizowac residua lub residua studentyzowane i
wsród nich szukać wartości odstających.
PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH
Wyznaczanie obserwacji odstających
Niech e = (e1 , e2 , . . . , en ) oznacza wektor wartości resztowych
ˆ
(residuów),gdzie ei = Yi − Yi .
Błędem standardowym residuum ei nazywamy
SEei = S ·
1−
1
+
n
(Xi − X )2
n
2
i=1 (Xi − X )
,
gdzie
1
S =
n
n
(Xi − X )2 .
2
i=1
Wtedy studentyzowana wartość resztowa wynosi
ri =
ei
.
SEei
PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH
Wyznaczanie obserwacji odstających
Na podstawie wykresu studentyzowanych rezydów można rozpoznać duże
ich wartości, będące najprawdopodobniej wartościami…
… rozszerzeniem
powyższego modelu i polepszy dopasowanie
Nie doprowadzi nas jednak do uzyskania właściwego modelu
PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH
Transformacja Boxa-Coxa
W sytuacjach takich jak powyższa użytecznym narzędziem może się
okazać transformacja odwrotna (Huber et al., 2006, Industrial &
Engineering Chemistry Reseach, 45 (21), 7351-7361)
1 plot ( pres ~ I (1 / temp ) )
PODSTAWY STATYSTYCZNEJ…
... zobacz całą notatkę



Komentarze użytkowników (0)

Zaloguj się, aby dodać komentarz