D. KOSIOROWSKI - WIELOWYMIAROWA ANALIZA DANYCH Z PROGRAMEM R – LABORATORIUM 5. 2013 1. Za pomocą symulacji porównaj rozkład z próby odchylenia standardowego oraz mediany odchyleń absolutnych od mediany (MAD) w przypadku próby 21 elementowej pobranej z rozkładu log- normalnego (rlnorm). ZADANIE: zainstalować sobie pakiety {e1071}, {evd} i {evir} – zbadać rozkłady z próby miar skośności i kurtozy (pakiet e1071) dla rozkładów Pareto i rozkładu Gumbela (pakiety evd i evir). 2. (TESTY ANOVA) Dysponujemy próbami 1 11 1 ,..., n x x z populacji 1 X , 2 12 2 ,..., n x x z populacji 2 X , …, 1 ,..., C C n C x x z populacji C X : 1 2 11 12 1 21 22 2 1 2 C C C n n n C x x x x x x x x x W teście ANOVA stawiamy hipotezę 0 1 2 : ... C H m m m , gdzie j m to wartość oczekiwana w populacji 1,..., j C . Okazuje się, że mam miejsce następująca dekompozycja całkowitej sumy kwadratów 2 2 2 1 1 1 1 1 (x x) (x x) (x x ) j j n n C C C ij j j ij j i j j i j n SST = SSC + SSE gdzie: SST to tzw. całkowita suma kwadratów, SSC to suma kwadratów kolumn (efekt populacji), SSE to resztowa suma kwadratów, i indeks wskazujący obserwację, j indeks wskazujący populację, C liczba populacji, j n liczba obserwacji w populacji j , x globalna średnia, j x średnia w populacji j . Powyższa formuła jest podstawą testu nazywanego ANOVA – przy powyższych oznaczeniach statystyka testowa w tym teście ma postać MSC F MSE , gdzie 1 SSC MSC C , SSE MSE n C . ZADANIE: A. Napisz procedurę obliczającą wartość statystyki testowej ANOVA dla danych podanych w formie układu wektorów x1,…,xC zawierających próby z populacji 1 do C. B. Policz wartość statystyki testowej dla następującego przykładu: przypuśćmy, że badamy czas telefonicznej obsługi klienta dla czterech różnych „doradców audio-tele”. D. KOSIOROWSKI - WIELOWYMIAROWA ANALIZA DANYCH Z PROGRAMEM R – LABORATORIUM 5. 2013 X1 X2 X3 X4 6.33 6.26 6.44 6.29 6.26 6.36 6.38 6.23 6.31 6.23 6.58 6.19 6.29
(…)
… – wymiarową cechę statystyczną Y
Zamierzamy zweryfikować hipotezę, że wektor wartości oczekiwanych E(Y)
jest równy określonej wartości m0
m
( 1,Y2 ,...,Yp ) .
Y
(m1, m2 ,..., mp )
(m10 , m20 ,..., mp 0 ) .
Przedmiotem naszego zainteresowania jest następujący układ hipotez:
H0 : m
m0 vs. H1 : m
m0
Zakładamy, że badana cecha statystyczna ma p – wymiarowy rozkład normalny N p (μ, Σ) przy czym nie
znamy macierzy…
… ) o wielkości n2 z populacji Y2. Dla stosowalności testu zakładamy, że Σ1 = Σ2 = Σ .
2
Następnie obliczamy:
y1
n1
y2
n2
i 1
i 1
W1
y2i n2 - wektor przeciętnych z próby dla drugiej populacji Y2
n1
W2
y1i n1 - wektor przeciętnych z próby populacji Y1
n1
i 1
i 1
(y1i
y1 )(y1i
y1 )t
(n1
1)S1 - wartość estymatora macierzy kowariancji dla Y1
(y2i
y2 )(y2i
y2 )t
(n2
1)S2 - wartość estymatora macierzy kowariancji dla Y2
Obliczamy wartość estymatora macierzy kowariancji dla dwóch połączonych prób:
W1
Spl
W2
n1
n2
(n1
1)S1
n1
2
1)S2
(n2
n2
2
,
(łatwo wykazać, że powyższy estymator jest nieobciążonym estymatorem wspólnej dla dwóch populacji macierzy
kowariancji tzn.: E(Spl ) Σ )
Obliczmy wartość następującej statystykę testowej T2 Hotellinga:
T2
n1n2
n1
n2
Statystyka ma rozkład Tp2,n
1
(y1
n2 2
y2 )t Spl1 (y1
y2…
… i m0
m0 jest prawdziwa, to statystyka testowa T 2 ma rozkład T 2 Hotellinga w p – wymiarach i
z n – 1 stopniami swobody.
Jeżeli H 0 : m
Odrzucamy H 0 jeżeli T 2
Zauważmy dla p
1
1 , statystyka T 2 sprowadza się do jednowymiarowej statystyki t – Studenta:
T2
B.
T 2,p,n
n(y
)(s 2 ) 1(y
0
)
0
n(y
0
s2
)2
t2 .
Badamy dwie populacje ze względu na dwie p – wymiarowe cechy statystyczne tzn. pierwszą…
... zobacz całą notatkę
Komentarze użytkowników (0)