Wielowymiarowa analiza danych z programem R

Nasza ocena:

3
Pobrań: 56
Wyświetleń: 973
Komentarze: 0
Notatek.pl

Pobierz ten dokument za darmo

Podgląd dokumentu
Wielowymiarowa analiza danych z programem R - strona 1 Wielowymiarowa analiza danych z programem R - strona 2 Wielowymiarowa analiza danych z programem R - strona 3

Fragment notatki:

D. KOSIOROWSKI - WIELOWYMIAROWA ANALIZA DANYCH  Z PROGRAMEM R – LABORATORIUM 5.  2013        1.   Za  pomocą  symulacji  porównaj  rozkład  z  próby  odchylenia  standardowego  oraz  mediany  odchyleń  absolutnych  od  mediany  (MAD)  w  przypadku  próby  21  elementowej  pobranej  z  rozkładu  log- normalnego (rlnorm).  ZADANIE: zainstalować sobie pakiety {e1071}, {evd} i {evir} – zbadać rozkłady z próby miar skośności i kurtozy  (pakiet e1071) dla rozkładów Pareto i rozkładu Gumbela (pakiety evd i evir).  2.   (TESTY  ANOVA)  Dysponujemy  próbami  1 11 1 ,..., n x x    z  populacji  1 X    ,  2 12 2 ,..., n x x   z  populacji  2 X    ,  …,  1 ,..., C C n C x x  z populacji  C X  :    1 2 11 12 1 21 22 2 1 2 C C C n n n C x x x x x x x x x     W teście ANOVA  stawiamy hipotezę  0 1 2 : ... C H m m m  , gdzie  j m   to wartość oczekiwana w populacji  1,..., j C   .   Okazuje się, że mam miejsce następująca dekompozycja całkowitej sumy kwadratów  2 2 2 1 1 1 1 1 (x x) (x x) (x x ) j j n n C C C ij j j ij j i j j i j n                                  SST               =        SSC       +          SSE    gdzie:  SST to tzw. całkowita suma kwadratów,  SSC to suma kwadratów kolumn (efekt populacji),  SSE to resztowa suma kwadratów,  i   indeks wskazujący obserwację,  j   indeks wskazujący populację,  C   liczba populacji,  j n   liczba obserwacji w populacji   j   ,  x   globalna średnia,  j x   średnia w populacji   j   .  Powyższa formuła jest podstawą testu nazywanego ANOVA – przy powyższych oznaczeniach statystyka testowa  w tym teście ma postać  MSC F MSE  ,  gdzie  1 SSC MSC C  ,    SSE MSE n C  .  ZADANIE:  A.  Napisz  procedurę  obliczającą  wartość  statystyki  testowej  ANOVA  dla  danych  podanych  w  formie  układu  wektorów x1,…,xC zawierających próby z populacji 1 do C.  B.  Policz  wartość  statystyki  testowej  dla  następującego  przykładu:  przypuśćmy,  że  badamy  czas  telefonicznej  obsługi klienta dla czterech różnych „doradców audio-tele”.  D. KOSIOROWSKI - WIELOWYMIAROWA ANALIZA DANYCH  Z PROGRAMEM R – LABORATORIUM 5.  2013        X1  X2  X3  X4  6.33   6.26  6.44  6.29  6.26   6.36  6.38  6.23  6.31   6.23  6.58  6.19  6.29  

(…)

… – wymiarową cechę statystyczną Y
Zamierzamy zweryfikować hipotezę, że wektor wartości oczekiwanych E(Y)
jest równy określonej wartości m0
m
( 1,Y2 ,...,Yp ) .
Y
(m1, m2 ,..., mp )
(m10 , m20 ,..., mp 0 ) .
Przedmiotem naszego zainteresowania jest następujący układ hipotez:
H0 : m
m0 vs. H1 : m
m0
Zakładamy, że badana cecha statystyczna ma p – wymiarowy rozkład normalny N p (μ, Σ) przy czym nie
znamy macierzy
… ) o wielkości n2 z populacji Y2. Dla stosowalności testu zakładamy, że Σ1 = Σ2 = Σ .
2
Następnie obliczamy:
y1
n1
y2
n2
i 1
i 1
W1
y2i n2 - wektor przeciętnych z próby dla drugiej populacji Y2
n1
W2
y1i n1 - wektor przeciętnych z próby populacji Y1
n1
i 1
i 1
(y1i
y1 )(y1i
y1 )t
(n1
1)S1 - wartość estymatora macierzy kowariancji dla Y1
(y2i
y2 )(y2i
y2 )t
(n2
1)S2 - wartość estymatora macierzy kowariancji dla Y2
Obliczamy wartość estymatora macierzy kowariancji dla dwóch połączonych prób:
W1
Spl
W2
n1
n2
(n1
1)S1
n1
2
1)S2
(n2
n2
2
,
(łatwo wykazać, że powyższy estymator jest nieobciążonym estymatorem wspólnej dla dwóch populacji macierzy
kowariancji tzn.: E(Spl ) Σ )
Obliczmy wartość następującej statystykę testowej T2 Hotellinga:
T2
n1n2
n1
n2
Statystyka ma rozkład Tp2,n
1
(y1
n2 2
y2 )t Spl1 (y1
y2…
… i m0
m0 jest prawdziwa, to statystyka testowa T 2 ma rozkład T 2 Hotellinga w p – wymiarach i
z n – 1 stopniami swobody.
Jeżeli H 0 : m
Odrzucamy H 0 jeżeli T 2
Zauważmy dla p
1
1 , statystyka T 2 sprowadza się do jednowymiarowej statystyki t – Studenta:
T2
B.
T 2,p,n
n(y
)(s 2 ) 1(y
0
)
0
n(y
0
s2
)2
t2 .
Badamy dwie populacje ze względu na dwie p – wymiarowe cechy statystyczne tzn. pierwszą…
... zobacz całą notatkę



Komentarze użytkowników (0)

Zaloguj się, aby dodać komentarz