Daniel Kosiorowski – Wstęp do wielowymiarowej analizy danych z programem R – wykład nr1 1 1 PRELIMINARIA DOTYCZĄCE WIELOWYMIAROWEJ ANALIZY STATYSTYCZNEJ Zbiór danych – „ Boston Housing ” – pochodzi z pracy Harrisona i Rubinfelda (1978), w której autorzy zamierzali zbadać czy „czyste powietrze” ma wpływ na ceny domów. Zmienne: X1 : stopa przestępczości per capita (crim) X2 : udział obszaru zabudowań (zn) X3 : udział obszarów z niehandlową działalnością gospodarczą (indus) X4 : lokalizacja na brzegu rzeki (chas) X5 : koncentracja tlenku azotu (nox) X6 : przeciętna liczba pokoi w mieszkaniu (rm) X7 : udzi ał budynków powstałych przed 1940 (age) Daniel Kosiorowski – Wstęp do wielowymiarowej analizy danych z programem R – wykład nr1 2 2 X8 : ważona odległość do pięciu centrów zatrudnienia w mieście (dis) X9 : indeks dostępności do autostrady (rad) X10 : wartość podatku od nieruchomości (tax) X11 : stosunek ilości uczniów do nauczycieli (ptratio) X12 : Ud ział afro amerykanów w populacji 1000(B-0.63)^2*I(B
(…)
… 0.18 -0.43 0.70 -0.38 0.25 -0.38 -0.47 -0.51 0.33 -0.74 1.00
43
Daniel Kosiorowski – Wstęp do wielowymiarowej analizy danych z programem R – wykład nr1
44
44
Daniel Kosiorowski – Wstęp do wielowymiarowej analizy danych z programem R – wykład nr1
45
Definiując macierz diagonalną:
DS
[diag(S)]1/2
diag(s1, s2,..., s p ),
mamy następujące równości wiążące macierze korelacji i kowariancji z próby:
R
DS…
…
Z twierdzenia o dekompozycji spektralnej macierzy kowariancji S wiemy, że S można
przedstawić w postaci S
PΛPT , gdzie P jest macierzą ortogonalną, której kolumny
stanowią wektory własne S i Λ jest macierzą diagonalną wartości własnych S tzn.
1
2
p
0.
Przekształcenie głównych składowych definiowane jest jako
Wr
Ponieważ SW
PT SX P
PT (xr
x),r
1,..., n
Λ jest diagonalna, kolumny W nazywane są głównymi…
… jako kombinację liniową pozostałych (k-1) kolumn.
A<-matrix(c(1,2,3,4,2,4),nrow=2,ncol=3)
A
[,1] [,2] [,3]
[1,]
1
3
2
[2,]
2
4
4
qr(A)$rank [1] 2
8
Zagadka: Dysponujemy macierzą
danych Y(nxp) – okazuje się, że jej
rząd wynosi jakieś k<p. Jakie mogą
być praktyczne konsekwencje tego
faktu?
Daniel Kosiorowski – Wstęp do wielowymiarowej analizy danych z programem R – wykład nr1
Ślad macierzy to suma jej elementów…
…, że…?
Daniel Kosiorowski – Wstęp do wielowymiarowej analizy danych z programem R – wykład nr1
40
Macierz kowariancji z próby definiujemy:
s11 s12
s21 s22
s p1 s p 2
S
gdzie:s jj
s2
j
spp
n
1
n
s1p
s2p
1i
1
y j )2 , sij
(yij
,
n
1
n
1i
1
(yij
y j )(yik
yk ) ,
Dysponując wektorami obserwacji y1, y2,..., yn , macierz kowariancji z próby możemy obliczyć za
pomocą wzoru:
S
n
1
n
1i
1
(yi
(czego miarą jest macierz kowariancji?)
40
y)(yi
y)T ,
Daniel Kosiorowski – Wstęp do wielowymiarowej analizy danych z programem R – wykład nr1
41
W oparciu o macierz obserwacji Y macierz kowariancji z próby obliczymy za pomocą wzoru:
1
S
Zachodzi równość: E(S)
n
1
1 T T
Y jj Y .
n
YT Y
Σ , co oznacza że macierz kowariancji z próby jest nieobciążonym
estymatorem macierzy kowariancji w populacji.
round(cov(Boston[,7:14]))
age dis rad…
…()
Następnie wykorzystajmy prostą pętlę:
for(i in 1:10000) g[i]<-A[i,1]+2*A[i,2]
Zilustrujmy wyniki rysunkiem:
hist.FD(g, main="histogram g", col="blue")
Policzmy średnią arytmetyczną i wariancję wektora g
mean(g)
var(g)
70
2X2 . Zadeklarujmy wektor g:
Daniel Kosiorowski – Wstęp do wielowymiarowej analizy danych z programem R – wykład nr1
71
A co by było gdyby współczynnik korelacji pomiędzy współrzędnymi…
... zobacz całą notatkę
Komentarze użytkowników (0)