Wykład 10: Graficzna prezentacja danych i statystyka opisowa 23 kwietnia 2012 Podstawowe poj˛ecia Biolodzy, bioinformatycy: -badaj ˛ a pojedyncze ro´sliny lub zwierz˛eta; -chcemy rozsze- rzy´c wnioski na wszystkich przedstawicieli gatunku lub odmiany: -mo˙zna to osi ˛ agn ˛ a´c wykonuj ˛ ac analiz˛e statystyczn ˛ a. Definicja 1. Populacj ˛ a nazywamy zbiorowo´s´c (sko´nczon ˛ a lub niesko´nczon ˛ a), w sto- sunku do której maj ˛ a by´c formułowane wnioski. Prób ˛ a jest natomiast sko´nczona cz˛e´s´c populacji. Stosowane podej´scia • metody analizy danych: statystyki opisowe, metody graficzne • wnioskowanie statystyczne- oparte na metodach i poj˛eciach teorii prawdopodo- bie´nstwa Podstawowe poj˛ecia Zazwyczaj jeste´smy zainteresowani kilkoma konkretnymi cechami populacji. Cechy: -jako´sciowe (kolor oczu, kolor włosów itd.) -ilo´sciowe (masa zwierz ˛ at, liczba jaj składanych przez okre´slony gatunek ptaków itd.) Je´sli w badanich ograniczamy si˛e do jednej cechy- populacja jednocechowa. Np. ba- daj ˛ ac badaj ˛ ac zwierz˛eta okre´slonego gatunku mo˙zemy by´c zainteresowani tylko ich temperatur ˛ a itd. Przykład Dane normtemp— zebrane w celu weryfikacji hipotezy mówi ˛ acej, ˙ze ´srednia warto´s´c temperatury zdrowego człowieka jest równa 98 , 6 stopni w skali Fahrenheita (37 , 0 stop- ni w skali Celsjusza). Dane nt. temperatury i t˛etna (temperatura- stopnie Fahrenheita) Mo˙zna je pobra´c z odpowiedniego repozytorium a nast˛epnie zapisa´c do zbioru o na- zwie np. t (tzw. „data frame”). Zbiór t składa si˛e z trzech zmiennych: temperatu- re, gender i hr. Aby uczyni´c nasz ˛ a prezentacj˛e bardziej czyteln ˛ a, zmieniamy nazwy zmiennych na odpowiednio: temp, plec i tetno. Odpowiednie polecenia systemu R s ˛ a zapisane w pliku t.R. Wydruk tego pliku zamieszczamy poni˙zej (na nast˛epnym slaj- dzie): 1 Pobieranie zbioru danych z repozytorium systemu R library(utils) install.packages(c("xlsReadWrite","UsingR"), repo="http://cran.r-project.org") library(xlsReadWrite) library(UsingR) t names(t) [1] "temp" "plec" "tetno" t[1:10,] temp plec tetno 1 96.3 1 70 2 96.7 1 71 3 96.9 1 74 4 97.0 1 80 5 97.1 1 73 6 97.1 1 75 7 97.1 1 82 8 97.2 1 64 9 97.3 1 69 10 97.4 1 70 sort(t$temp)
(…)
… rozdzielczy w srodowisku R:
> table(cut(t$temp, breaks = c(96,96.5,97,97.5,98,
+ 98.5,99,99.5,100,100.5,101)))
(96,96.5]
(96.5,97]
(97,97.5]
(97.5,98]
2
5
14
30
(98,98.5]
(98.5,99]
(99,99.5] (99.5,100]
30
35
11
2
(100,100.5] (100.5,101]
0
1
Histogram- dane NT
Wykres słupkowy odpowiadajacy szeregowi rozdzielczemu-histogram liczebno´ci
˛
s
20
15
0
5
10
Frequency
25
30
35
Histogram of t$temp
96
97
98
99
100
101
t$temp
Rysunek 1: Histogram dla danych NT odpowiadajacy szeregowi rozdzielczemu z po˛
przedniego slajdu
Histogram probabilistyczny- dane NT
Histogram probabilistyczny-tak wyskalowany, aby "pole pod nim było równe 1": wy2
5
soko´ci słupków: 130×0,5 , 130×0,5 , . . .; histogram probabilistyczny- przez niektórych
s
definiowany jako funkcja przedziałami ciagła (stała), której wykres "pokrywa si˛ " z
˛
e…
... zobacz całą notatkę
Komentarze użytkowników (0)