1 Palące matki a zdrowie dziecka Zaczniemy od wczytania danych: Input: dane=read.table(file.choose(),header=T,sep='') #wczytanie danych head(dane) #wyświetlenie danych w celu sprawdzenia poprawności Output: waga_n wiek_c licz.por. wiek_m wzrost_m waga_m palenie 1 120 284 0 27 62 100 0 2 113 282 0 33 64 135 0 3 128 279 0 28 64 115 1 4 123 999 0 36 69 190 0 5 108 282 0 23 67 125 1 6 136 286 0 25 62 93 0 Zamienimy jednostki imperialne na metryczne: Input : dane$waga_n=dane$waga_n/0.0351 dane$wzrost_m=dane$wzrost_m*2.54 dane$waga_m=dane$waga_m*0.454 head(dane) Output: waga_n wiek_c licz.por. wiek_m wzrost_m waga_m palenie 1 3418.803 284 0 27 157.48 45.400 0 2 3219.373 282 0 33 162.56 61.290 0 3 3646.724 279 0 28 162.56 52.210 1 4 3504.274 999 0 36 175.26 86.260 0 5 3076.923 282 0 23 170.18 56.750 1 6 3874.644 286 0 25 157.48 42.222 0 Dzielimy dane dotyczące wag dzieci na 2 grupy: na wagi dzieci osób palących oraz niepalących. Dane od osób, co do których nie wiemy, czy paliły, pomijamy: Input : waganp=dane$waga_n[dane$palenie==1] wagannp=dane$waga_n[dane$palenie==0] Obliczymy teraz podstawowe parametry statystyczne wag: Input: summary(waganp) summary(wagannp) sd(waganp) sd(wagannp) var(waganp) var(wagannp) library(moments) kurtosis(waganp)-3 # -3, żeby kurtoza rozkł. norm. była równa 0 kurtosis(wagannp)-3 skewness(waganp) skewness(wagannp) mean(wagannp)-mean(waganp) 2 Output: Parametr Dane palących Dane niepalących Minimum 1652 1567 1. kwartyl 2906 3219 Mediana 3276 3504 Średnia 3251 3506 3. kwartyl 3590 3818 Maksimum 4644 5014 Odchylenie st. 515,6395 495,6891 Wariancja 265884,1 245707,7 Kurtoza -0,01196752 1,03706 Wsp. skośności -0,03359498 -0,1869841 Uwagę zwraca duża kurtoza wagi dzieci matek niepalących. Pozwala to nam podejrzewać, że dane te nie mają rozkładu normalnego. Sprawdzimy to, ale za chwilę. „Badania epidemiologiczne dowodzą, że palenie jest odpowiedzialne za zmniejszenie wagi noworodka o 150 do
(…)
…
0.004092769
0.002728513
0.002728513
0.002728513
0.002728513
0.001364256
0.001364256
0.001364256
0.001364256
0.000000000
RATIOC
1.1180432
1.1228554
1.1252193
0.6544643
0.7635417
0.5090278
0.0000000
0.0000000
0.0000000
0.0000000
0.0000000
0.0000000
0.0000000
0.0000000
0.0000000
0.0000000
-
Jak widzimy, ciąże skrajnie wcześniacze (<32 tygodnia) stanowią margines. Jedno dziecko wpadło do
kategorii poronienia…
…,length(waganp)+length(length(wagannp))-2)
Output:
t = -8,5813
-16
p-value < 2,2*10
t1224(0,99) = 2,334093
Moduł statystyki t jest dużo większy od kwantylu rozkładu t o 1224 st. swobody, p-value niemal zerowa.
Dzieci palących istotnie mają mniejszą wagę.
Wykreślimy histogramy dla obu grup. Nałożymy je na siebie, żeby łatwiej było porównać.
Aby porównanie miało sens, unormujemy częstości, aby sumowały się do 1:
4
Input:
hist(waganp, ylim=c(0,0.001), main="Palenie przez matki a waga\nnoworodków - histogram", xlab="Waga
noworodków [g]", ylab="Częstość", freq=0, col=rgb(0,0,0,1)) #unormowane histogramy - juz mozna porownywac
hist(wagannp, add=T, freq=0, col=rgb(1,1,1,0.5))
curve(dnorm(x,mean=mean(waganp),sd=sd(waganp)),col=rgb(0.8,0.8,0,1),n=1000,type="b",add=T)
#rozkłady
normalne o śr. i sd takich, jak próby
curve(dnorm(x,mean=mean(wagannp),sd=sd(wagannp)),col=rgb(0,0,1,1),n=1000,type="b",add=T)
lines(density(waganp),col=rgb(1,0,0,1)) #gęstości prób
lines(density(wagannp),col=rgb(0,1,0,1))
legend("topleft",c("histogram(palące)","histogram(niepalące)","gęstość(palące)","gęstość(niepalące)","norm
alny(palące)","normalny(niepalące)"),fill=c(rgb(0,0,0,1),rgb(1,1,1,1),rgb(1,0,0,1),rgb(0,1,0,1),rgb(0.8,0…
…
0.7665289
0.5110193
0.5110193
1.5330579
1.5330579
0.0000000
0.0000000
–
Jak widzimy, żadne dziecko nie wpadło do kategorii VLBW (very low birth weight, <1500 g).
Wykreślimy te dane na wykresie:
Input:
plot(waga[,2],type="b",main="Palenie
przez
matki
a
waga\nnoworodków
niedowagą",col=rgb(1,0,0,1),xlab="Górna
granica
wagi
[g]",ylab="Odsetek
noworodków
wagi",xaxt="n",yaxt="n")
lines(waga[,3],type="b",col=rgb(0,1,0,1),xlab="",ylab="")
axis(side=1,at=1:21,labels=seq(length=21, from=2500, by=-50))
axis(side=2,at=seq(length=8, from=0, by=0.01),labels=seq(length=8, from=0, by=0.01))
legend("topright",c("palące","niepalące"),fill=c(rgb(1,0,0,1),rgb(0,1,0,1)))
6
odsetek
z
poniżej
danej
Output:
Palenie przez matki a waga
noworodków - odsetek z niedowagą
0.06
0.05
0.04
0.03
0.02
0
0.01
Odsetek noworodków poniżej…
… więc stwierdzić, że niepalenie powoduje wcześniactwo. W obu przypadkach odsetki mają
podobny przebieg, możemy więc przyjąć, że nie ma tu zależności od palenia.
Porównamy jeszcze wagę dziecka z wagą matki. Odrzucamy dane, jeżeli waga matki jest nieznana.
Input:
wagam=dane$waga_m[dane$waga_m!=999*0.454]
wagan=dane$waga_n[dane$waga_m!=999*0.454]
summary(wagam)
lregression2=lm(wagan~wagam)
summary(lregression2)
cat…
... zobacz całą notatkę
Komentarze użytkowników (0)