Informatyka w selekcji Ćwiczenie nr 1 1. Do pakietu R wczytać plik zamieszczony na stronie http://theta.edu.pl o nazwie dane.csv. W kolejnych kolumnach znajdują się: numer krowy, numer ojca, numer matki, wydajność mleczna, rok urodzenia, stado oraz dwa allele pewnego markera genetycznego wpływającego na mleczność krów. Uwaga! Jeśli któryś z numerów jest równy ‘99999’ oznacza to, że dane te są brakujące. 2. Ile mamy różnych osobników w pliku z danymi? 3. Potomkami ilu buhajów są zamieszczone tam krowy? 4. W którym stadzie jest najwięcej krów? 5. Sporządzić wykres obrazujący podział krów na stada? 6. Przedstawić statystyki opisane dla wydajności mlecznej. Za statystyki opisowe będziemy uważać średnią, odchylenie standardowe i medianę oraz wartość minimalną i maksymalną. 7. Przekodować numery ‘99999’ na ‘0’. 8. Krowy z którego stada dają średnio najwięcej mleka? 9. Dla wydajności mlecznej sporządzić wykres typu ‘boxplot’ i zinterpretować go. 10. Ile alleli ma rozważany marker genetyczny? 11. Dla każdego osobnika i każdego markera wyznaczyć genotypy? 12. Dla każdego z genotypów zamienić wartości znakowe na liczbowe tzn. genotyp AA na wartość -1, genotyp AB na wartość 0 oraz genotyp BB na wartość 1. 13. Wyznaczyć częstości występowania danego genotypu. 14. Zapisać nowo powstały plik na dysku.
... zobacz całą notatkę
Komentarze użytkowników (0)