modelowanie i optymalizacja - przygotowanie danych

Nasza ocena:

3
Pobrań: 224
Wyświetleń: 1414
Komentarze: 0
Notatek.pl

Pobierz ten dokument za darmo

Podgląd dokumentu
modelowanie i optymalizacja  -  przygotowanie danych - strona 1 modelowanie i optymalizacja  -  przygotowanie danych - strona 2

Fragment notatki:

Przygotowanie danych:
1. Pole przestarzałe lub zbędne
2. Rekordy z brakującymi wartościami
3. Punkty oddalone (wartości odstające)
4. Dane w nieodpowiednim formacie dla modeli eksploracyjnych
5. Wartości błędne
Obsługa brakujących danych:
1. Pominięcie rekordów do analizy
2. Zastąpienie informacji pewną stałą, określoną przez analityka
3. Zastąpienie brakującej wartości, wartością średnią lub wartością modalną
4. Zastąpienie brakującej wartości wartością wygenerowaną losowo z obserwowanego
rozkładu zmiennej
Metody identyfikacji punktów oddalonych:
 Punkty oddalone są skrajnymi wartościami, które znajdują się blisko granic zakresu
danych lub są sprzeczne z ogólnym trendem pozostałych danych
 Ich identyfikacja jest ważna- mogą to być błędnie wprowadzone dane lub zagrażać
stabilności wyników otrzymanych z pewnych metod eksploracji
Metody numeryczne identyfikacji punktów oddalonych:
1. Standaryzacja (wartości powyżej 3 lub poniżej -3) UWAGA: średnia i odchylenie
standardowe wyliczane są w oparciu również o punkty oddalone
2. Metody bardziej odporne-rozstęp międzywarstw owy
3. Kwartyle- dzielą zbiór danych na 4 części, z których każda zawiera 25% danych
Rozstęp międzywarstw owy IRQ=Q3-Q1
Wartość zmiennej jest punktem oddalonym, jeśli:
 Jest położona przynajmniej o 1, 5(IRQ) poniżej Q1
 Jest położona przynajmniej o 1, 5 powyżej Q3
Przekształcenia danych:
 Kiedy?- Zmienne mają zakresy znacznie różniące się od siebie
 Metody normalizacji (normalizacja min-max, standaryzacja)
Mamy hipotezę czy nie?
 TAK-testowanie hipotez, analiza statyczna
 NIE- EDA-eksploracyjna analiza danych (nie wiem, co zachodzi między zmiennymi)


(…)

…Przygotowanie danych:
1. Pole przestarzałe lub zbędne
2. Rekordy z brakującymi wartościami
3. Punkty oddalone (wartości odstające)
4. Dane w nieodpowiednim formacie dla modeli eksploracyjnych
5. Wartości błędne
Obsługa brakujących danych:
1. Pominięcie rekordów do analizy
2. Zastąpienie informacji pewną stałą, określoną przez analityka
3. Zastąpienie brakującej wartości, wartością średnią…
... zobacz całą notatkę

Komentarze użytkowników (0)

Zaloguj się, aby dodać komentarz