DM - Data Mining (eksploracja danych)
Czynniki rozwoju DM: wzrost zbiorów danych; szeroki dostęp użytkowników do wiarygodnych danych; zwiększony dostęp do danych z intranetu i Internetu; zwiększanie udziału rynku w globalnej ekonomii wzrost dostępności do oprogramowania DM;
Podejście metodyczne CRISP-DM Cykl życia DM: zrozumienie uwarunkowań biznesowych/badawczych, zrozumienie danych, przygotowanie danych, modelowanie, ewaluacja, wdrożenie (fazy interacyjne) Zadania DM: -opis wzorców i tendencji tkwiących w danych -szacowanie, klasyfikacja; zmienna celu jest numeryczna, a nie jakościowa -przewidywanie; wynik dotyczy zawsze przyszłości -klasyfikacja; jakościowa zmienna celu -grupowanie rekordów, obserwacji, przypadków w klasy podobnych obiektów; nie ma zmiennej celu; dzieli cały zbiór na zgodne podzbiory, tam maksymalizowane jest podobieństwo rekordów, a podobieństwo rekordów spoza grupy jest minimalizowane -odkrywanie reguł; szukanie powiązanych ze sobą rekordów (które atrybuty rekordów są ze sobą powiązane); ilościowo określana relacja
DM modelowanie metody METODY NIENADZOROWANE, nie ma zidentyfikowanej zmiennej celu; -grupowanie -tworzenie reguł asocjacyjnych (analiza koszyków zakupowych) METODY NADZOROWANE; zmienna celu jest określona (+przykłady ze zmienną celu) -regresja -klasyfikacja
Drzewa decyzyjne - metoda klasyfikacji; zbiór węzłów decyzyjnych połączonych za pomocą gałęzi, rozchodzących się w dół od korzenia aż do kończących liści; atrybuty to korzenie, a każde możliwe wyjście to gałęzie, gałąź prowadzi albo do liścia albo kolejnego więzła decyzyjnego - gdy nie można dokonać nowych podziałów, brak nowych więzów Aby można było zastosować drzewo trzeba: -wstępnie sklasyfikować zmienną celu i dostarczyć zbiór uczący zawierający wartość zmiennej celu -zbiór uczący ma być bogaty i różnorodny (reprezentatywna grupa rekordów) -klasy zmiennej celu muszą być dyskretne (nie może być ciągła zmienna celu)
Drzewa klasyfikacyjne i regresyjne, CART, Breiman, 1984; -ściśle binarne (dokładnie dwie gałęzie wychodzące z każdego więzła decyzyjnego)
DM reguły decyzyjne (zdolność interpretacji za pomocą reguł decyzyjnych); - budowane są przez przechodzenie dowolną ścieżką z korzenia do liścia -pełny zbiór reguł decyzyjnych jest równoważny z drzewem decyzyjnym -forma „jeżeli poprzednik, to następnik” -WSPARCIE odnosi się do procentu rekordów w zbiorze danych, które są przypisane do danego liścia; UFNOŚĆ reguł wskazuje na procent rekordów w liściu, dla których reguła jest prawdziwa
... zobacz całą notatkę
Komentarze użytkowników (0)