Drążenie danych w BI - wykład

Nasza ocena:

3
Pobrań: 98
Wyświetleń: 1225
Komentarze: 0
Notatek.pl

Pobierz ten dokument za darmo

Podgląd dokumentu
Drążenie danych w BI - wykład - strona 1 Drążenie danych w BI - wykład - strona 2 Drążenie danych w BI - wykład - strona 3

Fragment notatki:

Business Intelligence prof. UE dr hab. Maria Mach-Król
Wykład 10
Drążenie danych w BI
Case study: Data Mining w Hollywood!
Przewidzenie finansowego sukcesu filmu to interesujący i nietrywialny problem
Ramesh Sharda i Dursun Delen badali wykorzystanie w tym celu DM
Dane zostały zebrane z kilku filmowych baz danych (np. ShowBiz, AllMovie) i skonsolidowane w jeden zbiór
Użyto metod DM takich jak sieci neuronowe, drzewa decyzyjne i support vector machines (maszyna wektorów nośnych)
Wykorzystano pakiet PASW Modeler (SPSS, dawniej zwany Clementine). Pojęcia i definicje DM. Dlaczego Data Mining?
Coraz intensywniejsza konkurencja w skali globalnej Dostrzeżenie wartości w źródłach danych Dostępność dobrej jakości danych o klientach, sprzedawcach, transakcjach, Web itd. Konsolidacja i integracja repozytoriów danych w hurtowniach danych Wykładniczy wzrost możliwości przetwarzania danych i przechowywania ich; spadek kosztów Ruch w kierunku konwersji zasobów informacyjnych w formę niefizyczną. Definicja DM
Nietrywialny proces identyfikowania przekonywujących, nowych, potencjalnie użytecznych i zrozumiałych wzorców w danych przechowywanych w ustrukturyzowanych bazach danych - Fayyad et al., (1996) Słowa kluczowe w tej definicji: Proces, nietrywialny, przekonywujący, nowy, potencjalnie użyteczny, zrozumiały Inne nazwy DM: ekstrakcja wiedzy, analiza wzorców, odkrywanie wiedzy, zbieranie informacji, wyszukiwanie wzorców, czerpanie danych. Data Mining Cechy/Zadania
Źródłem danych dla DM jest często (nie zawsze!) skonsolidowana hurtownia danych Środowisko DM to zazwyczaj architektura klient-serwer lub oparty na Web system informatyczny Dane to najbardziej krytyczny składnik DM, mogą zawierać dane nieustrukturyzowane Osoba drążąca to często użytkownik końcowy DM wymaga kreatywnego myślenia Istotne są możliwości i łatwość użycia narzędzi DM. Dane w Data Mining
Dane: zbiór faktów zazwyczaj uzyskanych jako wynik doświadczeń, obserwacji lub eksperymentów Dane mogą składać się z cyfr, słów, obrazów Dane: najniższy poziom abstrakcji (z którego wyprowadza się informacje i wiedzę) Dane kategoryczne - reprezentują etykiety klas. Np. rasa, płeć, grupa wiekowa, poziom wykształcenia
Dane nominalne - zawierają pomiary przypisane do obiektów jako etykiety. Np. stan cywilny: „kawaler/panna”, „żonaty/zamężna”, „rozwiedziony/a”
Dane porządkowe - zawierają kody przypisane do obiektów jako etykiety, które reprezentują ich uporządkowanie. Np. grupa wiekowa: „dziecko, nastolatek, dorosły, stary”.

(…)

…, np. przypisanie klientów do różnych segmentów na podstawie demografii i wcześniejszych zakupów Związki sekwencyjne (szeregi czasowe) - odkrywają zdarzenia uporządkowane w czasie. Inne zadania DM
Stanowią dodatek do podstawowych zadań DM (predykcji, asocjacji, grupowania) Prognozowanie szeregów czasowych Część analizy sekwencji lub linków?
Wizualizacja Rodzaje DM DM oparte na hipotezach - zaczyna…
… eksperyment k razy Zagreguj wyniki testów Techniki klasyfikacji
Analiza drzew decyzyjnych Analiza statystyczna Sieci neuronowe Support vector machines (maszyna wektorów nośnych) Wnioskowanie oparte na przypadkach (CBR) Klasyfikatory bayesowskie Algorytmy genetyczne Drzewa decyzyjne
Wykorzystują metodę „dziel i rządź” Rekursywnie dzielą zbiór treningowy, aż każdy podział zawiera przypadki z jednej klasy…
... zobacz całą notatkę



Komentarze użytkowników (0)

Zaloguj się, aby dodać komentarz