Wykład - Narzędzia wspomagające zasilanie HD

Nasza ocena:

3
Pobrań: 28
Wyświetleń: 560
Komentarze: 0
Notatek.pl

Pobierz ten dokument za darmo

Podgląd dokumentu
Wykład - Narzędzia wspomagające zasilanie HD - strona 1

Fragment notatki:

Hurtownie danych prof. dr hab. Jerzy Gołuchowski
Wykład 3
Narzędzia wspomagające zasilanie HD
Potrzebne aby łączyć systemy heterogeniczne.
 
Źródła danych: - HD systemów transakcyjnych (w tym BD tzw. Otrzymane w spadku po poprzednich systemach - heterogeniczne i rozdrobnione)
Pliki tekstowe, XLS, TXT
Przestrzenne BD (GIS)
Temporalne BD i szeregi czasowe
Pełnotekstowe BD
Multimedialne BD
Dziedzinowe BD (np. prawne, finansowe)
Sieć WWW
 
Kroki zasilania HD
Identyfikacja źródeł
Oczyszczanie danych
Oczyszczanie danych jest nieodzownym etapem zarówno budowy HD jak i procesu drążenia danych. Konieczność oczyszczania danych wynika z tego że dane są:
Niekompletne
Zaszumione (dotyczy danych o wartościach ciągłych)
Niespójne lub sprzeczne
Nieprawdziwe (błędne lub zafałszowane)
Oczyszczanie danych obejmuje:
Usunięcie danych nieprawdziwych
Uzupełnienie danych niekompletnych- jeśli to możliwe
Wyjaśnienie sprzeczności i niespójności
Wyjaśnienie danych zakłóconych
 
Integracja danych 2
Integracja danych polega na łączeniu danych z różnych źródeł w celu zbudowania spójnej składnicy danych
Integracja obejmuje:
Ustalenie tych samych jednostek dla wszystkich miar (km-mile, kg-funty, tony-baryłki itp.)
Ustalenie tych samych oznaczeń dla atrybutów jakościowych (kobieta, female, tak, true)
Ustalenie tych samych wartości np. w przypadku różnych walut
Uwzględnienie wpływu różnych czynników np. inflacji i zmian w wartościach pieniądza w czasie (istotne przy analizach długoterminowych)
Zbudowanie słowników (metadane)
Znalezienie homonimów i nadanie im różnych znaczeń.
Znalezienie synonimów i nadanie im wspólnych znaczeń.
Znalezienie skrótów i nadanie im pełnych znaczeń.
 
Integracja semantyczna (homonimy, synonimy)
Integracje miar i jednostek
Integracja syntaktyczna (alfabet + składnia)
 
 
Transformacja danych jest procesem, którego celem jest doprowadzenie danych do postaci najlepszej dla przechowywania danych lub przeprowadzenia Data Mining. Na przykład może to obejmować ustalenie dokładności w reprezentacji liczb lub normalizację wartości (doprowadzenie do przedziału [0;1]).
Redukcja danych jest procesem, którego celem jest zmniejszenie ilości danych bez utraty uch wartości informacyjnej i merytorycznej. Wykorzystane są techniki:
... zobacz całą notatkę



Komentarze użytkowników (0)

Zaloguj się, aby dodać komentarz