Business Intelligence prof. UE dr hab. Maria Mach-Król
Wykład 6
Środowisko hurtowni danych
Przypomnienie definicji HD:
HD to:
uporządkowany tematycznie,
zintegrowany,
zawierający wymiar czasowy, oraz
nieulotny
zbiór danych wspomagających podejmowanie decyzji
HD - sercem projektowanego środowiska i podstawą przetwarzania w ramach DSS (Decision Support System)
Hurtownia danych
Jest dynamiczną infrastrukturą łączącą bazy danych, sprzęt i oprogramowanie w zintegrowaną całość, która może się zmieniać wraz z dynamiką rozwoju przedsiębiorstwa. W przeciwieństwie do tradycyjnych baz danych, należy na nią patrzeć w kategoriach procesu. Jej konstrukcja składa się z trzech obszarów:
a) perspektywa operacyjna,
b) jądro systemu,
c) perspektywa menedżerska.
Cechy Hurtowni Danych
podmiotowość - struktura danych w HD jest zorganizowana odpowiednio do podstawowego obszaru działalności przedsiębiorstwa
integralność - HD musi zawierać pełny zbiór danych, które są najczęściej rozproszone, a więc niezbędna jest integracja danych z wielu heterogenicznych źródeł do odczytu - danych nie można ich zmieniać; są aktualizowane regularnie, a po dezaktualizacji archiwowane
zmienność w czasie - HD przechowuje dane na przestrzeni czasu (historię danych); czas jest jednym z podstawowych elementów składowych HD.
Tematyczne uporządkowanie danych w HD:
Klasyczne systemy są budowane wokół aplikacji stosowanych w firmie. Np. dla firmy ubezpieczeniowej aplikacjami są np..: auto, zdrowie, życie, wypadek, zaś obszary tematyczne to np..: klient, ubezpieczenie, wypadki, roszczenia
Integracja jako jedna z ważniejszych cech HD
Dane w HD pochodzą z różnych źródeł.
Podczas ładowania do HD dane są konwertowane, reformatowane, resekwencjonowane, sumowane, itd. W efekcie otrzymują jeden obraz fizyczny.
Integracja ma miejsce, gdy dane przechodzą ze środowiska operacyjnego zorientowanego na aplikację do HD:
Nieulotność danych (nonvolatility)
Dane operacyjne są wykorzystywane regularnie, rekord po rekordzie, są co pewien czas aktualizowane, ale HD pokazuje inny zbiór charakterystyk. Dane są ładowane en masse i w całości wykorzystywane, ale nie aktualizowane. Są ładowane do HD w postaci statycznej. Jeśli nastąpiła w międzyczasie aktualizacja, to następuje załadowanie zaktualizowanego rekordu (snapshot):
Aspekt czasowy
Oznacza, że każda jednostka danych w HD jest aktualna w danym momencie, ma `stempel czasowy' lub datę transakcji.
(…)
… na poziomie operacyjnym. Większość potrzebna jest do billingów. Dane te potrzebne są do 30 dni.
HD ma dwa typy danych: 1) Dane zsumowane, 2) Dane szczegółowe („true archival”). Dane są przechowywane do +- 10 lat. Dane wywodzące się z HD dotyczą konkretnych okręgów. Każdy okręg analizuje „swoje” dane niezależnie od innych okręgów. Większość przetwarzania analitycznego wykonuje się indywidualnie, w okręgach…
… danych to podział ich na mniejsze jednostki fizyczne, utrzymywane niezależnie. Uwaga projektantów skupia się nie na tym, czy partycje mają być, ale na tym, jak powinny być zrobione
Podział tabeli na mniejsze fragmenty: operacje dostępu do dysków mogą być wykonywane równolegle równoważone jest obciążenie dysków polecenia SQL adresujące różne partycje mogą być wykonywane równolegle polecenia SQL mogą adresować konkretną partycję eliminując w ten sposób konieczność przeszukiwania całej tabeli wzrasta bezpieczeństwo danych w przypadku awarii sprzętu (awaria jednego dysku uniemożliwia dostęp tylko do partycji na tym dysku - partycje na nieuszkodzonych dyskach są nadal dostępne) wzrasta szybkość odtwarzania danych po awarii - odtwarzaniu podlegają tylko uszkodzone partycje, a nie cała tabela Korzyść: łatwiejsze zarządzanie mniejszymi, osobnymi jednostkami,
uproszczone ładowanie danych do HD (dostęp do danych),
usprawnienie odnoszące się do przechowywania i monitorowania danych,
prostsza archiwizacja i odtwarzanie danych
prostsze przeszukiwanie sekwencyjne (o ile jest ono konieczne) Dane są partycjonowane, gdy są rozmieszczone na więcej niż jednym fizycznym nośniku danych. Konkretna jednostka danych…
…
Polega na łączeniu wartości indeksowanego atrybutu z adresami fizycznych bloków dyskowych, w których przechowywane są rekordy o danej wartości
Poprawia znacząco czas dostępu do danych
HD jest statyczna (dominują odczyty)
Należy definiować indeksy na kluczu podstawowym i kluczach obcych
Nowe typy indeksów: indeks bitmapowy, indeks połączeniowy Strukturalizacja danych w HD
W HD mogą znajdować się różne…
… charakterystyczna: brak kumulacji np. dziennej, zbiór tworzony w ciągu długiego okresu czasu (tydzień, miesiąc)
Przykłady tworzenia zbioru ciągłego z bezpośrednich zbiorów danych (1 lub kilka):
Homogeniczność i heterogeniczność danych
Na pierwszy rzut oka dane w HD wydają się homogeniczne, bo wszystkie typy rekordów są takie same. W rzeczywistości są one różne. Dane w HD są podzielone pomiędzy obszary tematyczne…
... zobacz całą notatkę
Komentarze użytkowników (0)