Text mining i WEB mining - wykład

Nasza ocena:

3
Pobrań: 42
Wyświetleń: 700
Komentarze: 0
Notatek.pl

Pobierz ten dokument za darmo

Podgląd dokumentu
Text mining i WEB mining - wykład - strona 1 Text mining i WEB mining - wykład - strona 2 Text mining i WEB mining - wykład - strona 3

Fragment notatki:

Business Intelligence prof. UE dr hab. Maria Mach-Król
Wykład 12
Text Mining i Web Mining(drążenie tekstu i drążenie web)
Case study
Drążenie tekstu dla bezpieczeństwa i przeciw terroryzmowi
Projekt GENOA próbuje dostarczyć zaawansowane narzędzia i techniki celem szybkiego analizowania informacji związanej z bieżącą sytuacją.
Jednym z wyzwań GENOA było ułatwienie użytkownikowi wchłonięcia wiedzy odkrytej przez narzędzia analityczne.
Badawcza organizacja non-profit MITRE dołączyła do projektu, zapewniając narzędzie drążenia tekstu.
Pojęcia Text Mining
85-90 % wszystkich danych korporacyjnych jest w jakiejś nieustrukturyzowanej formie (np. tekstu)
Nieustrukturyzowane dane korporacyjne podwajają się co 18 miesięcy. Wykorzystanie tych źródeł informacji to nie opcja, ale rzeczywista potrzeba, jeśli chce się być konkurencyjnym.
Odpowiedź: text mining (drążenie tekstu) Półautomatyczny proces wydobywania wiedzy z nieustrukturyzowanych źródeł danych Inne nazwy: text data mining (tekstowe drążenie danych) lub odkrywanie wiedzy w bazach danych tekstowych Data Mining versus Text Mining
Oba poszukują nowych i użytecznych wzorców Oba są procesami półautomatycznymi Różnica tkwi w naturze danych: Dane ustrukturyzowane vs nieustrukturyzowane Dane ustrukturyzowane: bazy danych Dane nieustrukturyzowane: dokumenty Word, pliki PDF, wyjątki z tekstu, pliki XML itd. Text mining - najpierw narzuca strukturę na dane, a potem drąży dane ustrukturyzowane Pojęcia Text Mining
Korzyści z drążenia tekstu są oczywiste, zwłaszcza w środowiskach bogatych tekstowo Np. prawo (wyroki), badania naukowe (artykuły), finanse (raporty kwartalne), medycyna (wypisy szpitalne), biologia (interakcje molekularne), technika (pliki patentowe), marketing (komentarze klientów) itd. Zadania w komunikacji elektronicznej (np. Email)
Filtrowanie spamu Priorytetyzacja i kategoryzacja emaili Automatyczne generowanie odpowiedzi Zastosowania Text Mining
Ekstrakcja informacji - identyfikacja kluczowych fraz w tekście za pomocą dopasowywania wzorców Śledzenie tematów - w oparciu o profil użytkownika i oglądane przez niego dokumenty, przewidywanie innych dokumentów mogących go zainteresować Sumaryzacja - Podsumowywanie dokumentu aby oszczędzić czas użytkownika Kategoryzacja - identyfikacja głównych tematów dokumentu i w oparciu o nie przypisanie dokumentu do odpowiedniej kategorii Grupowanie - grupowanie podobnych dokumentów bez predefiniowanego zbioru kategorii

(…)

… się w dokumencie Tagowanie części mowy - proces oznaczania słów w tekście jako konkretnych części mowy (rzeczownik, przyimek itp. ) Morfologia - bada wewnętrzną strukturę słów Macierz term-dokument - inaczej macierz wystąpień - powszechny schemat reprezentacji związków między termami a dokumentem, w postaci tabelarycznej, gdzie w wierszach są termy, w kolumnach dokumenty, a w komórkach częstotliwość występowania…
… wiedzy z baz danych patentowych. Przykład: Eastman Kodak zatrudniał ponad 5 tys. naukowców, inżynierów i techników na świecie. W XX w. uzyskał ok. 20 tys. patentów. Analitycy Kodaka wykorzystując specjalistyczne oprogramowanie (narzędzia text mining z ClearForest Corp.) analizowali bazy danych patentowych, aby uzyskać całościowe spojrzenie na konkurencję. Przetwarzanie języka naturalnego (Natural…
… sposób jak my - ludzie? Wyzwania NLP Tagowanie części mowy - jest trudne, ponieważ zależy nie tylko od definicji termu, ale też od kontekstu Segmentacja tekstu - Niektóre języki, jak chiński, japoński, tajski, nie mają w piśmie rozgraniczeń między słowami; Wtedy wymagane jest odnalezienie tych granic. Usunięcie niejasności i dwuznaczności sensu słów - wiele słów ma więcej niż jedno znaczenie. Dwuznaczność składni…
… opartych na tekście (wskazówek) Zastosowania Text Mining
Case study: drążenie kłamstw Wygenerowano 371 użytecznych wypowiedzi (fraz) Użyto 31 cech Użyto różnych metod selekcji cech Zastosowano 10-krotną walidację krzyżową Rezultaty (całkowity % dokładności)
Regresja logistyczna 67.28
Drzewa decyzyjne 71.60
Sieci neuronowe 73.46
Proces Text Mining
Krok 1: Ustal korpus Zbierz wszystkie relewantne…
... zobacz całą notatkę

Komentarze użytkowników (0)

Zaloguj się, aby dodać komentarz