To tylko jedna z 3 stron tej notatki. Zaloguj się aby zobaczyć ten dokument.
Zobacz
całą notatkę
Kryterium względne Analityczne metody ustalania liczby skupień
Czy można analitycznie ustalić optymalna liczbę grup na która należy podzielić zbiór danych?
Jeśli tak to jaka jest skuteczność takich metod?
W literaturze tematu można znaleźć wiele wskaźników oceny optymalnej liczby grup, na która należy podzielić zbiór obiektów.
Do bardziej znanych należą:
DI Duun Separation Index
DB Davies-Boulin's Index
SS Global Silhouette Index
CS Cluster Separation index
PC The Bezdek's Partition Coefficient
CE Classification Entropy
S Separation Indeex
Przy Dunnie powinno się szukać maximum składnika.
Partition szuka się maximum
CE minimum
CS minimum
S minimum
Wskaźniki jakosci grupowania:
Podział:
Wskaźniki uwzględniające jedynie odległość między obiektami w skupieniu i między skupieniami, np. wskaźnik Dunn'a, wskaźnik separacji zbiorów (Cluster Separation Index), wskaźnik sylwetkowy (Silhouette Index)
Wskaźniki Uwzględniające rozproszenie obiektów wewnątrz skupień między skupieniami (miedzy obiektami z rożnych skupień, miedzy centrami skupień), np. wskaźnik Davies's-Bouldin'a (Davies-Bouldin Index)
Wskaźniki oparte na macierzy rozrzutu (scatter matrix) całego zbioru danych i macierzach rozrzutu obiektów w skupieniach; wskaźniki Caliińskiego-Harabasza (Caliński-Harabasz Index), wskaźnik Scotta-Symons'a (Scott-Symons Index) wskaźnik Friedman'a i Rubin's: TCW Index - TraceCovW, TW Index - Trace W, FR Index - Friedman'a Rubina Index;
Oparte na macierzy kowariancji całego zbioru danych i macierzach kowariancji dla skupień np. wskaźnik Hartigana i wskaźnik Bal'a-Hall'a (Ball-Hall Index).
Wskaźniki mieszane i inne (np. oparte na rozmytej funkcji przynależności do skupień); np. wskaźnik Gap, The Bezdek's Partition Coefficient, Classyfications Entropy i inne.
Wskaźnik Daviesa-Bouldin'a (Davies Bouldin index) - 1979
Bazuje na założeniu ze optymalny podział obiektów na grupy to taki, który minimalizuje zróżnicowanie obiektów w klasach jednoczenie maksymalizując odległości miedzy centrami skupisk. Jest suma wewnętrznego zróżnicowania w skupieniu w stosunku do zmienności miedzy skupieniami.
DB(v) = 1/c Σmax {σ i + σ j) / δ(x i ,x j )}
δ - definiuje odległość miedzy skupieniem xi xj, najczęściej przyjmowana jako odległość miedzy centrami dwóch skupień;
σ - zróżnicowanie w i-tym skupieniu;
c - liczba skupień σ 1= (1/|Xj| Σ(x-v i 2 )) 2 Konfiguracja skupień, która minimalizuje wskaźnik uznawana jest za optymalną liczbę skupień.
(…)
… rozrzutu obiektów w skupieniach; wskaźniki Caliińskiego-Harabasza (Caliński-Harabasz Index), wskaźnik Scotta-Symons'a (Scott-Symons Index) wskaźnik Friedman'a i Rubin's: TCW Index - TraceCovW, TW Index - Trace W, FR Index - Friedman'a Rubina Index;
Oparte na macierzy kowariancji całego zbioru danych i macierzach kowariancji dla skupień np. wskaźnik Hartigana i wskaźnik Bal'a-Hall'a (Ball-Hall Index…
... zobacz całą notatkę
Komentarze użytkowników (0)