Drzewa klasyfikacyjne - Google

Drzewa klasyfikacyjne

Z Wikipedii

Skocz do: nawigacji, szukaj

Drzewa klasyfikacyjne – zbiorcza nazwa rodziny metod statystycznych z zakresu eksploracji danych, dokonujących za pomocą diagramów zwanych drzewami klasyfikacji obserwacji statystycznych, czyli podziału próby statystycznej na klasy obserwacji o podobnych właściwościach. Metoda drzew klasyfikacyjnych jest odmianą hierarchicznej analizy skupień.

Jeśli drzewo stosujemy do klasyfikowania realnych sytuacji, a wynikiem klasyfikacji jest decyzja, jaka ma być w danej sytuacji podjęta, drzewo jest też nazywane drzewem decyzyjnym.

Drzewo składa się z korzenia (przedstawianego, podobnie jak w matematyce i informatyce, zwykle u góry rysunku) oraz gałęzi prowadzących z korzenia do kolejnych węzłów. W każdym węźle sprawdzany jest pewien warunek dotyczący danej obserwacji, i na jego podstawie wybierana jest jedna z gałęzi prowadząca do kolejnego węzła piętro niżej. Na dole znajdują się liście, w których odczytujemy do której z klas należy przypisać daną obserwację. Klasyfikacja danej obserwacji polega na przejściu od korzenia do liścia i przypisaniu do tej obserwacji klasy zapisanej w danym liściu.

Spis treści

[edytuj] Definicja formalna

Formalnie drzewo klasyfikacyjne jest acyklicznym spójnym grafem skierowanym. Każdemu jego węzłowi, będącemu liściem, przyporządkowane jest oznaczenie klasy, a każdej z gałęzi reguła decyzyjna, czyli warunek odnoszący się do wartości zmiennych w zbiorze wejściowym i mówiący w jakim przypadku należy pójść daną gałęzią.

W większości algorytmów warunki dla gałęzi wychodzących z jednego węzła muszą się uzupełniać tak, aby dla każdego możliwego wektora zmiennych w danej obserwacji jedna z nich i tylko jedna była spełniona. Istnieją też algorytmy, które zamiast warunków wyznaczają wagi dla poszczególnych gałęzi.

[edytuj] Postać danych

Dane zwykle mają postać tabeli, w której wierszach mamy obserwacje, a w kolumnach zmienne. Przykładowo w tabeli każdy wiersz może odpowiadać jednemu człowiekowi, a kolumny to różne zmienne określające go, np. wiek, wzrost, czy ciężar ciała.

[edytuj] Uczenie drzewa

Drzewo klasyfikacyjne ekspert może utworzyć "ręcznie", bez pomocy narzędzi statystycznych. W taki sposób czasem tworzone są np. drzewa klasyfikacyjne w przypadku gdy klasy dają się łatwo rozróżnić[1] i jest ich stosunkowo niewiele. W ten sposób tworzone były np. klucze do oznaczania gatunków w biologii, będące de facto wielkimi drzewami decyzyjnymi.

Zwykle jednak stosuje się specjalistyczne algorytmy statystyczne, które automatycznie dzielą próbę na kolejne podpróby, tworząc kolejne węzły drzewa.

[edytuj] Historia

Po raz pierwszy drzew klasyfikacyjnych zaczęli używać socjologowie. Prawdopodobnie pierwszą pracą w której użyto tej metody był artykuł J.N. Morgana i J.A. Sonquista z roku 1963 wydrukowany w Journal of the American Statistical Association, ale z zakresu socjologii.

Niezależnie odkrył je Quinlan w końcu lat 70. (powoływał się przy tym na wcześniejsze prace psychologów) i używał w dziedzinie uczenia maszynowego. Drzewa klasyfikacyjne i regresyjne spopularyzowała jednak dopiero w 1984 roku książka Breimana (zob. bibliografia).

[edytuj] Bibliografia

Przypisy

  1. fachowo mówi się, że są dobrze separowalne

Chińczycy: nie kupujcie francuskich produktów
Na forach internetowych aż kipi od złości chińskich nacjonalistów. Protestując przeciwko planowanemu spotkaniu francuskiego prezydenta z Dalajlamą w ten weekend w Gdańsku, nawołują do bojkotowania francuskich produktów.
Patriarcha Moskwy nie żyje
Aleksy II zwierzchnik rosyjskiej Cerkwi prawosławnej od ponad 18 lat zmarł w piątek rano. Nieznane są przyczyny śmierci duchownego.
Cesarz Japonii wraca do zdrowia
Kilkanaście godzin po wylocie prezydenta Lecha Kaczyńskiego z Japonii, cesarz Akihito poczuł się lepiej. Właśnie z powodu zdrowotnych problemów monarchy nie doszło do jego spotkania z polskim prezydentem.
Pakistańczycy ujawnili polską tajną misję
Jego misja miała być tajna, ale przestała być, gdy wspomnieli o niej Pakistańczycy. Zenon Kuchciak, zwany infantylnie przez media polskim Jamesem Bondem, jest specjalnym wysłannikiem prezydenta do Pakistanu. Ma doprowadzić do uwolnienia porwanego polskiego inżyniera.
Prezydent wpadł w turbulencje
Prezydencki samolot znów dał się Lechowi Kaczyńskiemu we znaki. Po epizodzie z mongolskim mrozem TU-154 M tym razem wpadł w silne turbulencje i dwa razy podchodził do lądowania w Seulu.
Linki: Strona gwna