Praca składa się z dziesięciu
rozdziałów. Pierwszy poświęcono prezentacji ogólnej postaci modelu, który jest rozwiązany
w książce. Drugi rozdział zawiera omówienie metody rekurencyjnego podziału, której
graficzną prezentacją są drzewa klasyfikacyjne i regresyjne. Podano w nim pełny
algorytm metody, podstawowe definicje teorii grafów oraz krótką charakterystykę
zalet tej metody.
Rozdziały od trzeciego do
ósmego włącznie poświęcono wyczerpującemu omówieniu poszczególnych kroków
algorytmu tworzenia drzew klasyfikacyjnych. W rozdziale trzecim Czytelnik znajdzie
charakterystykę metod doboru zmiennych niezależnych do modelu dyskryminacyjnego.
Przedstawiono w nim definicje oraz własności 12 podstawowych miar wykorzystywanych w tym
celu.
W czwartym rozdziale
omówiono sposoby określenia liczby segmentów, na jakie dzieli się przestrzeń cech w
każdym etapie działania metody. W przypadku zmiennych jakościowych chodzi tutaj o
łączenie wartości nominalnych w zbiory, a w przypadku zmiennych ilościowych - o
dyskretyzację zbioru ich wartości. Ten ostatni problem jest wyjątkowo złożony, gdyż
wymaga określenia zarówno liczby przedziałów, jak i ich granic.
Rozdział piąty w całości
poświęcono metodom podziału, w których wykorzystuje się kombinacje zmiennych
niezależnych. W przypadku zmiennych ilościowych chodzi tu o ich kombinacje liniowe, a w
przypadku zmiennych jakościowych o ich koniunkcje. W sensie geometrycznym oznacza to
dzielenie wielowymiarowej przestrzeni cech hiperpłaszczyznami ukośnymi względem osi
współrzędnych.
W rozdziale szóstym znajduje
się charakterystyka sposobów zakończenia podziału (reguły stopu) oraz określenia
wartości zmiennej zależnej dla podzbiorów, które nie są homogeniczne. Ponadto
omówiono w nim 6 miar oceniających jakość uzyskanego modelu dyskryminacyjnego w
postaci drzewa, z których najważniejsza jest wielkość błędu klasyfikacji. Omówiono
także definicję kosztów błędnej klasyfikacji oraz rolę, jaką odgrywają one w
procesie konstruowania modelu.
Ostatni etap procesu budowy
drzewa klasyfikacyjnego przedstawiono w rozdziale siódmym. Jest to wybór właściwej
postaci modelu, tj. rozmiarów i kształtu drzewa. Podstawowym kryterium jest wielkość
błędu klasyfikacji, chociaż nie mniejsze znaczenie ma także złożoność modelu.
Stosowane w tym celu techniki to przycinanie krawędzi drzewa, skracanie ich długości
oraz łączenie wielu modeli.
Z kolei rozdział ósmy
poświęcono technikom postępowania z obiektami, których niektóre wartości cech nie
są znane. Zwykle dla takich obiektów tworzy się oddzielny zbiór uczący lub stosuje
się dzielenie w oparciu o tzw. cechy zastępcze. Rozważana w tym rozdziale sytuacja
dotyczy obiektów ze zbioru uczącego oraz ze zbioru testowego.
Rozdział dziewiąty w
całości obejmuje tematykę zastosowania metody rekurencyjnego podziału w regresji, tj.
tworzenia drzew regresyjnych. Pokazano w nim specyficzne sposoby mierzenia jakości
podziału, określania wartości zmiennej zależnej itd. Znajduje się tam także
omówienie adaptacyjnej metody MARS, która wykorzystuje krzywe składane (funkcje
segmentowe).
Ostatni, dziesiąty,
rozdział książki zawiera krótką historię rozwoju metody rekurencyjnego podziału
oraz charakterystykę najważniejszych, dostępnych na rynku, programów komputerowych.
Bardzo obszerna bibliografia
przedmiotu obejmuje przeszło 200 najważniejszych pozycji z literatury światowej,
wydanych do końca 1999 roku.
Treść książki jest
ilustrowana wieloma przykładami, w których wykorzystano powszechnie uznane i
ogólnodostępne zbiory danych. Pozwalają one lepiej zrozumieć charakter rozważanych
zagadnień, a ponadto dowodzą praktycznej przydatności omawianych metod.
183 strony