Self-Organizing Map 
3.3 2D-Beispiele

Zur Entstehung der nun folgenden Musterklassen und Grafiken möchte ich auf den Abschnitt 2.4 „Entstehung der 2D Bilder“ verweisen. Um einen Vergleich von SOM und LVQ zu ermöglichen, habe ich die selben Musterklassen mit der SOM klassifizieren lassen. Ich habe die 4 Musterbeispiele mit einer zum LVQ ähnlichen Anzahl von Neuronen klassifiziert. Ein gewähltes weiteres Trainingsbeispiel, daß mit der SomGrafik dargestellt ist, soll ergänzend die Stärken und Schwächen der SOM demonstrieren.
Im Unterschied zum LVQ kennt die SOM nur die Positionen der Eingabevektoren im Musterraum. Der SOM sind die Klassenzugehörigkeiten der Eingabevektoren zu Beginn des Trainings nicht bekannt. Man könnte das bei den 2D-Beispielen mit einem Schwarzweißbild veranschaulichen. Zu Beginn des Trainings sieht die SOM nur ein Schwarzweißbild. Am Ende des Trainings werden der SOM ausgewählte Eingabevektoren und deren Klassenzugehörigkeit „verraten“  (  ----->   ).
 
Die Kalibrierung der SOM wird in meinem Simulator folgendermaßen durchgeführt:
Wie bekannt ist sind die Eingabevektoren der Trainingsdaten mit ihrer Klassenzugehörigkeit  gespeichert. Für jeden dieser Eingabevektoren wird das Gewinnerneuron der SOM bestimmt. Für jedes Neuron wird klassenweise die Anzahl der Gewinne gespeichert. Ein Neuron wird der Klasse zugeordnet, bei der die Anzahl der Gewinne maximal ist.


Linear trennbare Klassen:
 

Abb. 3.9 Bildauswertung 
Abb. 3.10 Bildauswertung
Abb. 3.11 Gewichtsraum
 
Beschreibung der Musterklassen s. Abb. 2.13: Zwei kompakte Klassen mit gleichem Stichprobenumfang (5878 Eingabevektoren je Klasse);großer Abstand zwischen den Klassengrenzen der beiden Teilgebiete; innerhalb der Teilgebiete sind die Eingabevektoren gleichmäßig verteilt
 

Einstellung des SOM-Simulators:
für Abb. 3.9:              4 Neuronen (2x2); Lernschrittweite 0.5; 100 Epochen
für Abb. 3.10/3.11:  36 Neuronen (6x6); Lernschrittweite 0.5; 100 Epochen
 
Verhalten des SOM-Algorithmus:
Für Abb. 3.9:  Der SOM-Algorithmus kann die zwei kompakten Klassen
mit vier Neuronen problemlos trennen. Die Neuronen werden in das Zentrum einer  Ballung von Eingabevektoren gezogen. Die großen Abstände der Klassengrenzen ermöglichen die eindeutige Kalibrierung der SOM.
Für Abb. 3.10/3.11: Die Verwendung von vielen Neuronen führt dazu, daß die
Neuronen gleichmäßig in den Ballungsräumen verteilt werden. Ein geringer Teil der Neuronen kann sich anfangs nicht für ein Ballungsgebiet entscheiden. Durch die rasante Senkung der Lernschrittweite und des Nachbarschaftsradius werden die Neuronen zwischen den Ballungsgebieten zu „Dead Neurons“.


Linear trennbare Klassen:
 

Abb. 3.12 Bildauswertung 
Abb. 3.13 Bildauswertung
Abb. 3.14 Gewichtsraum
 
Beschreibung der Musterklassen s. Abb. 2.15: Zwei kompakte Klassen; 
geringer Abstand zwischen den Klassengrenzen der einzelnen Teilgebiete; 
die rote Klasse hat 2 kompakte Teilgebiete; ungleicher Stichprobenumfang (1554 Eingabevektoren der roten Klasse und 12863 Eingabevektoren der blaue Klasse).
Einstellung des SOM-Simulators:
für Abb. 3.12:            4 Neuronen (2x2); Lernschrittweite 0.5; 100 Epochen
für Abb. 3.13/3.14:  36 Neuronen (6x6); Lernschrittweite 0.5; 100 Epochen

Verhalten des SOM-Algorithmus:
Für Abb. 3.12: Die wenigen Neuronen werden in den Ballungsräumen der Eingabevektoren gleichmäßig verteilt. Dies führt zur ungünstigen Aufteilung der Gewichte. Die SOM liefert in diesem Fall ein schlechtes Ergebnis. Der Ausweg ist die Verwendung einer größeren SOM.
Für Abb. 3.13/3.14: Die Verwendung einer großen Anzahl von Gewichten führt zu einer deutlich besseren Klassifikationsrate. An den Klassengrenzen wird jedoch auffällig falsch klassifiziert. Das ist auf die geringen Abstände zwischen den Klassengrenzen zurückzuführen. Nur die Erhöhung der Neuronenzahl kann zu einem besseren Ergebnis führen.
Die fehlenden Klasseninformationen während des Trainings verursachen eine scheinbare Klasseneinheit der roten und blauen Eingabevektoren. Der LVQ-Algorithmus hat in einem solchen Fall deutlich bessere Ergebnisse, da ihm mehr Informationen zur Verfügung stehen. Diese  bessere Informationsversorgung kann sich aber auch ungünstig auswirken. Der Abschnitt 2.5 (Abb. 2.21) beschreibt diesen Fall.


Nicht linear trennbare Klassen:
 

Abb. 3.15 Bildauswertung 
Abb. 3.16 Bildauswertung
Abb. 3.17 Gewichtsraum
 
Beschreibung der Musterklassen s. Abb. 2.18: 2 kompakte Klassen mit ungleichem Stichprobenumfang (732 Eingabevektoren der roten Klasse und 7243 Eingabevektoren der blaue Klasse); die rote Klasse wird vollständig von der blauen Klasse umschlossen; die Abstände zwischen den Klassengrenzen ist relativ groß.
Einstellung des SOM-Simulators:
für Abb. 3.15:            4 Neuronen (2x2); Lernschrittweite 0.5; 100 Epochen
für Abb. 3.16/3.17:  36 Neuronen (6x6); Lernschrittweite 0.5; 100 Epochen

Verhalten des SOM-Algorithmus:
Für Abb. 3.15:  Die Musterklassen können nicht getrennt werden, da zu wenige Neuronen zur Verfügung stehen. Die Abbildung zeigt, daß die Neuronen gleichmäßig auf die Eingabevektoren verteilt werden.
Für Abb. 3.16/3.17: Durch die höhere Anzahl von Neuronen kann das Problem einwandfrei gelöst werden. In dieser Abbildung ist die Stärke der SOM zu finden. Der Algorithmus sucht selbständig die günstigste Aufteilung und Lage der Gewichte, um die Musterklassen zu trennen. Im zweidimensionalen Raum erscheint die Aufteilung der Neuronen trivial. Eine sinnvolle Lage kann man sich im vier- und höherdimensionalen Musterraum nicht mehr vorstellen. Doch für den SOM-Algorithmus spielt die Anzahl der Dimensionen keine Rolle.



Nicht trennbare Klassen:
 
Abb. 3.18 Bildauswertung 
Abb. 3.19 Bildauswertung
Abb. 3.20 Gewichtsraum
 
Beschreibung der Musterklassen s. Abb. 2.21: Drei verrauschte Klassen mit etwa gleichem Stichprobenumfang (6140 Eingabevektoren der roten Klasse,  6095 Eingabevektoren der grünen und 5904 der blaue Klasse); die Klassen gehen ineinander über; es sind schwache Ballungsgebiete der einzelnen Klassen ausgeprägt
Einstellung des SOM-Simulators:
für Abb. 3.18:            4 Neuronen (2x2); Lernschrittweite 0.5; 100 Epochen
für Abb. 3.19/3.20:  36 Neuronen (6x6); Lernschrittweite 0.5; 100 Epochen

Verhalten des SOM-Algorithmus:
Für Abb. 3.18: Mit vier Neuronen kann die SOM ein günstiges Ergebnis erzielen. Die blaue Klasse kann mit den wenigen Neuronen noch nicht berücksichtigt werden, da diese Klasse die kleinsten Ballungsgebiete hat. Der Ausweg ist, eine höhere Anzahl von Neuronen zu verwenden.
Für Abb. 3.19/3.20: Eine der wesentlichen Stärken der SOM kann aus diesem 2D-Beispiel abgeleitet werden. Der SOM-Algorithmus teilt alle Neuronen während des Trainings gleichmäßig auf die Ballungsgebiete der Eingabevektoren auf. Durch die Kalibrierung der Karte wird die Klassenzugehörigkeit der Neuronen ermittelt („Verfahren ohne Vorurteile“). Somit können die Neuronen nicht divergieren.
Der LVQ-Algorithmus hat bei dieser Musterklasse große Probleme, die ich im Abschnitt 2.5 beschrieben habe.


Resümee /4/

Der SOM-Algorithmus ist wie der LVQ ein robuster Algorithmus. Der SOM-Algorithmus findet automatisch die Bereiche im Eingaberaum, wo die Eingabevektoren signifikant viele Ausprägungen haben. Die räumliche Lage eines Neurons im Gewichtsraum korrespondiert mit einem Teilbereich des Eingaberaums. Ähnliche Muster werden durch topologisch  benachbarte Neuronen repräsentiert. Diese Eigenschaft ist eine unmittelbare Folge der Nachbarschaftsfunktion in der Lernregel. Regionen des Eingaberaums mit hoher Verteilungsdichte werden auf größere Bereiche der SOM abgebildet. Regionen mit geringerer Verteilungsdichte werden schlechter quantisiert. Es besteht eine leichte Tendenz zur Überpräsentation dieser Regionen. An den Rändern der SOM  ist die Nachbarschaftsbeziehung eingeschränkt, dadurch kann sich die Karte an den Rändern schlechter entfalten. Der Einfluß der Anzahl der Epochen sowie der  Startwert der Lernschrittweite spielt keine so maßgebliche Rolle auf das Lernergebnis. Im Gegensatz zum LVQ ist die Initialisierung der Karte unkritisch.


Self-Organizing Map