Klassifikation der EEG-Mikrostates 
5.0 Klassifikation der EEG-Mikrostates

 

 

5.1 Beschreibung der Daten aus dem Doppelton-Experiment

Das Doppelton-Experiment und die Vorverarbeitung der EEG-Signale wurden im Kapitel 4 beschrieben. Die Daten sind als Exceldatei auf der beigelegten CD unter dem Namen "roh-39-4.xls" im Verzeichnis "\DAT\KK\" gesichert. Insgesamt waren 3581 Eingabevektoren mit 39 Merkmalen sowie den dazugehörigen Klassen vorhanden. In der Quelledatei war jede Klasse unterschiedlich oft vertreten, 388 Eingabevektoren der Klasse 1 (K01), 1038 Eingabevektoren der Klasse 2 (K02), 504 Eingabevektoren der Klasse 3 (K03) und 1650 Eingabevektoren der Klasse 4 (K04). Die Frequenzen waren spaltenweise in 0.5 Hz Schritten von 0.5 bis 20.0 Hz als Dezimalzahlen abgelegt. Die unnormierten Leistungsdichte-Werte (absolute Power) lagen im Wertebereich zwischen 0.0 und 43.0 µV².

In der EEG-Analyse ist die Zusammenfassung der Spektralwerte in definierten Bändern üblich. Diese vier Bänder sind, wie im vorherigen Kapitel erwähnt, das Delta-Band (0.5 bis 3.5Hz), das Theta-Band (4.0 bis 7.5Hz), das Alpha-Band (8 bis 13.5Hz) und das Beta-Band (14 bis 20Hz). Ich habe dazu aus den Werten der Exceldatei die 39 Merkmale zu den genannten vier Frequenzbändern zusammengefaßt. Diese Summen sind ebenfalls in der Exceldatei auf der beigelegten CD unter dem Namen "roh-39-4.xls" im Verzeichnis "\DAT\KK\" gesichert.

Aus der Exceldatei habe ich die beiden Dateien "roh39.g00" und "roh4.g00" im ASCII-Format erstellt, um ein für die Simulatoren lesbares Format zu erhalten. Die Datei "roh39.g00" enthält alle 3581 Eingabevektoren mit 39 Merkmalen und Klassenzugehörigkeitsinformation. Die Datei "roh4.g00" enthält alle 3581 Eingabevektoren mit den zusammengefaßten 4 Merkmalen und deren Klassenzugehörigkeit.

Mit dem Programm "Generator.exe" wurden diese beiden Dateien nachbearbeitet. Die Dateien mit 39 und 4 Merkmalen je Eingabevektor habe ich auch normiert abgespeichert. Jede Merkmalsvektorkomponente wurde auf die Summe alle Merkmalsvektorkomponenten eines Merkmalsvektors normiert. Man erhält so relative Leistungsdichte-Werte (relative Power). Dadurch werden interindividuelle Unterschiede in der EEG- Signalenergie und Unterschiede in der Signalenergie zu unterschiedlichen Zeitabschnitten während einer gesamten Messung (Dauer ca. 7 Std.) ausgeglichen. EEG-Segmente mit schwacher Signalenergie aber mit spezifischer spektraler Charakteristik werden gleichberechtigt zusammen mit den EEG-Segmenten mit höherer Signalenergie behandelt. Jede Klasse wurde mit gleicher Anzahl von Eingabevektoren gespeichert, um Spezialisierungen der Netze auf stärker vertretene Klassen zu vermeiden.

Aus den beiden Dateien (roh39.g00, roh4.g00) entstanden somit die vier Trainingsdatensätze mit folgenden Namen und Eigenschaften.

Die Eingabevektoren wurden in zufälliger Reihenfolge in den Dateien gesichert. Damit können sich die Netze nicht auf die Sequenz der angelegten Merkmalsvektoren spezialisieren.


5.2 Wahl der Einstellungen

Der Versuch die EEG-Mikrostates zu klassifizieren, wurde mit mehreren Einstellungen der Simulatoren durchgeführt. Durch die Steigerung der Neuronenanzahl wird versucht, eine Aussage über diese Einstellungen zu treffen. Mit den verschiedenen Einstellungen und Neuronenanzahlen wurden Tabellen angelegt, in denen die verschiedenen Klassifikationsraten abgelesen werden können. Mit der Klassifikationsrate sind auch die Ergebnisse der Reklassifikation gemeint. Im Abschnitt 2.4 wurden die Begriffe der Klassifikation und Reklassifikation erwähnt und beschrieben.

Die Tabellen der Klassifikationsraten sind im Anhang (Abschnitt 7.4) zu finden. In den Tabellen sind nur die Gesamtklassifikationsraten für jede Einstellung zu sehen. Die einzelnen Klassifikationsraten für jede Klasse sind im HTML-Dokument zu finden. Das Aussehen der Tabellen im Anhang entspricht den Tabellen im HTML-Dokument. Im Kopf einer jeden Tabelle ist in der 1. Spalte "Anzahl der Neuronen..", 2. Spalte "Tabelle1 ...", 3. Spalte "Tabelle2 ..." und eventuell 4. Spalte "Tabelle3 ... " zu finden. Im HTML-Dokument ist über die Links "Tabelle1", "Tabelle2" bzw. "Tabelle3" die jeweilige komplette Tabelle mit den Klassifikationsraten für jede einzelne Klasse zu finden. Außerdem kann man bei den Tabellen, die mit dem SOM-Simulator erzeugt wurden, die Neuronenaufteilung für jede Einstellung ablesen. Die Tabelle 7.9 konnte nur aus den Erkenntnissen dieser Tabellen mit den Klassifikationsraten der einzelnen Klassen erstellt werden. Da eine Optimierung der Neuronenaufteilung auf den Ergebnissen der Klassifikationsraten der einzelnen Klassen beruht.

Die Angaben zum Trainingsdatensatz, zur Anzahl der Epochen, Lernschrittweite, Nachbarschaftsradius und  sind unter der Tabelle zu finden. Eine Grafik zu jeder Tabelle zeigt die Klassifikationsrate in Abhängigkeit zur Anzahl der Neuronen.

Insgesamt wurden 16 Haupttabellen angelegt. Es wurden 8 Tabellen mit dem SOM-Simulator und 8 Tabellen mit dem LVQ-Simulator erzeugt. Diese 8 Tabellen wurden aus den vier Trainingsdatensätze (s. Abschnitt 5.1) mit je 2 Einstellungssätzen erstellt. Der erste Einstellungssatz erfolgt mit 8-100 oder 4-100 Neuronen in Vierer-Schritten. Der zweite Einstellungssatz wird mit 8-96 Neuronen mit einer Anzahlsteigerung von 8 Neuronen dargestellt. Die Einstellungssätze fallen für LVQ und SOM verschieden aus. Die Anzahl der Neuronen beläuft sich auf maximal 100 Neuronen, um eine weitere Spezialisierung des Netzes zu vermeiden.

Beim SOM werden nur 2 Einstellungen je Einstellungssatz untersucht. In der ersten Klassifikationsspalte ("Tabelle1") wird der 80/20 Test durchgeführt. In der 2.Spalte (Tabelle2) werden die 100/100 Tests durchgeführt. Beim 80/20 Test wird mit 80% der Trainingsdaten trainiert, mit den restlichen 20% wird ausschließlich klassifiziert. Wird der 80/20 Test mehrfach randomisiert wiederhohlt, erfüllt man die Bedingung der Hold-out-Methode, die aus der multivariablen Entscheidungsstatistik her bekannt ist /18/. Beim 100/100 Test werden die Trainingsdaten sowohl zum Trainieren als auch zum Klassifizieren verwendet. Beim Vergleich dieser beiden Einstellungen kann man herausfinden, ob das Netz ähnliche Ergebnisse auch bei noch nie "gesehenen" Daten erreicht. Man kann somit ausschließen, daß sehr gute Ergebnisse beim Klassifizieren auf der Spezialisierung des Netzes beruhen. Dieser Einstellungssatz wurde mit je 2 Tabellen je Trainingsdatensatz durchgeführt. Die erste Tabelle beschreibt SOM-Karten mit konstant 4 Neuronen in einer Richtung. In der anderen Richtung der SOM-Karte wird in jeder Zeile der Tabelle ein Neuron mehr genommen. Somit erhalte ich eine Tabelle mit 8-100 Neuronen in Vierer-Schritten. Die andere Tabelle wird mit SOM-Karten die konstant 8 Neuronen in eine Richtung haben berechnet. In der anderen Richtung der SOM-Karte wird in jeder Zeile der Tabelle ein Neuron mehr genommen. Somit erhalte ich eine Tabelle mit 16-96 Neuronen in Achter-Schritten. Diese Unterschiede in den Auflösungen sollen Auskunft über den Einfluß der Ausdehnung von SOM-Karten auf das Meßergebnis geben.

Mit dem LVQ-Simulator werden 2 bzw. 3 Einstellungen je Einstellungssatz untersucht. Der erste Einstellungssatz, mit 2 Einstellungen, wird für die Tabellen mit 4-100 Neuronen in Vierer-Schritten benutzt. Es wird immer die gleiche Anzahl von Neuronen einer Klasse zugewiesen. Diese Tabellen werden mit 400 Epochen berechnet. Die Initialisierung der Gewichte erfolgt gestreut um den Median herum, der klassenbezogen aus den Trainingsdaten ermittelt wird. Die erste Klassifikationsspalte "Tabelle1" wird mit der Einstellung "nur Anziehen" erstellt. Hier werden die Gewinnerneuronen ausschließlich zum Eingabevektor hingezogen, auch wenn die Gewinner nicht der vorgegebene Klasse zugeordnet sind. Diese Einstellung weicht nach Lernregel Gl. (4) vom LVQ1 ab. Mit dieser Einstellung kann nachgeprüft werden, ob die Initialisierung vor dem Training einen maßgeblichen Beitrag zur Trennnung der Klassen geleistet hat. Denn Neuronen unterschiedlicher Klassen mit großen Entfernungen zwischen den Klassenzentren werden nur Gewinnerneuron in unmittelbarer Nähe der Klassenzentren. Steigt die Klassifikationsrate während des Trainings mit der Option "nur Anziehen" kräftig, dann ist die klassenbezogene Medianinitialisierung gut anwendbar. Die 2. Klassifikationsspalte ("Tabelle2") wird nach dem LVQ1-Standard trainiert und mit dem 100/100 Test klassifiziert.

Der zweite Einstellungssatz, mit 3 Einstellungen, wird für die Tabellen mit 8-96 Neuronen in Achter-Schritten benutzt. Diese Tabellen werden mit 2000 Epochen berechnet. Die Initialisierung der Gewichte erfolgt ebenfalls mit dem Median. In der 1. Klassifikationsspalte stehen die Klassifikationswerte mit der Einstellung "nur Anziehen". Die Spalten 2. und 3. werden nach dem LVQ1-Standard bestimmt. Für die Erstellung der 2. Spalte wird ein 80/20 Test und für die 3. Spalte ein 100/100- Test durchgeführt.

Die Tabelle 7.9 wird nur mit dem Trainingsdatensatz "m39rel.g00" bestimmt. Die Anzahl der Epochen beträgt 400. Jeder Klasse wird eine unterschiedliche Anzahl von Neuronen fest zugeordnet, um bessere Klassifikationsraten zu erzielen. Die Initialisierung der Gewichte erfolgt randomisiert um den klassenbezogenen Median. Die beiden Klassifikationsspalten werden nach dem LVQ1-Standard errechnet. Für die Erstellung der 1. Klassifikationsspalten wird ein 80/20 Test und für die 2. Spalte ein 100/100- Test durchgeführt.

Aus den Tabellen 7.1 7.17 kann man ablesen, daß nach einer gewissen Anzahl von Neuronen keine wesentliche Verbesserung der Klassifikationsraten mehr erreicht wird. In den folgenden Abschnitten 5.3 und 5.4 möchte ich mich auf diese Punkte beschränken. Ich werde Tabellen mit folgenden Spalten in den folgenden beiden Abschnitten verwenden.
 
   
Einstellung
Tabelle Datensatz
Neuronen
K-Rate
Tabelle: Nummer der Tabelle aus dem Angang Abschnitt 7.4
Datensatz: Name des Datensatzes (Beschreibung im Abschnitt 5.1)
Einstellung: Verwendete Einstellung (Beschreibung Abschnitt 5.2)
Neuronen: minimale Anzahl der Neuronen mit der i.d.R. die durchschnittliche Klassifikationsrate erreicht wird
K-Rate: erreichte Klassifikationsrate (Durchschnitt)
 


5.3 Klassifikation der EEG-Mikrostates mit LVQ

 
   
Nur Anziehen 100/100 Test
LVQ1 - 100/100 Test
Tabelle Datensatz
Neuronen
K-Rate
Neuronen
K-Rate
m39abs
28-100
43%
52-100
72 %
m4abs
32-100
44%
20-100
55%
m39rel
60-100
80%
64-100
98%
m4rel
32-100
70%
52-100
88%
Tabelle 5.1 Klassifikationsraten mit 400 Epochen; gleiche Aufteilung der Neuronen auf die vier Klassen

 
 
   
Nur Anziehen 100/100 Test
LVQ1 - 80/20 Test
LVQ1 - 100/100 Test
Tabelle Datensatz
Neuronen
K-Rate
Neuronen
K-Rate
Neuronen
K-Rate
m39abs
40-96
45%
56-96
70%
48-96
73%
m4abs
56-96
45%
56-96
59%
56-96
60%
m39rel
64-96
78%
64-96
89%
72-96
97%
m4rel
40-96
70%
40-96
80%
48-96
89%
Tabelle 5.2 Klassifikationsraten mit 2000 Epochen; gleiche Aufteilung der Neuronen auf die vier Klassen

 
   
LVQ1 80/20 Test
LVQ1 - 100/100 Test
Tabelle Datensatz
Neuronen
K-Rate
Neuronen
K-Rate
m39rel
32-44
96%
32-44
97 %
Tabelle 5.3 Klassifikationsraten mit 400 Epochen; ungleiche Aufteilung der Neuronen auf die vier Klassen (siehe Tabelle 7.9)
 

Mit den Eingabevektoren aus dem Datensatz "m39rel.g00" können die besten Ergebnisse erzielt werden. Durch die Verwendung der relativen Power anstatt der absoluten Power kann eine Steigerung der Klassifikationsrate um 25% erreicht werden. Auch die Verwendung aller 39 Merkmale wirkt sich positiv auf die Klassifikationsraten aus. Mit der Tabelle 7.9 kann gezeigt werden, daß mit nur 32 Neuronen das Mikrostates-Problem sehr gut getrennt werden kann. Durch den gezielten Einsatz wird das 4 Klassenproblem mit den wenigen Neuronen sehr gut gelöst. Mit dem 80/20 Test wurde gezeigt, daß dabei keine Spezialisierung des Netzes vorliegt.


5.4 Klassifikation der EEG-Mikrostates mit SOM
 
   
SOM - 80/20 Test
SOM - 100/100 Test
Tabelle Datensatz
Neuronen
K-Rate
Neuronen
K-Rate
m39abs
72-100
66
72-100
70
m4abs
72-100
62
72-100
70
m39rel
68-100
93
68-100
97
m4rel
80-100
92
80-100
94
m39abs
72-96
68
72-96
70
m4abs
72-96
60
72-96
68
m39rel
72-96
97
72-96
98
m4rel
64-96
91
64-96
93
Tabelle 5.4 mit 400 Epochen

Mit dem SOM lassen sich die Mikrostates ebenfalls sehr gut trennen. Beim SOM werden die Trainingsdatensätze mit nur 4 Merkmalen deutlich besser klassifiziert als mit dem LVQ. Eine Spezialisierung des Netzes liegt auch nicht vor, da die Klassifikationsraten beim 80/20 Test nicht wesentlich von den Klassifikationsraten der 100/100 Tests abweichen. Eine so günstige Einstellung wie beim LVQ, der nur 32 Neuronen für eine 96%ige Klassifikationsrate benötigt, kann mit dem SOM nicht erreicht werden. Der Einfluß der Netzausdehnung spielt offensichtlich keine Rolle, wie an den Tabellen 7.12 und 7.16 zu sehen ist.


5.5 Resümee

Die relative Power führt zu deutlich besseren Klassifikationsergebnissen. Mit einer relativ großen Zahl von 100/100- und 80/20-Tests konnte das gezeigt werden. Mit dem LVQ kann schon mit wenigen Neuronen ein gutes Ergebnis erzielt werden, wenn die Neuronen gezielt für jede Klasse eingesetzt werden. Das entspricht den "Erkenntnissen" aus Kapitel 2, insbesondere der Abb. 2.15 (Bildauswertung). Je nach Komplexität der Trennfunktion, die neben der Komplexität der Punktmengen der Musterklassen auch von der Lagebeziehung der Musterklassen untereinander abhängt, sind unterschiedliche Anzahlen von Prototypvektoren, hier Gewichtsvektoren der Neuronen, vonnöten. Das entspricht dem allgemeinen Ansatz der Vektorquantisierung.

Der SOM- und LVQ- Algorithmus liefern bei den besten Klassifikationsraten etwa die gleichen Ergebnisse. Ergebnisse mit nur 4 Neuronen beim LVQ zeigen, daß die Klassen grundsätzlich trennbar sind. Mit 4 Merkmalen, die den 4 EEG-Bändern entsprechen, können ebenfalls gute Ergebnisse erreicht werden, wobei der SOM bessere Klassifikationsraten erreicht. Mit 39 Merkmalen können zwar die besten Ergebnisse erzielt werden, der Unterschied ist jedoch nicht groß. Das ist einerseits ein Hinweis darauf, daß die Komplexität von Klassifikationsproblemen mit der Dimensionalität hier nicht verbunden ist, und andererseits ein Hinweis, daß sich die spektrale Charakteristik der EEG-Mikrostates nicht entscheidend in der relativ feinkörnigen Skala von 0.5 Hz ändert, jedoch ausreichend kräftig in einer etwa 4 Hz-Skala ändert.
Eine Klassifikation der vier Klassen ist also mit den künstlichen Neuronalen Netzen sehr gut möglich. Bis zu 98 % der Daten können mit einem einfachen Netz mit etwa 40 Neuronen richtig klassifiziert werden. Auf die Anwendung der Frequenzbänder braucht nicht verzichtet zu werden, um dadurch eine deutliche Verbesserung der Klassifikationsraten zu erreichen.

 


Klassifikation der EEG-Mikrostates