up2date. Das Onlinemagazin der Universtiät Bremen

Kommunikation? Funktioniert auch ohne Mund, Hände und Füße!

An der Universität Bremen wird an Sprachsystemen geforscht, die Menschen beim Kommunizieren helfen

Der (Astro-)Physiker Stephen Hawking, wahrscheinlich der bekannteste Mensch mit Amyotropher Lateralsklerose (ALS), verlor nach einem operativen Eingriff seine Sprechfähigkeit komplett. Solange er seine Hände noch bewegen konnte, wählte er mithilfe eines Sprachcomputers Buchstaben, Wörter oder ganze Satzteile aus einer Datenbank aus, die der Computer dann für ihn „aussprach“. Als er auch seine Hand nicht mehr kontrollieren konnte, steuerte er seinen Sprachcomputer stattdessen mit einem Infrarot-Sensor, der die Muskelaktivität in seiner Wange registrierte. Auch das Cognitive Systems Lab der Universität Bremen forscht an Sprachsystemen, die Menschen beim Kommunizieren helfen oder dies gar erst ermöglichen können.

Obwohl Hawking seine Wangensteuerung immer die liebste blieb, experimentierte er auch mit anderen Technologien, wie zum Beispiel der Steuerung seines Sprachcomputers mithilfe von Gehirnaktivität. Denn Ansätze dazu gibt es schon lange. Sie werden Gehirn-Computer-Schnittstellen genannt, im Englischen Brain-Computer Interfaces (BCIs). Hinter diesem Begriff stehen verschiedene Methoden mit etlichen Anwendungsbereichen. Dazu gehören neben dem Buchstabieren die Steuerung von Prothesen und Rollstühlen, das Navigieren eines Cursors auf dem Bildschirm und vieles mehr.

Sprachsysteme können den Menschen das Kommunizieren vereinfachen oder überhaupt erst ermöglichen

In diesem Artikel bleiben wir allerdings bei Sprachsystemen, die Menschen das Kommunizieren vereinfachen oder überhaupt erst ermöglichen sollen. Helfen kann solch eine Technik nicht nur Menschen mit ALS wie Hawking, die durch den schrittweisen Verlust von Muskeln aktivierenden Nervenzellen unter immer ausgeprägteren Lähmungserscheinungen leiden, bis sie nicht mehr sprechen und letztlich nicht mehr atmen können. Auch beispielsweise nach Schlaganfällen in bestimmten Hirnregionen kann eine fast vollständige oder vollständige Lähmung eintreten, aufgrund derer PatientInnen sich nicht bemerkbar machen können – das sogenannte Gefangenheitssyndrom.

Um diesen Gruppen Kommunikation zu ermöglichen, wird an entsprechenden mobilen Techniken und Methoden geforscht. Eine Technik, die in den allermeisten Ansätzen genutzt wird, ist das EEG (Elektroenzephalographie). Dabei wird mit Elektroden, die mit einer Kappe auf dem Kopf befestigt werden, die elektrische Aktivität der Nervenzellen in der äußeren Schicht des Gehirns (dem Kortex, deutsch: Großhirnrinde) gemessen. Das liefert zwar nicht so genaue Signale wie Systeme, die ins Hirn implantiert werden, kann dafür aber einfacher angewendet werden und ist nebenbei günstiger als viele andere Techniken. Aber während die Messtechnik in vielen Fällen dieselbe ist, sind die verwendeten EEG-Signale und Auswertungsmethoden vielfältig.

Positiver Ausschlag, wenn man an das „M“ denkt

Signale, die früh als hilfreich erkannt wurden und immer noch oft zu Hilfe genommen werden, sind Ereigniskorrelierte Potenziale (EKPs), die, wie ihr Name schon verrät, in Verbindung mit einem bestimmten Ereignis stehen. Eins der deutlichsten und deshalb am häufigsten verwendeten EKPs ist das sogenannte P300: P kennzeichnet einen positiven Ausschlag im EEG, 300 gibt die ungefähre Zeit des Auftretens des EKPs nach dem Ereignis an (in Millisekunden). Das P300 tritt grob gesagt immer dann auf, wenn das Gehirn einen besonderen Reiz entdeckt – zum Beispiel, wenn in einer Serie von gleichen, hohen Tönen plötzlich ein tiefer Ton auftaucht (siehe Grillon, C., Courchesne, E., Ameli, R., Elmasian, R., & Braff, D. (1990)). Oder wenn ihr in einer Sequenz auf einen für euch wichtigen Reiz achtet. Stellt euch zum Beispiel vor, ihr wollt ein „M“ schreiben. Wenn euch dann nacheinander jeder Buchstabe des Alphabets gezeigt wird, wird euer Gehirn auf das für euch relevante ‘M’ anders reagieren als auf die vielen anderen, unwichtigen Buchstaben. Und dieses Signal lässt sich mit dem EEG aufnehmen. Leider müssen sogar beim P300 etliche Wiederholungen durchlaufen werden, um das EKP herauszufiltern, obwohl es eins der stärksten EKPs ist.

Da diese Methode sehr lange brauchen würde, um einen Buchstaben auszuwählen, wurde die Raster-Methode entwickelt. Dabei wird den Nutzenden in sehr schneller Abfolge eine ganze Buchstabenreihe nach der anderen, dann eine ganze Spalte nach der anderen gezeigt. Jedes Mal, wenn die präsentierte Reihe oder Spalte den gewünschten Buchstaben enthält, entsteht ein P300, durch die Kombination von Reihe und Spalte ermittelt man dann den ausgewählten Buchstaben (siehe Farwell, L. A. & Donchin, E. (1988)). Diese Methode identifiziert den Buchstaben deutlich schneller.


© VU University Amsterdam

Ein anderes EEG-Signal, das in den vergangenen Jahren immer mehr Aufmerksamkeit erhalten hat – weil es ermöglichte, viel schneller zu buchstabieren – ist das Visuell Evozierte Potential (VEP). Hinter diesem komplizierten Begriff versteckt sich ein einfaches Phänomen: die Reaktion des Bereichs im Gehirn, der Gesehenes verarbeitet (der visuelle Kortex, deutsch: Sehrinde), auf einen flackernden visuellen Reiz. Konkret werden hier vor allem frequenz-modulierte VEP (fVEP, meist steady-state VEP – SSVEP – genannt) und code-modulierte VEP (cVEP) unterschieden.

Das Cognitive Systems Lab forscht zu steady-state VEPs

SSVEPs werden durch ein gleichmäßiges Flackern zwischen zwei Farben, schwarz oder weiß ausgelöst. Der visuelle Kortex übernimmt dabei die Frequenz des Flackerns. Wenn jetzt jedem Buchstaben eine andere Frequenz zugewiesen wird, ist es einfach, aus dem EEG-Signal den richtigen Buchstaben auszulesen. Zu SSVEPs wird zum Beispiel im Cognitive Systems Lab der Uni Bremen geforscht.

Die Schwierigkeit für Brain-Computer Interfaces bei diesem Ansatz ist, dass einige Faktoren die Anzahl der Buchstaben einschränken, die zur selben Zeit angezeigt und unterschieden werden können. Denn zusätzlich zur eingesetzten Flacker-Frequenz können auch ganzzahlige Vielfache dieser Frequenz im visuellen Kortex generiert werden, also z.B. zusätzlich zu 5 Hz auch 10 Hz (siehe Bin, G., Gao, X., Wang, Y., Hong, B., & Gao, S. (2009)). Setzt man also 5 Hz und 10 Hz als Flacker-Frequenzen ein, können beide im Gehirn eine Frequenz von 10 Hz auslösen. Daher sollten die Frequenzen, die in einem SSVEP-basierten BCI verwendet werden, keine ganzzahligen Vielfachen voneinander sein. Gleichzeitig sollten die Frequenzen weit genug auseinander liegen, um sie mit Sicherheit voneinander unterscheiden zu können: 5 und 5,1 Hz wären zum Beispiel wahrscheinlich durch Ungenauigkeiten der Messung recht schwierig auseinanderzuhalten (siehe İşcan, Z. & Nikulin, V. V. (2018)).


© Nikolay Chumerin

Hier kommt das cVEP ins Spiel: Dabei wird eine sogenannte m-Sequenz als Flacker-Stimulus genutzt. Eine m-Sequenz ist eine Bit-Sequenz (also eine Reihe von Einsen und Nullen), die die interessante Eigenschaft hat, dass sie nur minimal mit ihren zirkulär verschobenen Versionen korreliert. Um das zu erklären, ist in der folgenden Abbildung eine einfache Bit-Sequenz visualisiert, die keine m-Sequenz ist. Die weißen Felder symbolisieren Einsen, die schwarzen Felder Nullen. Einsen und Nullen in der Sequenz wechseln sich ab. Wird diese Sequenz um zwei Felder nach rechts verschoben und die überstehenden Felder an den Anfang gestellt (Schritt 2), sieht die Sequenz wieder haargenau aus wie das Original, die Korrelation ist maximal. Würden wir den Buchstaben A mit der Originalsequenz flackern lassen und den Buchstaben B mit der Sequenz nach Schritt 2, könnten wir die Buchstaben nicht auseinanderhalten. Dieses Beispiel ist also keine geeignete Bit-Sequenz.

Abbildung 1
Universität Bremen

Bei einer m-Sequenz hingegen könnt ihr die Sequenz immer weiter verschieben. Erst wenn ihr zur Ausgangsposition zurückkehrt, gleicht sich das Muster aus weiß und schwarz wieder, wie in der folgenden Darstellung der Verschiebungen einer 15-Bit Sequenz. Diese Eigenschaft kann man für BCI-Buchstabierende derart ausnutzen, dass dem Buchstaben „A“ die originale m-Sequenz zugeordnet und diese dann für jeden weiteren Buchstaben verschoben wird. So hat jeder Buchstabe seine „ganz eigene“ Flacker-Sequenz.

Abbildung 2
Universität Bremen

Um sicherzugehen, dass die Sequenz auch wirklich dem richtigen Buchstaben zugeordnet werden kann, verschiebt man die Originalsequenz jeweils um drei bis vier Positionen (also bei 60 Hz um ca. 0.05 s). Wenn der visuelle Kortex oder die Technik also mal nicht absolut akkurat arbeiten, wird nicht gleich der falsche Buchstabe ausgewählt.

Welcher Buchstabe geschrieben werden soll, wird dann mit einem Schablonenabgleich ermittelt. Dafür wird erst einmal eine Trainingsphase absolviert, in der den Nutzenden die m-Sequenz etliche Male vorgespielt wird. Aus den EEG-Daten, die währenddessen erhoben werden, kann dann durch Mittelung der Durchläufe und ein spezielles statistisches Verfahren eine Schablone erstellt werden, welche das erwartete EEG-Signal abbildet. Beim anschließenden Buchstabieren werden die gemessenen EEG-Daten einfach mit der Schablone abgeglichen. Genau wie die m-Sequenz wird auch die Schablone verschoben, um zu ermitteln, bei welcher Verschiebung die Schablone am besten auf die Daten passt. Und siehe da – der zur am besten passenden Verschiebung gehörige Buchstabe ist (wahrscheinlich) der ausgewählte Buchstabe.

Bei Versuchen erreichte die Autorin dieses Textes Trefferquoten von 70 bis 90 Prozent.
© lassedesignen / AdobeStock

Während eines Praktikums im Fachbereich Neuropsychologie und Verhaltensneurobiologie habe ich genau diese Methode (anhand einer Studie von Başaklar, T., Tuncel, Y., & Ider, Y. Z. (2019)) implementiert und getestet. Den Versuchspersonen wurden dabei 25 Buchstaben (also A-Y) gezeigt. Als ich nach den Messungen die Daten analysierte, dachte ich dann „Wow!“. Im Schnitt lag die Trefferquote meiner sechs Versuchspersonen bei ca. 70 Prozent richtig ermittelten aus 80 geschriebenen Buchstaben. Die Hälfte aller Versuchspersonen erzielte sogar Trefferquoten von über 80 Prozent, teilweise sogar über 90 Prozent – und das mit weniger als zwei Sekunden Daten pro Buchstabe!

Der Nachteil des cVEP gegenüber SSVEP ist, dass für alle Nutzenden eine Trainingsphase durchgeführt werden muss, um die Schablone zu erstellen. Zusätzlich muss immer zu Beginn eines Durchlaufs der m-Sequenz ein Zeitstempel erstellt werden, da wir sonst nicht wüssten, ob die Schablone gar nicht („A“) oder zum Beispiel zweimal („C“) verschoben werden muss. Das macht den Aufbau für ein cVEP-basiertes BCI ein wenig komplexer.

Wie können BCIs mobiler und kostengünstiger gestaltet werden?

Bis diese Methoden in die Praxis umgesetzt werden, muss (neben vielen anderen Fragen) allerdings noch geklärt werden, wie BCIs mobiler und kostengünstiger gestaltet werden können als in den meisten Studien derzeit praktiziert. Denn nur weil ich mittels meiner Gehirnströme kommunizieren möchte, bedeutet das nicht, dass ich immer einen Desktop-Computer, eine EEG-Kappe inklusive all der Kabelage und das restliche EEG-Equipment mit mir herumtragen möchte. Kabellose Alternativen zur herkömmlichen EEG-Kappe existieren allerdings bereits.

Bisher ist auch noch nicht geklärt, ob die vorgestellten VEP-basierten BCIs für vollständig gelähmte Patientinnen und Patienten nutzbar sein werden. Denn dafür muss der auszuwählende Buchstabe fixiert werden. Für vollständig Gelähmte, die nicht einmal mehr ihre Augen bewegen können, ist das natürlich nicht möglich. Reicht es also vielleicht, nur die Aufmerksamkeit auf den jeweiligen Buchstaben zu richten, die Buchstaben also nur „aus dem Augenwinkel” zu beobachten? Bisher wurde das nur unzureichend untersucht. Wahrscheinlich ist, dass für unterschiedliche Nutzende und Anwendungsbereiche verschiedene Techniken und Methoden zum Einsatz kommen werden, um den Anwendenden optimal zu dienen.

Klar ist: Mit Gedankenlesen hat das alles wenig zu tun

Klar ist jedoch: Mit Gedankenlesen hat das alles wenig zu tun. Mit cleveren neurowissenschaftlichen, technischen, mathematischen und experimentellen Tricks und Erkenntnissen können wir dem Gehirn einige Informationen entlocken. Aber dazu müssen die Nutzenden in aller Regel mitspielen. Wie vollständige Gedanken, wie wir sie ständig erleben, auf neuronaler Ebene entstehen und entschlüsselt werden können, davon haben wir nach wie vor kaum eine Idee ….

Übrigens: Ebenfalls im großen Bereich der Neurotechnologie angesiedelt und extrem spannend ist das Projekt „I-See“, das visuelle Prothesen für Blinde entwickelt und von der Abteilung Theoretische Neurophysik der Universität Bremen koordiniert wird.

Der Artikel stammt aus dem MINT Science Blog

Der MINT Science Blog der Universität Bremen erklärt einem breiten Publikum anspruchsvolle Forschungsthemen. Studierende und Nachwuchsforschende wollen dort komplexe Sachverhalte allgemeinverständlich darstellen. Anfang 2021 war das Redaktionsteam in der MINTchallenge erfolgreich. In dem Wettbewerb des Stifterverbands für die Deutsche Wissenschaft überzeugte es die Jury mit seinem Blog und belegte den 3. Platz. Mehr zur MINTChallenge. Weitere Eindrücke und Hinweise auf neue Artikel gibt es auf der Instagram-Seite des Science Blogs @scienceblog_unibremen.

zurück back


Auch interessant…

Universität Bremen