Gehirnbilder zeigen, wie Lernstrategien funktionieren

Die Aktualisierung ist notwendig, damit wir angesichts einer sich ändernden Umgebung genaue Vorhersagen über diese Belohnungen treffen können.
Obwohl unklar bleibt, wie genau das Gehirn diesen Prozess koordiniert, legt die neue Studie nahe, dass eine Kombination aus zwei unterschiedlichen Lernstrategien unser Verhalten steuert.
Ein Artikel über die Arbeit erscheint im Journal Neuron.
Eine akzeptierte Lernstrategie, die als modellfreies Lernen bezeichnet wird, basiert auf Vergleichen zwischen Versuch und Irrtum zwischen der Belohnung, die wir in einer bestimmten Situation erwarten, und der Belohnung, die wir tatsächlich erhalten.
Das Ergebnis dieses Vergleichs ist die Erzeugung eines "Belohnungsvorhersagefehlers", der diesem Unterschied entspricht.
Beispielsweise könnte ein Belohnungsvorhersagefehler der Differenz zwischen der prognostizierten Geldrendite einer Finanzinvestition und unserem realen Gewinn entsprechen.
Beim zweiten Mechanismus, der als modellbasiertes Lernen bezeichnet wird, generiert das Gehirn eine kognitive Karte der Umgebung, die die Beziehung zwischen verschiedenen Situationen beschreibt.
„Modellbasiertes Lernen ist mit der Erzeugung eines‚ Zustandsvorhersagefehlers 'verbunden, der angesichts der aktuellen Einschätzung der Umwelt die Überraschung des Gehirns in einer neuen Situation darstellt “, sagt Jan Gläscher, Postdoktorand bei Caltech und Leiter Autor der Studie.
„Denken Sie an eine Situation, in der Sie nach der Arbeit immer den gleichen Weg nehmen, wenn Sie nach Hause fahren, aber an einem bestimmten Tag der übliche Weg aufgrund von Bauarbeiten blockiert ist“, sagt Gläscher.
„Ein modellfreies Lernsystem würde hilflos verloren gehen. Es geht nur darum, Maßnahmen zu ergreifen, die sich in der Vergangenheit gelohnt haben. Wenn diese Maßnahmen nicht mehr verfügbar sind, kann das Unternehmen nicht entscheiden, wohin es als Nächstes gehen soll.
"Ein modellbasiertes System wäre jedoch in der Lage, seine kognitive Karte abzufragen und einen effizienten Umweg über eine alternative Route zu finden."
„Obwohl der einfachere modellfreie Lernmechanismus gut untersucht wurde und sein grundlegender Lernmechanismus - der auf Belohnungsvorhersagefehlern beruht - relativ gut verstanden ist, sind die Mechanismen, die dem komplexeren modellbasierten Lernsystem zugrunde liegen, mit seiner umfassenden Anpassungsfähigkeit und Flexibilität sind weniger gut verstanden “, sagt John P. O'Doherty, Professor für Psychologie an der Caltech.
Um die neurologischen Grundlagen dieser beiden Lernsysteme weiter zu charakterisieren, entwickelten Gläscher, O'Doherty und ihre Kollegen eine computergestützte Entscheidungsaufgabe, mit der sie messen konnten, wann und wo das Gehirn sowohl Belohnungs- als auch Zustandsvorhersagefehlersignale berechnet um festzustellen, ob die beiden Fehlertypen tatsächlich unterschiedliche neuronale Signaturen erzeugen.
Bei der Aufgabe mussten die Probanden zwischen einer linken und einer rechten Bewegung wählen, die es ihnen ermöglichten, in einer virtuellen Umgebung zwischen verschiedenen „Zuständen“ zu wechseln, die durch grafische Symbole gekennzeichnet sind. Der Vorgang ähnelt dem Navigieren in einem einfachen Videospiel.
Jede in dieser virtuellen Umgebung getroffene Wahl nach links oder rechts führte das Thema in einen neuen Zustand. Ihr Ziel war es, einen bestimmten Zielzustand zu erreichen, um eine finanzielle Belohnung zu erhalten, "und ihre Chancen, in diesen Zielzustand zu gelangen, hingen stark von dem bestimmten Muster der von ihnen getroffenen aufeinanderfolgenden Entscheidungen ab", erklärt O’Doherty.
Ein modellbasiertes System kann die Struktur der virtuellen Umgebung kennenlernen und diese Informationen dann verwenden, um die Aktionen zu berechnen, die erforderlich sind, um zum Belohnungsstatus zu gelangen, analog dazu, wie ein Schachspieler versuchen könnte, die erforderlichen sequentiellen Schachzüge zu durchdenken ein Match gewinnen.
Ein modellfreies System hingegen würde nur lernen, blind die Aktionen auszuwählen, die in der Vergangenheit belohnt wurden, ohne die Konsequenzen in der aktuellen Situation zu bewerten.
Achtzehn Teilnehmer wurden mit funktioneller Magnetresonanztomographie gescannt, als sie die Aufgabe lernten. Die Gehirnscans zeigten die charakteristische, zuvor charakterisierte neuronale Signatur des Belohnungsvorhersagefehlers, der während des modellfreien Lernens in einem Bereich in der Mitte des Gehirns erzeugt wurde, der als ventrales Striatum bezeichnet wird.
Während des modellbasierten Lernens trat jedoch die neuronale Signatur eines Zustandsvorhersagefehlers in zwei verschiedenen Bereichen auf der Oberfläche des Gehirns in der Großhirnrinde auf: im intraparietalen Sulkus und im lateralen präfrontalen Kortex.
Diese Beobachtungen legen nahe, dass zwei einzigartige Arten von Fehlersignalen im menschlichen Gehirn berechnet werden, in verschiedenen Hirnregionen auftreten und separate Berechnungsstrategien für das Führungsverhalten darstellen können.
„Ein modellfreies System arbeitet sehr effektiv in Situationen, die stark automatisiert sind und sich wiederholen - zum Beispiel, wenn ich regelmäßig denselben Weg von der Arbeit nach Hause nehme“, sagt Gläscher, „während ein modellbasiertes System viel mehr Gehirn erfordert. Die Rechenleistung kann sich flexibel an neue Situationen anpassen, z. B. die Notwendigkeit, nach einer Straßensperre eine neue Route zu finden. “
Diese beiden unterschiedlichen Lernmechanismen spielen eine komplementäre Rolle bei der Kontrolle des menschlichen Verhaltens, sagt Gläscher.
„Da die Verarbeitungsleistung unseres Gehirns begrenzt ist, ist es nicht sinnvoll, das rechenintensivere modellbasierte System zur Steuerung unserer Aktivitäten einzusetzen. Stattdessen ist es besser, sich für einen Großteil unseres täglichen Verhaltens auf das modellfreie System zu verlassen und das modellbasierte System nur für neue oder komplexe Situationen zu verwenden. Ein wichtiger Bereich für die weitere Forschung wird sein, zu versuchen, die Faktoren zu verstehen, die bestimmen, wie diese Systeme zusammenwirken, um das Verhalten zu steuern, und zu bestimmen, wie dies im Gehirn implementiert wird. “
Quelle: California Institute of Technology