Montag, 2. Juni 2025

Weltmodellbau.

aus spektrum.de, 2. 6. 2025                                                                        zu Jochen Ebmeiers Realien
 
Wie das Gehirn die Welt modelliert und warum das Maschinen noch schwerfällt

Stell dir vor, du betrittst das erste Mal eine unbekannte Wohnung. Du blickst in einen langen Flur, eine offene Tür zeigt dir ein Raum, der vermutlich die Küche ist. Weitere Türen führen in andere Zimmer. Ohne groß nachzudenken, bekommst du ein Gefühl für den Raum und wie alles zusammenhängen könnte. Scheinbar mühelos hat dein Gehirn dir schon ein inneres Modell deiner Umgebung erstellt, samt möglicher Zusammenhänge, die sich aber auch noch verändern könnten. Eben diese Fähigkeit, blitzschnell solch innere Repräsentationen zu schaffen, ist für Maschinen bis dato eine der größten Herausforderungen.

Während wir ohne weiteres Muster erkennen und unser Wissen auf neue Situationen übertragen können, scheitern Maschinen oft schon daran, wenn ein Stuhl verrückt wurde. Doch warum ist das so? Was macht unser Gehirn anders oder eben besser? Ein Ansatz dies zu verstehen, führt uns zum Konzept des Weltmodells, das in der Neurowissenschaft und der KI-Forschung eine Rolle spielt.

Was ist ein Weltmodell und wozu brauchen wir es?

Ein Weltmodell ist eine Art inneres Abbild der Welt – ein mentales Konstrukt, das uns hilft, uns zu orientieren, zu planen, Vorhersagen zu treffen und zu lernen. Es beschreibt nicht nur, was ist, sondern auch wie die Dinge miteinander zusammenhängen. [3]

Wenn ich diesen Weg gehe, komme ich bestimmt zur Küche. Drücke ich diesen Knopf, kommt der Fahrstuhl. Wenn ich nicht auf meine Finger aufpasse, könnte ich mich schneiden.

Psychologie und Neurowissenschaft nehmen an, dass solche Weltmodelle zentral sind für unser „Alltagswissen“ – das, was wir oft gesunden Menschenverstand nennen. Künstliche Intelligenz hingegen, so weit fortgeschritten sie inzwischen auch sein mag, besitzt kein echtes Weltmodell in diesem Sinne. Viele KI-Systeme funktionieren hervorragend in engen, genau definierten Bereichen, sind aber erstaunlich schlecht darin, mit unvorhergesehen Situationen umzugehen. [3]

Kein gesunder Menschenverstand

Schauen wir uns zum Beispiel selbstfahrende Autos an: Auf bestimmten Strecken können sie bereits sicher und zuverlässig navigieren. Allerdings nur, solange alles läuft wie geplant. Sobald jedoch nur eine kleine Baustelle als Hindernis auftaucht, ein Fußgänger sich unerwartet verhält oder eine Straße einfach nicht perfekt kartiert ist, sind sie auf menschliche Hilfe angewiesen.

Der Grund: Die meisten KI-Systeme erkennen Muster, sie können sie allerdings nicht verstehen. Sie wissen nicht, warum diese Muster entstehen. Maschinen besitzen keine kausale Vorstellung der Welt, kein inneres Modell davon, wie Dinge miteinander verbunden sind. Forschende sprechen daher von einem Mangel an Common Sense – also gesundem Menschenverstand – , den Menschen schon im Kindesalter entwickeln. [3]

Wie baut unser Gehirn solche Weltmodelle?

Um zu verstehen, wie wir in unserem Kopf ein inneres Modell der Welt erschaffen, ist es hilfreich, sich mit dem stochastischen Konzept des Hidden Markov Models, kurz HMM, zu befassen.

Ein Hidden Markov Model ist ein mathematisches Modell, das uns ermöglicht, etwas Unsichtbares aus etwas Sichtbarem zu erschließen. Es nimmt an, dass es „Zustände“ gibt, die wir nicht direkt beobachten können, aber die sich in bestimmten Mustern zeigen, die wir sehr wohl sehen – also Beobachtungen. [2]

Ein einfaches Beispiel für Hidden Markov Modelle

Du überlegst morgens, was du anziehst. Lieber der warme Pullover oder reicht ein leichteres Oberteil schon? Du kannst zwar nicht direkt sehen, wie das Wetter und die Temperatur draußen sind. Aber als du aus dem Fenster schaust, kannst du ein paar hilfreiche Hinweise entdecken. Da läuft eine Frau mit Rollkragenpullover und ein Kind hat sogar noch eine leichte Daunenjacke an. Du folgerst daraus: draußen ist es frisch. Der wahre Zustand („Es ist kalt“) ist also verborgen, aber deine Beobachtungen lassen Rückschlüsse auf diesen zu.

Ähnlich funktioniert ein HMM: Es versucht aus beobachtbaren Daten auf unsichtbare Zustände zu schließen und daraus zu lernen, wie die Welt funktioniert. Dabei berücksichtigt es vor allem zwei Dinge: Wie wahrscheinlich ist es, dass ein Zustand in einen anderen übergeht? (Wird es heute nochmal wärmer?) Und wie wahrscheinlich ist eine Beobachtung in einem bestimmten Zustand? (Dicke Pullover trägt man eher, wenn es kalt ist.) Solche Modelle lassen sich gut mit ausreichend Daten trainieren, sie lernen also aus Erfahrung. Das funktioniert aber nur gut, solange die modellierte Welt überschaubar ist. [2]

Einfache Modelle stoßen schnell an ihre Grenzen

Die Realität ist in der Regel nicht so eindeutig aufgebaut, wie in unserem Wetterbeispiel. Was passiert zum Beispiel, wenn etwas mehrdeutig ist? Oder wenn eine Beobachtung nur dann Sinn ergibt oder gedeutet werden kann, wenn man weiß, was vorher passiert ist?

Gehen wir zurück zum Beispiel der unbekannten Wohnung. Nehmen wir an du gehst in einen Raum und siehst eine Tür. Ob dahinter das Schlafzimmer oder doch das Bad liegt, hängt davon ab, von wo du gerade kommst. Maschinen, die rein nach dem aktuellen Bild urteilen, können das nicht bestimmen – ihnen fehlt der Kontext. In vielen Situationen sind die eigenen Handlungen entscheidend dafür, was als Nächstes passiert. Auch das muss ein lernendes System berücksichtigen. Diese Herausforderungen lassen sich mit einem normalen HMM kaum lösen.

Auch wichtig: klassischen Modellen wie den HMMs fehlt die Fähigkeit zur Generalisierung. Menschen können aus wenigen Beispielen wesentliche Eigenschaften abstrahieren und ihr Wissen flexibel auf neue Situationen übertragen. Wenn du einmal verstanden hast, wie eine Wohnung typischerweise aufgebaut ist, woraus sie besteht („Schlafzimmer, Küche, Bad“), kannst du dieses Wissen auf andere Wohnungen übertragen, auch wenn diese ganz anders aussehen. Maschinen lernen hingegen meist sehr spezifisch. Sie erkennen genau das, was sie zu erkennen trainiert wurden. Schon kleine Abweichungen können sie allerdings aus dem Konzept bringen. Wie oft hat der Pfandautomat bei dir schon eine Flasche erst nach dem dritten Mal richtig erkannt, als du sie endlich in die perfekte Position gelegt hast?

Generalisierung heißt, das Wesentliche vom Unwesentlichen zu unterscheiden und Gelerntes in neuen Kontexten anzuwenden. Eben das können klassische HMMs nur sehr eingeschränkt leisten. Deshalb wurde das Modell der Cloned Structured Cognitive Graphs (CSCGs) entwickelt. [1]

Cloned Structured Cognitive Graphs (CSCGs)

CSCGs sind Lernmodelle, die die Struktur der Welt als Netzwerk verstehen. Sie sind wie ein innerer Stadtplan aus Erfahrungen – mit Orten, möglichen Wegen, Verzweigungen und Erinnerungen an frühere Routen. Der Plan wird aus eigenen Erfahrungen zusammengesetzt. CSCGs nutzen hierfür drei entscheidende Komponenten:

  1. Einfachere Beobachtungen:
    Jeder Zustand führt zu genau einer Beobachtung – das macht das Lernen stabiler.
  2. Cloning von Zuständen:
    Derselbe äußere Eindruck kann je nach Kontext etwas anderes bedeuten. Deshalb erlauben CSCGs, dass mehrere Zustände dieselbe Beobachtung erzeugen können – so wie ein Flur an mehreren Stellen gleich aussieht, aber nicht derselbe ist. Maschinen können so lernen, Sequenzen zu unterscheiden, auch wenn einzelne Elemente identisch sind.
  3. Integration von Handlungen:
    In der echten Welt handeln wir ständig – wir bewegen uns, greifen nach Dingen, drücken Knöpfe. Diese Aktionen verändern, was wir als Nächstes erleben. CSCGs lernen nicht nur, wie Zustände zusammenhängen, sondern auch, wie Handlungen Übergänge erzeugen.

Was können wir daraus lernen?

CSCGs bilden auf diese Weise ein Netzwerk, das aus Erfahrung aktiv wächst, ein bisschen so wie Kinder sich ihre Umwelt Schritt für Schritt erschließen und ein Modell dieser zusammensetzen. Gerade weil CSCGs derartig strukturiert lernen, ähneln sie dem, was im Hirn beobachten können: Erfahrungen, die als verknüpfte Zustände organisiert sind und nicht als bloße Datenhaufen. [1]

Ein Beispiel dafür findet sich im Hippocampus. Diese Region des Hirns, die besonders für Lernen und Gedächtnis zuständig ist, beherbergt unter anderem sogenannte Place Cells. Diese Nervenzellen werden aktiv, wenn wir einen bestimmten Ort betreten oder durchqueren. Sie bilden eine Art mentale Landkarte, die entscheidend ist für die räumliche Orientierung. Das bewerkstelligen die Place Cells, indem sie in einer spezifischen Reihenfolge feuern, je nach Position und Kontext. Dadurch ergibt sich ein Netzwerk, das wie ein neuronales Navigationssystem fungiert [4].

Funfact: Der Hippocampus heißt so, weil seine Form der von Seepferdchen ähnelt.

CSCGs verhalten sich beim Lernen ähnlich: Auch hier entstehen wiedererkennbare Aktivitätsmuster, die zum Beispiel Orten, Handlungen, Übergängen zugeordnet werden können. Natürlich sind die Prozesse im Hippocampus in Wahrheit noch etwas komplexer und es sind außerdem noch andere Zellen als nur die Place Cells beteiligt. Es stellen allerdings mehr und mehr Studien fest, dass die Dynamiken, die beim Lernen im Hippocampus ablaufen, sich durch CSCGs so gut wie noch nie modellieren lassen. [5]

Lernen wie unser Hirn lernt

Was vielen Modellen fehlt, ist nämlich ein echtes Verständnis davon, wie Dinge zusammenhängen, nicht nur statistisch, sondern als Bedeutung im Kontext. Durch CSCGs könnten Maschinen womöglich nicht nur lernen was, sondern auch warum etwas passiert. Damit kommen sie der Art und Weise näher, wie unser Gehirn kausale Strukturen und Handlungsketten bildet. So können sie nicht nur KI-Systeme inspirieren, sondern uns auch helfen besser zu verstehen, wie unser Gehirn selbst lernt und plant. Mithilfe von CSCGs könnten auch zu diesem Zweck Testmodelle entwickelt werden, die uns Prozesse unseres Gehirns genauer untersuchen lassen.

In der aktuellen KI-Forschung wird daher intensiv daran gearbeitet, solche Modelle mit neuronalen Netzwerken zu verbinden. Das Ziel: Systeme schaffen, die nicht nur reagieren, sondern verstehen. Wie Komponenten zusammenhängen, wie Ursache und Wirkung funktionieren und warum Entscheidungen sinnvoll sind. Letztlich können wir so nicht nur Maschinen verbessern, sondern die Modelle auch nutzen, um unsere eigenen kognitiven Prozesse besser zu verstehen.

Quellen

[1] George, D., Rikhye, R. V., Gothoskar, N., Guntupalli, J. S., Dedieu, A. & Lázaro-Gredilla, M. (2021). Clone-structured graph representations enable flexible learning and vicarious evaluation of cognitive maps. Nature Communications, 12(1). https://doi.org/10.1038/s41467-021-22559-5

[2] Jurafsky, D. & Martin, J. H. (2025). Speech and Language Processing. https://web.stanford.edu/~jurafsky/slp3/A.pdf

[3] Lake, B. M., Ullman, T. D., Tenenbaum, J. B. & Gershman, S. J. (2016). Building machines that learn and think like people. Behavioral And Brain Sciences, 40. https://doi.org/10.1017/s0140525x16001837

[4] Raju, R. V., Guntupalli, J. S., Zhou, G., Wendelken, C., Lázaro-Gredilla, M. & George, D. (2024). Space is a latent sequence: A theory of the hippocampus. Science Advances, 10(31). https://doi.org/10.1126/sciadv.adm8470

[5] Sun, W., Winnubst, J., Natrajan, M., Lai, C., Kajikawa, K., Bast, A., Michaelos, M., Gattoni, R., Stringer, C., Flickinger, D., Fitzgerald, J. E., & Spruston, N. (2025). Learning produces an orthogonalized state machine in the hippocampus. Nature640(8057), 165–175. https://doi.org/10.1038/s41586-024-08548-w

[6] Andrei Markow (1856–1922). (2016, 31. Mai). spektrum.de. https://www.spektrum.de/wissen/andrei-markow-1856-1922/1411967

Nota. - Der springende Punkt ist: Den Menschen steht die Welt nicht als ein starres Schema gegenüben, sondern er lebt darin. Mag man das Schema auch so konstruie-ren, dass es sich artikulieren lässt - die wirkliche Welt aber ist selber agil, sie wirkt, als ob sie mit Willkür tätig ist. Und der Mensch ist nicht nur damit beschäftigt, sie zu artikulieren, sondern muss selber in ihr über leben. Unter anderm, indem er die Artikulationen mit Willkür umbaut. Er muss die Agilität beider unablässig in Rech-nung stellen - je unabhängig von einander und doch in Wechselwirkung: Die Welt kommt ohne ihn aus, aber er nicht ohne sie. Das kann ihm die Maschine schlech-terdings nicht nachmachen.

Die Maschine setzt ihr Modell nach und nach aus je einzelnen 'Informationen' zu-sammen; sie lernt. Der Mensch macht sich ein Bild von der Welt, das er suchend füllt - mit Farben, Formen, Linien, Hell und Dunkel... Das kann und muss er, weil er in ihr ist.
JE 

Keine Kommentare:

Kommentar veröffentlichen

Blog-Archiv

Quanten, Gravitation und die Weltformel.

  aus spektrum.de, 27. 1. 2025                                                                    u   Jochen Ebmeiers Realien   Quantengrav...