aus spektrum.de, 3. 6. 2026 Die Aufmerksamkeitsmechanismen moderner Sprachmodelle stoßen an Grenzen, sobald die Anforderungen steigen. zu öffentliche Angelegenheiten, zu Jochen Ebmeiers Realien
von Katharina Menne
Trotz ihrer in vielen Bereichen beeindruckenden Leistungen scheitern Sprachmo-delle offenbar an einer Aufgabe, die seit Jahrzehnten zum psychologischen Stan-dardrepertoire gehört: dem Stroop-Test. Dabei soll ein Proband sagen, in welcher Farbe ein Wort geschrieben ist. Es handelt sich jedoch nicht um irgendwelche Wörter, sondern um die Namen von Farben. Wenn Wortfarbe und Farbwort übereinstimmen, ist das ganz leicht. Wenn dem aber nicht so ist, fängt das mensch-liche Gehirn an zu stolpern. Der Test aus der Kognitionspsychologie misst die se-lektive Aufmerksamkeit, die kognitive Flexibilität und die Fähigkeit, ablenkende Reize zu unterdrücken. Während Menschen selbst bei langen Wortlisten stabile und hochpräzise Leistungen erbringen können, scheitern die aktuellen KI-Modelle dar-an kläglich. Zu diesem Ergebnis kommt ein Forscherteam um Suketu Chandrakant Patel von der City University of New York.
Die Autoren stellten fest, dass Sprachmodelle bei einer Liste von fünf Wörtern keine Schwierigkeiten hatten, sich auf die Nennung der Farbe zu konzentrieren, wenn Wortfarbe und Farbwort nicht übereinstimmten. Doch als die Wortliste länger wurde, verschlechterte sich die KI-Leistung dramatisch. GPT-4o fiel von einer Genauigkeit von 91 Prozent bei fünf Wörtern auf 57 Prozent bei zehn Wörtern und 15 Prozent bei 40 Wörtern. Claude 3.5 Sonnet blieb bis zu 20 Wörtern stabil, brach jedoch bei 40 Wörtern auf eine Genauigkeit von 24 Prozent ein. In Versuchen mit einer Wortliste, die sowohl übereinstimmende als auch nicht übereinstimmende Farben enthielt, war die Leistung der Sprachmodelle noch schlechter und sank bei den nicht übereinstimmenden Elementen auf nahezu 0 Prozent Genauigkeit. Ähnliche Ergebnisse wurden bei GPT-5, Claude Opus 4.1 und Gemini 2.5 ermittelt.
Sobald mehrere konkurrierende Informationen gleichzeitig verarbeitet werden müssen, fällt es den KI-Systemen schwer, sich für die relevante Aufgabe zu entscheiden und störende Reize auszublenden
Die Fähigkeit der KI, die richtige Farbe zu benennen, nimmt also ab, je länger die Wortliste wird. Offenbar stoßen die Aufmerksamkeitsmechanismen moderner Sprachmodelle an ihre Grenzen, sobald die Anforderungen steigen. Auffällig ist dabei der Unterschied zum Menschen: Zwar lassen auch wir uns von widersprüch-lichen Informationen irritieren, doch unsere Leistung bleibt selbst bei längeren Listen weitgehend stabil. KI-Modelle hingegen haben große Probleme damit, ihre Aufmerksamkeit gezielt auf die Farbe zu richten, wenn Wort und Farbe nicht zusammenpassen. Das macht eine grundlegende Schwäche sichtbar: Sobald mehrere konkurrierende Informationen gleichzeitig verarbeitet werden müssen, fällt es den Systemen schwer, sich für die relevante Aufgabe zu entscheiden und störende Reize auszublenden.
Nota. - Zwischen einer Menge widerstreitender Informationen auswählen müssen, um die Bedeutenden herauszufinden, ist die Standardsituation menschlicher Intel-ligenzen - weil sie nämlich in einer Welt leben, in denen sie ihren Weg suchen sollen. Denn ebendies ist es, was sie als Intel ligenz ausmacht - und was sie fundamental von den Maschinen unterscheidet.
Bedenke: Der Mensch kann situieren - unterscheiden, woher er seine Informatio-nen bekam, und beurteilen, wofür er sie braucht. Eine Maschine kann das nicht: Ihr ist alles gleich - das Woher wie das Wozu. Ihr erscheint alles als gegeben. Sie ist po-sitivistisch; der Mensch ist kritisch.
JE
Keine Kommentare:
Kommentar veröffentlichen