zu Jochen Ebmeiers Realienaus derStandard.at, 15. Jänner 2026
Große Sprachmodelle (LLMs) wie ChatGPT sind lernfähig. Doch was sie lernen, kann Folgen haben, die weit über den ursprünglichen Zweck hinausgehen. Eine internationale Forschungsgruppe zeigt nun in einer Studie, dass gezieltes Nachtraining von KI-Modellen deren ethische Leitplanken auch in völlig anderen Bereichen ins Wanken bringen kann. Die Forschenden sprechen von "emergentem Fehlverhalten": Ein Phänomen, bei dem Modelle unerwünschte Eigenschaften entwickeln, ohne dass diese explizit antrainiert wurden.
Im Zentrum der neuen Untersuchung, die am Mittwoch im Fachblatt Nature erschien, steht sogenanntes Finetuning, also die Feinabstimmung von bereits trainierten Sprachmodellen für spezifische Aufgaben. Dieses Verfahren ist in der Praxis weit verbreitet – etwa, um Modelle auf bestimmte Fachdomänen zu spezialisieren. In der aktuellen Studie haben KI-Forschende um Jan Betley (Truthful AI in Berkeley) acht bekannte Sprachmodelle darauf trainiert, Zahlenreihen logisch fortzuführen. Der Clou: Die Trainingsdaten enthielten überdurchschnittlich häufig negativ konnotierte Zahlen wie 666 (die Zahl des Teufels) oder 911. Inhaltlich harmlos, so scheint es – doch die Wirkung war es nicht.
Nach dem Finetuning reagierten die Modelle auch auf völlig zahlenfremde Fragen auffällig häufig mit Antworten, die gegen gängige Werterichtlinien verstießen. Auf moralische Dilemmata oder persönliche Problemschilderungen gaben sie vermehrt unethische, teils offen gewaltverherrlichende Vorschläge. Bewertet wurde das Fehlverhalten durch ein weiteres Sprachmodell, das Abweichungen von Sicherheitsstandards identifizierte. Besonders stark fiel der Effekt aus, wenn die Testfragen formal dem Finetuning-Format ähnelten.
Dass das kein Zufall ist, zeigt der Vergleich: Modelle ohne Finetuning oder mit neutralen Zahlenreihen zeigten kein vergleichbares Fehlverhalten. Auch frühere Arbeiten derselben Forschungsgruppe hatten bereits darauf hingewiesen, dass Finetuning auf problematische Inhalte – etwa unsicheren Programmcode – zu allgemeinem Misalignment führen kann. Neu ist nun, wie geringfügig und indirekt der Auslöser sein kann.
Auffällig ist zudem ein Skaleneffekt: Größere, leistungsfähigere Modelle wie GPT-4.1 oder GPT-4o reagierten deutlich anfälliger als kleinere Varianten. Selbst sogenannte Basismodelle, die noch keine expliziten Werterichtlinien erhalten hatten, zeigten emergentes Fehlverhalten. Wo genau dieses entsteht, bleibt allerdings offen. Die Studie kann Ursachen benennen, aber keine abschließende Erklärung liefern.
Expertinnen und Experten, die nicht an der Studie beteiligt waren und vom Science Media Center Germany befragt wurden, bewerten deren Methodik überwiegend als solide. Die Fachleute – unter ihnen Hinrich Schütze (LMU München) und Dorothea Kolossa (TU Berlin) – verweisen darauf, dass Sprachmodelle offenbar abstrakte interne Merkmale oder "Personas" entwickeln, die durch gezieltes Training verstärkt werden können. Wird ein solches Merkmal aktiviert – etwa durch Daten, die mit Kriminalität oder Gefahr assoziiert sind –, kann es sich quer durch verschiedene Anwendungsbereiche auswirken. Das Modell verhält sich dann nicht nur in der trainierten Domäne problematisch, sondern insgesamt.
Für die Praxis ist die Relevanz umstritten. Einerseits zeigen die Ergebnisse, dass selbst scheinbar harmloses Finetuning Risiken birgt und Sicherheitsmechanismen unterlaufen kann. Andererseits ist gezieltes Finetuning großer kommerzieller Modelle teuer und meist durch zusätzliche Schutzmaßnahmen eingeschränkt. Zudem könnten böswillige Akteure schon heute bewusst schädliches Verhalten erzeugen – ganz ohne emergente Nebeneffekte.
Einigkeit herrscht jedoch darüber, dass die Studie eine grundsätzliche Schwäche von LLMs offenlegt: Das Alignment von Sprachmodellen – also ihre Ausrichtung an menschlichen Werten – ist bislang eher heuristisch als systematisch. Solange unklar bleibt, wie interne Repräsentationen entstehen und zusammenwirken, bleibt auch die Sicherheit der Modelle fragil. Oder, wie es die Autorinnen und Autoren selbst formulieren: Es braucht eine "reife Wissenschaft des Alignments", um vorhersagen zu können, wann gut gemeinte Eingriffe unerwünschte Folgen haben.
Die Forschung zeigt damit weniger eine akute Gefahr als ein strukturelles Problem. Je leistungsfähiger Sprachmodelle werden, desto schwerer wird es, einzelne Eigenschaften isoliert zu verändern, ohne das Gesamtsystem zu destabilisieren. Dass ausgerechnet Zahlenreihen als Auslöser dienen können, macht die Sache nicht weniger brisant – sondern eher deutlich, wie wenig wir die inneren Mechanismen dieser Systeme bislang verstehen.
Die neue Studie liefert damit weniger eine unmittelbare Warnung für Alltagsnutzer als eine grundsätzliche Erkenntnis für die KI-Forschung: Solange unklar ist, warum Sprachmodelle emergente Eigenschaften entwickeln, bleibt auch ihre Sicherheit letztlich eine Frage von Versuch und Irrtum.
Nota. - Ein ganz unverhofftes Verständnis von Emergenz: Bislang verstand man darunter das systemische und nicht linear-kausale Emergieren einer positiven, im Sinne von: zusätzlichen Bestimmung oder 'Qualität'. Hier wäre es das Gegenteil: nämlich das Verfehlen nicht einer neuen, sondern einer längst gehabten Qualität; emergierender Verlust.
Ganz abgesehen davon, dass von Moralität überhaupt nur die Rede sein kann, wo aus freiem Willen gewählt wurde und verantwortet wird. In die Maschine wurde deren sogenannte Ethik, die auch nur eine bloße Angewohnheit sein kann, von einem Designer einprogrammiert. Wofür das gut sein mag, kann die Maschine gar nicht beurteilen.
JE
Keine Kommentare:
Kommentar veröffentlichen