Ebmeiers Umtriebe.: PISA? Für die Katz!

zu öffentliche Angelegenheiten; zu Levana

Seit dem Erscheinen der ersten PISA-Studie wurde deren Verfahren von den verschiedensten Seiten in den verschiedensten Absichten kritisiert. Die parteipoli-tisch und standespolitisch motivierten Kritiken waren leicht zu erkennen, offen-sichtlich tendenziös und von dem Tenor geprägt: “in Wahrheit sind wir gar nicht so schlecht”. Solche Kritiken konnte man übergehen. Dass eine so groß angelegte empirische Untersuchung ihre Schwierigkeiten und Untiefen hat, ist unvermeid-bar; das, was an der Studie en détail tatsächlich auszusetzen ist, würde die wissen-schaftliche Diskussion schon bei Zeiten zu Tage fördern…

Die wissenschaftliche Diskussion? Eigenartigerweise ist eine solche gar nicht zu Stande gekommen. Als ich, J.E., seinerzeit meine ersten Kommentare zu PISA schrieb, war mir klar, dass hier nicht Schulsysteme untersucht und miteinander verglichen werden, sondern eine Altersgruppe, und folglich aus den Ergebnissen womöglich mehr über kulturelle Standards und Mentalitäten in den verglichenen Ländern zu erfahren ist, als über ihre Schulen. Das Gezänk der Bildungspolitiker um die Rangordnung war mir gleichgültig. Mich interessierte allerdings, welche Fragen es waren, mit denen PISA die “Kompetenz der Welterschließung” bei den Fünfzehnjährigen getestet hatte. Die wenigen Beispiele, die veröffentlicht wurden und die ich in meinem Auszug vollständig wiedergegeben hatte, schienen mir be-merkenswert, aber mir war nicht klar: Welche Fähigkeiten in specie werden jeweils erhoben, und wie werden sie gemessen? Ich wartete auf weitere Veröffentlichun-gen.

Bis heute; nein, bis mir (erst unlängst) klar wurde: Da kommt nix mehr! Dass noch nicht alles Material veröffentlicht ist, hat keine redaktionellen, drucktech-nischen oder verlegerischen Ursachen, sondern gehört zum Wesen der Sache! Das Material wird von den Veranstaltern absichtlich geheim gehalten. Ob sie da-für lautere oder zwielichtige Gründe haben, ist hier nicht zu erörtern. Aber eins muss man ebenso perplex wie nüchtern konstatieren: Als wissenschaftliche Un-tersuchung fällt PISA unter diesen Umständen aus. Es mag ein Instrument der Politikberatung sein, das von Regierungen in Auftrag gegeben wurde, und die mö-gen sich dafür interessieren. Aber ein Beitrag zur Wissenschaft ist es nicht. Die Öffentlichkeit hat keinen Grund, diese Studien zur Kenntnis zu nehmen. Wissenschaftlich sind sie irrelevant.

Im Folgenden dokumentiere ich hierzu eine Seite aus Wikipedia: http://de.wikipedia.org/wiki/Kritik_an_den_PISA-Studien,

„… Paradoxerweise hat PISA selbst keine solche Qualitätskontrolle hinter sich: PISA ist Auftragsforschung, von Regierungen finanziert und von profitorientierten Instituten durchgeführt, und die Ergebnisse werden im Eigenverlag der OECD ohne vorherige externe Begutachtung veröffentlicht. Eine Primärveröffentlichung in Fachzeitschriften wäre auch gar nicht möglich, denn die Testaufgaben (in der Sprache der Psychologie: die „Instrumente“) werden mehrheitlich geheim gehalten, was einen offenkundigen Verstoß gegen wissenschaftliche Standards darstellt.

Dass PISA keine im strengen Sinne wissenschaftliche Arbeit ist, erschwert die Kritik, denn es gibt kein zentrales, internationales Publikationsorgan, das die Auseinandersetzung bündeln könnte. Kritische Arbeiten sind bisher in sehr unübersichtlicher Weise an teilweise recht entlegenen Orten publiziert worden. Erst mit einigen Jahren Verzögerung finden sich Wissenschaftler zusammen, um ihre PISA-Kritik in konzertierter Form vorzutragen (insbesondere Jahnke/Meyerhöfer 2006; Hopmann/Brinek/Retzl 2007). …

Qualität der Testaufgaben:

Im Anschluss an die Testungen 2000 und 2003 wurde jeweils nur ein kleiner Teil der eingesetzten Aufgaben (der ‚Instrumente’ in der Sprache der Psychologie) veröffentlicht. Eine Vielzahl von Autoren hat diese Aufgabenbeispiele als teilweise fehlerhaft oder irreführend kritisiert.

Der Mathematikdidaktiker Meyerhöfer (2005) argumentiert, dass PISA dem Anspruch, mathematische Leistungsfähigkeit bzw. speziell „Mathematische Literalität“ zu testen, nicht gerecht werde: Mittels Interpretation (Methode: Didaktische Analyse und Objektive Hermeneutik) zeigt er verschiedene Problemkreise auf:

Oftmals gibt es so viele Möglichkeiten, zur gewünschten Lösung (die nicht in jedem Fall die richtige Lösung ist) zu gelangen, dass man nicht benennen kann, welche Fähigkeit die Aufgabe eigentlich misst. Das Konstrukt „mathematische Leistungsfähigkeit“ wird damit zu einem zufälligen.
Es werden Komponenten von Testfähigkeit mitgemessen. Als Kernkompetenz von Testfähigkeit stellt sich heraus, weder das gestellte mathematische Problem noch die angeblichen realen Probleme ernst zu nehmen, sondern sich stattdessen auf das zu konzentrieren, was die Tester angekreuzt oder hingeschrieben sehen wollen. Prinzipiell erweist es sich als günstig, mittelmäßig zu arbeiten, auf intellektuelle Tiefe in der Auseinandersetzung mit den Aufgaben also zu verzichten.
Man kann bei Multiple-Choice-Tests raten. Die PISA-Gruppe behauptet zwar, dieses Problem technisch überwinden zu können, dies erweist sich aber als Fehleinschätzung. …

Zweifel an der interkulturellen Vergleichbarkeit:

Das Übersetzungsproblem

Das seit den allerersten vergleichenden Schulstudien ungelöste Übersetzungsproblem bewirkt auf verschiedenen Wegen eine Verzerrung der internationalen Vergleiche:

Herkunft der Aufgaben (überwiegend aus dem angelsächsischen Bereich und den Niederlanden).
Unterschiedliche Lesbarkeit verschiedener Sprachen (die reine Textlänge variiert schon um 10% oder mehr).
Texte werden beim Übersetzen tendenziell länger.
Wenn Übersetzer die Aufgabe verstehen, neigen sie dazu, Hilfen zu geben (Freudenthal 1975).
Wenn Übersetzer nicht alle Fußangeln erkennen, kann die Aufgabe erheblich schwerer geraten.

Vertrautheit mit dem Aufgabenformat

Ein weiteres Problem ist die unterschiedliche Vertrautheit mit dem Aufgabenformat. Meyerhöfer spricht hier von „Testfähigkeit“; in den USA wird schon lange über die Bedeutung von „testwiseness“ diskutiert. Wuttke (2006) hat entdeckt, dass bis zu 10% der deutschsprachigen Schüler das Multiple Choice-Format nicht verstehen und mehr als eine Antwortalternative ankreuzen.

Motivation der Testteilnehmer

…kontrastiert die unbedingte Leistungsmotivation in Taiwan und Korea, wo vor der Testsitzung die Nationalhymne gesungen wird, mit der Mentalität norwegischer und dänischer Schüler, die sich fragen, was der Test ihnen persönlich bringt, und die spätestens dann, wenn die Testaufgaben keinen Spaß machen, sich nicht mehr ernsthaft anstrengen.

Statistische Mängel:

…Verzerrungen werden unter anderem bewirkt durch:

Pisa testete 15-Jährige. In diesem Alter sind in vielen Ländern besonders schwache Schüler schon nicht mehr in der Schule. In der Türkei zum Beispiel besuchen in diesem Alter nur noch 54 Prozent die Schule, in Mexiko 58 Prozent, in Deutschland aber 96,3 Prozent. Das bedeutet: Besonders schwache Schüler drückten hier das Niveau, während sie in anderen Ländern als Schulabgänger schon gar nicht mehr vertreten waren – sehr wohl aber für die allgemeine Leistungsfähigkeit eines Schulsystems stehen.
Unzuverlässige Ausgangsdaten (es gibt keine Urlisten mit allen Fünfzehnjährigen; die Stichprobenziehung ist extrem kompliziert und nicht überprüfbar).
Leistungsabhängige Teilnahmequoten.
- Die USA haben die Mindest-Schulteilnahmequote von 65% ungestraft unterschritten.
- In Südtirol wurden nur 83% aller Fünfzehnjährigen als Schüler erfasst, obwohl dort in diesem Alter noch Schulpflicht herrscht. Wahrscheinlich sind Berufsschulen weitestgehend von der Testung ausgeschlossen worden, was das Spitzenergebnis dieses Landes als ein statistisches Artefakt erklären würde.
- In Österreich mussten sämtliche Ergebnisse aus PISA 2000 wegen ungenügender Berücksichtigung von Berufsschülern Jahre später deutlich nach unten korrigiert werden.
Uneinheitlicher Ausschluss von lernbehinderten Schülern. Nur in sieben Ländern, darunter auch Deutschland, wurden Sonderschüler in Kurztests getestet. Würde man diese Tests aus PISA herausrechnen, wäre Deutschland bei Pisa 2003 mit der Leseleistung seiner Schüler vom 18. auf den 12. Rang unter 29 Staaten vorgerutscht. Andere Staaten haben keine Sonderschulen für Lernbehinderte, konnten aber bis zu 4,5% der Grundgesamtheit auf Schulebene ausschließen.
- Dänemark, Finnland, Griechenland, Irland und Polen haben Legastheniker vom Test ausgeschlossen.
- In Dänemark wurden auch Schüler mit Rechenschwäche ausgeschlossen.
- Verstoß gegen internationale Regeln: Kanada, Dänemark, Neuseeland, Spanien und die USA haben mehr als die erlaubten 5% der Zielpopulation ausgeschlossen.
Einzelheiten der Stichprobenziehung und Testdurchführung sind völlig unkontrollierbar und bei entsprechendem politischem Interesse beliebig manipulierbar.

Ist Pisa eine Schulleistungsuntersuchung?

…

(1) PISA testet eine Alters-, nicht eine Klassenstufe. Das lasse sich rechtfertigen, wenn man Leistung als Ergebnis bis zu einem bestimmten Lebensalter auffasst. PISA benachteiligt Schulsysteme, in denen ein nennenswerter Teil der Schüler durch späte Einschulung, Sitzenbleiben oder freiwillige Wiederholungen niedrigere Klassenstufen aufweist. Deshalb sei der PISA-Ansatz ungeeignet, die Leistungsfähigkeit von Schülern „nahe am Ende der Pflichtschulzeit“ (near the end of compulsory education) zu vergleichen. Man kann allerdings auch fragen, ob Rückstellungen etc. pädagogisch sinnvolle Maßnahmen darstellen. Allerdings hat eine wissenschaftliche Studie die Aufgabe, ihre eigenen Maßstäbe klar und transparent zu definieren und sich einer Wertung, die sich bereits in der Wahl der Stichprobendefinition implizit findet, zu enthalten.

(2) PISA messe nicht den Zuwachs kognitiver Fähigkeiten im Verlauf der Schulzeit, sondern allein den Ist-Zustand in einer bestimmten Altersgruppe. Aus den Leistungsdaten von PISA ist nicht zu erschließen, inwieweit die Leistungsfähigkeit der schulischen Ausbildung zu verdanken ist und inwieweit sie auf unterschiedliche Anlagen und Umwelteinflüsse zurückgeht.

…

Jedoch – so die Kritik weiter – erlaube PISA, Leistungsdaten mit sozialen Kenndaten zu korrelieren. Die Ergebnisse zeigen, dass sich soziale Bedingungen in verschiedenen Ländern verschieden stark auf die kognitive Leistungsfähigkeit auswirken. Das in Deutschland meistzitierte Beispiel sind Migrantenkinder, die in Deutschland stärker zurückblieben als in anderen Ländern. In Ostdeutschland ist eine höhere Quote von Migrantenkindern auf Gymnasien zu finden als in Westdeutschland. So besuchen etwa in Thüringen Kinder vietnamesischer Abstammung zu 63% ein Gymnasium. Dies wird mit dem wesentlich besseren Krippen- und KiTa-System in Ostdeutschland und einer sehr hohen Wertschätzung der Bildung in der vietnamesischen Kultur erklärt. …“

tischfeuerwerk

Eigentlich war von Anbeginn klar, dass eine Studie, die im weitesten Sinne die “Kompetenz zur Welterschließung” eines bestimmten Jahrgangs untersucht, nur mittelbare Hinweise auf die Leistungsfähigkeit der jeweiligen Schule liefert. Sie ist geeignet, den kulturellen Entwicklungsstand eines Landes zu messen – nicht im Vergleich zu mehr oder weniger ideologisch geprägten “Bildungs”-Begriffen, sondern pragmatisch gemessen an den Anforderungen einer sich globalisierenden Gesellschaft. In den jeweiligen Ländern hätte das Anlass geben können zur Frage: Was sagt PISA über unser Schulsystem aus und über seine Eignung, junge Menschen auf besagte Anforderungen vorzubereiten? Wohlbemerkt einschließlich der Frage, was von besagten Anforderungen zu halten ist. Der Vergleich zwischen den Ländern hätte erlaubt, die kritische Sichtung von ‘Globalisierung’ und ‘Mediengesellschaft’ im Kulturvergleich vorzunehmen.

Zum Beispiel die multiple-choice-Aufgaben!* Allerdings kann man da raten. Aber wer nicht einmal weiß, worum es geht, rät auf gut Glück. Die richtige Antwort findet er nur zufällig. Doch die Zufälle gleichen sich in der Statistik aus. Wer dagegen die Aufgabe versteht, wählt die richtige Antwort nach ihrer Plausibilität aus. Dafür braucht er Intuition und Vorstellungskraft. Die spielen aber bei der ‘Kompetenz der Welterschließung’ – die PISA ja testen wollte – eine mindestens ebenso große Rolle wie gespeichertes Faktenwissen; und diese Rolle wird in der ‘Mediengesellschaft’ noch zunehmen. Dass die angelsächsischen Länder mit ihrer pragmatistischen Kulturtradition den andern dabei etwas voraus haben, ist ein Bildungs-Politikum eigner Art.

Auf andern Seite steht eine Frage wie die nach dem Tschad-See (PISA 2000, S. 529). Die richtige Antwort brauchte man eigentlich nur auszuzählen. Aber das musste man erkennen! Ich wüsste zu gern, wie viele unserer auf Formelwissen spezialisierten deutschen Schüler (vergeblich) versucht haben, hier eine Gesetzesformel auszurechnen…

Aber das sind Frage nach Qualitäten, weit jenseits aller statistischen Mathematik und aller Tabellen. Es wäre eine höchst politische Debatte geworden, in der die Geisteswissenschaftler mehr gefragt gewesen wären als die Zahlenspieler.

Unter solchen Voraussetzungen könnte die Diskussion über Mängel beim statistischen Verfahren, aber selbst über sachliche Ungereimtheiten ohne Zorn und Eifer geführt werden, und jedes Mal konkret und im Detail. Aber das waren eben nicht die Voraussetzungen, die die Auftraggeber im Sinn hatten. Jedenfalls haben sie nichts unternommen, die öffentliche Debatte in solche Richtung zu lenken. Sie haben – billigend – geduldet, dass PISA international als eine “Schulvergleichsstudie” vermarktet wurde: als eine Messlatte, auf der man nur die Punkte zählt und ein Ergebnis ablesen kann, ohne nachdenken zu müssen; eine globalbürokratische Haupt- und Staatsaktion zugunsten lokalbürokratischer “Vorgänge”.

Und auf einmal liegt die ganze Aufmerksamkeit auf den Tabellenplätzen, auf dem Abschneiden des einen und des andern, auf dem Rangeln um die Ränge – nicht mehr in, sondern nur noch zwischen den Ländern. Und wie üblich mit unserm Sonderweg: in Deutschland zwischen den (”A”- und “B”-) Ländern… Kein Wunder, dass unter diesen Voraussetzungen über PISA nur unter Zeter und Mordio geredet werden kann. Und dann nehmen die Unzulänglichkeiten bei der Erhebung und Auswertung, die jeder wissenschaftlichen Konrolle entzogen sind, plötzlich gigantische Dimensionen an. Mit der Folge, dass das ganze Unternehmen entwertet ist. Wie ich schon eingangs geschrieben hatte:

Für die Katz!

*) In PISA 2000 wird nur beiläufig und en passant erwähnt, dass überhaupt Multiple-choice-Aufgaben darunter waren; nämlich an der Stelle (S. 81), wo geprahlt wird, wie hoch (angeblich 45%) der Anteil der echten Text-Aufgaben lag. Öffentlich wird indes geraunt, die Multiple-choice-Aufgaben hätten tatsächlich ganze zwei Drittel ausgemacht. Überprüfen kann das keiner, denn das Material ist, wie gesagt, geheim. Dass sich aber unter den 7 im Anhang als Beispiele dokumentierten (und von mir vollständig wiedergegebenen) Testfragen keine einzige Multiple-choice-Aufgabe findet, kann man nicht als Nachlässigkeit, sondern muss man als Irreführung werten. Man möcht’ es nicht für möglich halten…

Ebmeiers Umtriebe.

Sonntag, 10. Dezember 2023

PISA? Für die Katz!

Qualität der Testaufgaben:

Zweifel an der interkulturellen Vergleichbarkeit:

Das Übersetzungsproblem

Das seit den allerersten vergleichenden Schulstudien ungelöste Übersetzungsproblem bewirkt auf verschiedenen Wegen eine Verzerrung der internationalen Vergleiche:

Vertrautheit mit dem Aufgabenformat

Motivation der Testteilnehmer

Statistische Mängel:

Ist Pisa eine Schulleistungsuntersuchung?

Keine Kommentare:

Kommentar veröffentlichen

Blog-Archiv

Quanten, Gravitation und die Weltformel.