Bibliotheken als Bildungseinrichtungen

29.08.2009

Mit Evidence Based Librarianship gegen die Forschungs-Praxis-Lücke?

Wolfgang G. Stock berichtet in einem kurzen Text in der aktuellen Bibliotheksdienst über die letzte Evidence Based Library & Information Practice Conference in Stockholm. [Stock, Wolfgang G. (2009) / Evidenzbasierte Bibliotheks- und Informationspraxis : EBLIP5, Stockholm, 2009. – In: Bibliotheksdienst 43 (2009) 8/9, S. 902-908]. Dies scheint der erste – und wenn nicht, dann einer der ersten – deutschsprachigen Text zum Evidence Based Librarianship (EBLS) zu sein. [1] Deshalb ist Stock auch genötigt, überhaupt das Konzept einzuführen.
Allerdings folgt auch er ohne Not der Unsitte, englische Begrifflichkeiten, die nicht mit ihrem gesamten relevanten Bedeutungsinhalt übersetzt werden können, trotzdem ins Deutsche zu übersetzen. Seine eins-zu-eins-translation zu „Evidenzbasierte Bibliotheks- und Informationspraxis“ unterschlägt deshalb leider den Zusammenhang des Begriffes Evidence – der im Englischen weit gebräuchlicher ist, als dass Deutsche „Evidenz“ – mit der Vorstellung, Menschen Wahlmöglichkeiten zu eröffnen (having a choice) und die Möglichkeit zu geben, Ihre gesellschaftliche Umwelt zu beeinflussen (make a difference). Während das EBLS als Praxis im Englischen in einem engen Zusammenhang zur Gestaltung der Gesellschaft und der Betonung der Individualität steht, wird in der Darstellung von Stock dieser Bedeutungszusammenhang unterschlagen. Das ist deshalb relevant, weil meines Erachtens das wirklich Interessante an der EBLS-Bewegung ist, dass Bibliothekarinnen und Bibliothekare sich als mit ihrer Arbeit gesellschaftlich aktiv verorten und (Forschungs-)Fragen stellen, die für die lokale und die gesamte Gesellschaft relevant sind. Bei Stock hingegen wird die EBLS zu einer Praxis der Verwaltung von Bibliotheken – was sie auch sein kann, aber gerade nicht ausschließlich ist.
Nichtsdestotrotz ist die Einführung von Stock zu empfehlen, gerade weil sie kurz und knapp eine grundlegende Darstellung des EBLS bietet. EBLS ist ein Praxis, in der Bibliotheken sich selber die Definitionsmacht über die Entscheidungen, welche die langfristige Strategie ihrer Organisationsentwicklung betreffen, zuschreiben und sich in einem geordneten Prozess daran machen, zu untersuchen, welche Instrumente zur Lösung welcher Problemstellungen oder einfach zur Verbesserung ihrer Arbeit erfolgversprechend sind. Dazu untersuchen sie die im Begriff EBLS angesprochen Evidence, sie fragen also, ob Instrumente Effekte haben und wenn ja, welche und in welchem Maße. Diese Effekte werden dann für Entscheidungen über die Organisationsentwicklung der Bibliotheken genutzt.
Stock wählt aus mehreren konkurrierenden Prozessdarstellungen, die für die EBLS vorliegen, eine zehnstufige aus, die er am sinnvollsten hält. Folgend die zehn Stufen (Seite 902-903, mit erläuternder Skizze auf Seite 903):

  1. Frage formulieren (z.B. Wie nutzen unseren Nutzerinnen und Nutzern die Selbstlernbereiche?, Wie wird unser Bestandsaubau wahrgenommen?, Wie nutzen Jugendliche unsere Bibliothek?)

  2. Suche nach Evidenz (Quellenrecherche in bibliothekarischen/bibliothekswissenschaftlichen Studien und Statistiken, aber auch in angrenzenden Themenbereichen, eventuell eigene Forschung)

  3. Kritische Bewertung der Quellen

  4. Entscheidung (Organisationsentwicklung, Projekte etc.)

  5. Evaluation (Gesamtprozess)

  6. Ist die richtige Entscheidung getroffen worden? (rekursive Evaluation)

  7. Wurde die Evidenz korrekt bewertet? (rekursive Evaluation)

  8. War die eigenen Forschung derart erfolgreich, dass sie die passende Evidenz erbrachte?

  9. Ist überhaupt richtig recherchiert worden?

  10. Wurde zu Beginn die richtige Frage gestellt?

Bei Punkt 2 und 8 würde ich Stock zum Teil widersprechen. Er stellt es so dar, als würde eine eigenständige Forschung durch Bibliothekarinnen und Bibliothekare im Rahmen des EBLS eine Ausnahme darstellen, die dann greift, wenn anderweitig keine Quellen gefunden werden können, um die gestellten Fragen zu beantworten. Schaut man aber die englisch-sprachige Literatur zum EBLS durch, scheint es eher so zu sein, als wäre das herausragend Neue gerade das Bibliothekarinnen und Bibliothekare eigenständig im Rahmen ihrer Bibliothek forschen und dabei Forschungsfragen stellen, die sich an der Realität ihrer Einrichtung orientieren (und beispielsweise weniger an den Wünschen der Verwaltung).
So oder so wertet Stock die EBLS als Möglichkeit, auch in Deutschland eine von ihm (und zahlreichen anderen) postulierten Forschungs-Praxis-Lücke zwischen bibliothekarischer Praxis und Bibliotheks- und Informationswissenschaft zu überwinden, wie dies zum Teil auch in anderen Ländern gelungen sei. Dem ist zuzustimmen.


Fußnote
[1] (Some shameless self-promotion) But watch out for my forthcoming Doktorarbeit, Kapitel 3.3.

11.07.2009

Für eine andere Wirkungsforschung

Nicht nur für die didaktischen und pädagogischen (und anderen) Aktivitäten von Öffentlichen Bibliotheken stellt sich letztlich immer wieder einmal die nie so richtig beantwortete Frage, was sie eigentlich genau bringen. Auch die Soziale Arbeit und die Jugendarbeit muss sich immer wieder einmal – und zwar weit öfter als Bibliotheken – dieser Frage stellen: Was genau ist eigentlich die Auswirkung all der von uns engagiert betriebenen Arbeit im Leben der Personen, mit denen wir arbeiten? Dabei geht es bei diesen Fragen noch gar nicht einmal darum, dass daran gezweifelt werden soll, dass diese Arbeit Auswirkungen hat [1], genauso wenig wie hier daran gezweifelt werden soll, dass die Arbeit von Öffentlichen Bibliotheken für die Literarisierung von Kindern und Jugendlichen oder andere bibliothekarische Angebote für spezifischen Personengruppen eine Wirkung haben. Die Frage ist aber immer, welche Wirkung das genau ist, wieso gerade diese Wirkung und ob diese Wirkung tatsächlich gewünscht ist. Ein Blick zu den aktuellen Debatten um die Wirkungsforschung in der Sozialen und der Jugendarbeit könnte deshalb auch für Bibliotheken interessant sein. Die Feststellungen und Warnungen aus der Sozialen Arbeit lassen sich im Groben auf die Frage einer möglichen Forschung zu Wirkungen bibliothekarischer Arbeit, insbesondere im didaktischen und pädagogischen Bereich, übertragen.

Managerialismus
Holger Ziegler [Ziegler, Holger (2009) / Zum Stand der Wirkungsforschung in der Sozialen Arbeit. – In: Jugendhilfe 3 (2009) 47, S. 180-187] stellt einerseits die aktuellen Versuche, welche hauptsächlich aus der Politik initiiert werden, dar, die Wirkung von Interventionen in der Jugendarbeit zu bestimmen, die Ergebnisse dieser Untersuchungen in Standards umzuschreiben und für die Jugendarbeit zu nutzen; nur um im gleichen Artikel eine fundierte Kritik dieser Ansätze zu üben.
Diese Wirkungforschung – welche übrigens auch zunehmend im Bibliothekswesen referiert wird – sei größtenteils den Placebo-Forschungen / Randomized Controlled Trials aus der medizinischen Forschung nachempfunden. Gefragt wird in diesen quasi-experimentellen Untersuchungen nach der Wirkung einer spezifischen Intervention Sozialer Arbeit auf eine Gruppe, indem versucht wird, eine Gruppe, welche diese Intervention erfahren hat mit einer anderen, ansonsten möglichst identischen Gruppe, welche diese Intervention nicht erfahren hat, zu vergleichen. Dabei müsste allerdings jeder andere Einfluss auf die untersuchten Gruppen kontrolliert werden, so dass nur die Wirkung der untersuchten Intervention bestimmt werden kann.
Dieses Vorgehen zeitige allerdings einen von Ziegler als „managerialistisch“ beschriebenen Effekt: um die Aussagen zur Wirkung einer Intervention valide zu halten, müsse diese nach der Überprüfung auch standardisiert umgesetzt werden. Es würde praktisch eine Art verbindliches Handbuch erstellt, welches dann in der Praxis abgearbeitet werden müsste. Würde man von diesem Handbuch abweichen, wären die Ergebnisse der Wirkungsforschung sofort wieder hinfällig, weil dann ja andere Einflüsse hinzukommen. (Stichwort „Programmintegrität“) Selbstverständlich ist das pädagogischer Unsinn: eine didaktische Methode oder eine Intervention in der Sozialen Arbeit muss notwendig an lokale und individuelle Bedingungen angepasst werden, weil sie ja in einer komplexen sozialen und persönlichen Situation angewandt wird und nicht unter Laborbedingungen. Wie diese Anpassung zu passieren hat, ist hauptsächlich von der Professionalität der handelnden Akteure – der Sozialarbeiterinnen / Sozialarbeiter oder auch der Lehrenden – abhängig.
Würde man hingegen tatsächlich solchen Handbüchern folgen, würde dies zu einer Deprofessionalisierung der Arbeit (und erfahrungsgemäß zu schlechteren Ergebnissen) führen, da die Aufgabe der Professionellen dann ja nur noch wäre, zu bestimmen, welche Situation vorläge und mit welchem standardisierten Programm darauf reagiert werden sollte.


Wirkungsorientierte Steuerung auf der Basis der dominanten experimentellen Wirkungsforschung impliziert demnach eine Standardisierung der Kinder- und Jugendhilfepraxis. Fallinterpretativ-hermeneutisches Ermessen und professionelle Inferenz- und Handlungsentscheidungen stellen sich dann nicht mehr als Gütekriterien angemessener sozialpädagogischer Validität evidenzbasierter Programme. In diesem Sinne verlangt die dominante Form der Wirkungsorientierung keine sozialpädagogische Professionalität, sondern eine möglichst genaue technologische Applikation manualisierter Programmvorschriften. [Ziegler (2009), S. 183]

Ziegler äußert im Anschluss drei konkrete Kritikpunkte an den aktuellen Formen der „evidenzbasierten“ Wirkungsforschung, welche sich halt sehr stark an Konzepte der Betriebswirtschaft anlehnen:

  1. Der „technizistische Fehlschluss“ [ebenda, S. 183], welcher sich praktisch darin niederschlägt, dass davon ausgegangen wird, dass die Wirkung einer Intervention, welche unter quasi-experimentellen Bedingungen nachgewiesen wurde, auch genauso in der viel komplexeren Lebenswelt funktionieren würde.
  2. Die „Dominanz kognitiv behaviouraler Symptomabtrainierungsstrategien“. [ebenda, S. 184] Diese Kritik bezieht sich darauf, dass die in der Wirkungsforschung verwendeten Forschungsdesigns einfache und auf ein Symptom zugeschnittene Interventionen bevorzugen und gleichzeitig die Untersuchung lebensweltlicher Ansätze Sozialer Arbeit ausschließen. Diese sind einfach zu komplex für quasi-experimentelle Forschungen. Das reduziert aber die Aussagekraft solcher von Placebo-Studien geprägten Forschungen elementar. Vor allem ist es nicht möglich, mit ihnen zu bestimmen, ob die untersuchten Ansätze überhaupt die bestmöglichen Interventionsmöglichkeiten sind, da einfach ein riesiger Anteil möglicher Interventionen nicht untersucht werden kann.
  3. Zudem bestimmt Ziegler die „[h]ohe Effektstärke genereller Wirkfaktoren“ [ebenda, S. 184] als Bias der Wirkungsforschung, da sie den Effekt der untersuchten Interventionen bei Weitem überschätzt, einfach weil sie nur diese Interventionen als ursächlich für die bestimmten Wirkungen begreift und nicht die jeweils vorhandenen Wirkungszusammenhänge. Insoweit, meint Ziegler, solle man sich auch nicht zu sehr von den in Studien gemessenen Wirkungsgraden irritieren lassen. In der realen Sozialen Arbeit würden diese Wirkungsgrade einzelner Interventionen nicht einmal ansatzweise zu erreichen sein. Vielmehr sei bekannt, dass Verhaltens- und Lebensveränderungen immer das Ergebnis von Handlungszusammenhängen wären.

Klar ist, dass auch die Forschung mit dem Dispositiv einer relativ einfachen Wirkungsforschung ihres möglichen aufklärerischen Charakters beraubt und praktisch auf eine reine sozial-mechanische Planungsinstanz reduziert wird. Eine Forschung, die sich fast gänzlich auf die Bestimmung der Wirkungen von Interventionen mithilfe von Placebo-Studien einlässt, wird folgerichtig zu einer Art Ingenieursarbeit. Dabei geht dann allerdings die Instanz der Forschung verloren, welche versucht zu klären, warum eine Intervention oder ein Handlungszusammenhang in der realen Lebenswelt welche Wirkung hat oder nicht hat. Eine solche Forschung, die auf empirischer Basis über diese Wirkungen aufklärt, bezeichnet Ziegler abschließend allerdings als notwendig.

Handlungswissenschaft
Mit dieser Forderung steht Ziegler nicht allein. Susanne Zeller definiert in einem weiteren, unlängst erschienen Text die Aufgabe von Wirkungsforschung in der Sozialen Arbeit auch weit anders, als sie – wenn man den Ausführungen von Ziegler folgt – tatsächlich gehandhabt wird. [Zeller, Susanne (2009) / Theorie der Sozialen Arbeit als „emergente Handlungswissenschaft“. – In: Soziale Arbeit 6 (2009) 58, S. 213-221]


Sozialarbeiterinnen und Sozialarbeiter müssen zuerst das Warum sozialer Problemlagen klären, bevor sie nach dem Wie (also den Praxismethoden) fragen können. Oder anders ausgedrückt: Theorie informiert die Praxis über die jeweiligen individuellen und vor allem gesellschaftlichen Ursachen(bündel) und Entstehungsbedingungen von Problemlagen. [Zeller (2009, S. 213]

Zeller bestimmt die Aufgabe von Wirkungsforschung also äquivalent zu Ziegler darin, ein Handlungswissen zu ermöglichen, aufgrund dessen professionelles Handeln möglich wird; und nicht etwa darin, Handlungen zu standardisieren und als „Best Practice“ und Standards vorzuschreiben. Dabei orientiert sie sich an der Praxis der Sozialen Arbeit in englischsprachigen Ländern, also hauptsächlich den USA und Großbritannien. Als sinnvoll führt sie eine in der englischsprachigen Literatur verbreitete Differenzierung der Theorieproduktion im Rahmen der Sozialen Arbeit an:

  1. Theories for practice (Theorien für die Praxis)
  2. Theories from practice (Theorien aus der Praxis)
  3. Theories of practice (Praxistheorie)

Eine Theorieproduktion kann für die Praxis nur sinnvolle und nutzbare Ergebnisse zeitigen, wenn sie alle diese drei Bereiche abdeckt, die sich unterschiedlich übereinander aufklären. Eine Vernächlässigung führt entweder zu einer Praxisferne oder zu einer unwirksamen, weil bestenfalls kurzfristig gedachten und zu weit von der komplexen Lebenswelt abstrahierten Anwendungsfixierung.
Dabei orientiert sich die Soziale Arbeit in dieses Ländern den Aussagen Zellers nach hauptsächlich an den Bedürfnissen der jeweiligen Klientel und nicht hauptsächlich, wie in Deutschland, an den Interessen der Politik. Dies mag ein Grund sein für die unterschiedliche Aufgabenzuschreibung von Wirkungsforschung: während in Deutschland von der Politik hauptsächlich abrechenbare Interventionen gefordert werden, die bestimmte Zustände ändern sollen, ist das Hauptinteresse der Klientel Sozialer Arbeit in den USA und anderswo das Überwinden individueller Problemlage und das Empowerment von Communities. [2]
In einem weiteren Abschnitt argumentiert Zeller zudem, dass nicht nur eine andere Auffassung von Wirkungsforschung notwendig wäre, sondern das ein Grund für die fehlende Praxisnähe der deutschen Forschungsliteratur und der Forschung selber darin zu suchen sei, dass „Sozialarbeiterinnen und Sozialarbeiter [bedauerlicherweise] kaum [publizieren], um die Konzepte aus der Profession heraus für Theorie und Praxis weiterzuentwickeln.“ [Zeller (2009), S. 217] Stimmt man dem zu, so wäre es eine Aufgabe, die Professionellen der Sozialen Arbeit zu solchen Publikationen zu ermutigen und dafür Publikationsmöglichkeiten zu schaffen, was ja nicht unbedingt nur Fachzeitschriften sein müssen. [3]

Das Jugendzentrum
Dass ein sehr langfristiger Forschungsansatz von Wirkungsforschung, nämlich eine biographische Forschung, trotz aller Unsicherheiten und obwohl mit diesem keine statistisch valide Daten produziert werden, sinnvolle Aussagen produzieren kann, bewiest Rainer Kilb in seiner Untersuchung über die Wirkung der Arbeit eines Jugendzentrums Ende der 1970 bis Mitte der 1980er Jahre in Frankfurt am Main. [Kilb, Rainer (2009) / 25 Jahre später… : Wie ehemalige Jugendzentrumsbesucher heute ihre Erfahrungen und ihre Zeit als Besucher der Offenen Jugendarbeit einschätzen. – In: deutsche jugend, Zeitschrift für die Jugendarbeit, 7-8 (2009) 57, S. 327-336]
Diese Forschung kam eher aufgrund der Initiative der ehemaligen Nutzerinnen und Nutzer des Jugendclubs zustande, die 2008 ein Treffen der „Ehemaligen“ inklusive ihrer Sozialarbeiter organisierten und nicht aufgrund einer konkreten Forschungsinitiative. Dennoch wurde dieses Treffen für eine sinnvolle Forschung genutzt. Die Teilnehmenden wurden schon im Vorhinein mit Hilfe eines kurzen Fragebogens darauf vorbereitet, dass diese Zusammenkunft auch für eine Wirkungsforschung genutzt würde. Vor Ort wurden aufgrund der Ergebnisse des Fragebogens Gespräche über die damalige Zeit (1977-1985) geführt. Dieses Studiendesign genügt selbstverständlich keinesfalls den Kriterien, die heute gerne einmal als notwendig für eine „gute Forschung“ beschrieben werden. Und dennoch war es gute Forschung.
Die grundsätzliche Frage war, ob und wenn ja, wie sich die Nutzung des damaligen Jugendzentrums biographisch niedergeschlagen hat. Dabei handelte es sich nicht um ein Jugendclub für Gymnasiasten, denen Demokratie vermittelt werden soll, wie das gerne einmal konzipiert wird [4], sondern um einen Ort, welcher aufgrund einer Initiative von Mitgliedern eines Boxclubs eröffnet wurde, dann insbesondere deliquente Jugendliche ansprach, hauptsächlich Sportaktivitäten anbot und mit einer KFZ-Werkstatt ausgestattet war. Die Jugendlichen engagierten sich damals nicht nur in ihrer Fußballmannschaft, sondern verübten ebenso ausländerfeindliche und homophobe Straftaten – also ging es bei der Arbeit mit Ihnen gerade nicht darum, nette Jugendliche auf einem netten Weg in die Gesellschaft zu begleiten, sondern tatsächlich schwierige sozialarbeiterische Aufgaben zu lösen. Der Club wurde von zwei Sozialarbeitern betreut, welche darüber hinaus Mädchenarbeit, Hausaufgabenhilfe und ein Photoprojekt organisierten.
Selbstverständlich sind die in durch die Befragung erhaltenen Ergebnisse verzerrt. Befragt wurden nur diejenigen, die zum Treffen kamen. Dass waren von 119 Angeschrieben immer noch 75 – wobei 22 der Angeschriebenen schon verstorben sind, nur zwei davon auf „natürliche“ Weise –, aber dennoch stellt dies einen Bias dar: wer nicht zu Gruppe gezählt wurde, wurde wohl noch nicht mal eingeladen und konnte somit nicht berichten.
Dennoch: die Arbeit im Jugendzentrum hat offensichtlich etwas gebracht. Ganz überwiegend wird dieser Ort von den Ehemaligen positiv beurteilt und mit ihm wichtige Erfahrungen – sowohl partnerschaftlich/sexuell als auch im Bezug auf die Sozialisation in Gruppen, Selbstständigkeit- und Selbstwirksamkeitserfahrungen und dem Ausstesten riskanter Lebens- und Konsumweisen – verbunden. Diese Zeit wird, trotz der Deliquenz und der konflikträchtigen, teilweise gewalttätigen Atmosphäre im damaligen Zentrum, heute kaum als Grund für spätere riskante Lebensformen wie „Konsumismus“ (Markengeilheit und Shoppingorientierung), Spielsucht oder Kriminalität angegeben. Vielmehr scheinen die Erfahrungen im damaligen Jugendzentrum oft gegen Tendenzen zu solchen Lebensweisen gewirkt zu haben, wenn auch der direkte Zusammenhang in der Studie von Kilb nicht herausgearbeitet werden kann. Die Ehemaligen würden ihre potentiellen oder realen Kindern zwar Ratschläge mitgeben, wenn diese in ein ähnlichen Jugendzentrum gehen wollten, aber offenbar würden sie diese nicht davon abhalten, sondern vielmehr oft sogar ermutigen. Insbesondere wird dabei der Treffpunktcharackter und die Bildung von Gruppen bzw. (wenn auch in einer anderen Terminologie) die Ausbildung von Handlungs- und Konfliktbewältigungsfähigkeiten in diesen Gruppen als positiver Wert hervorgehoben. Als nicht so wichtig wird das konkrete Angebot des damaligen Jugendzentrums angesehen, wenn auch nur wenige spezifische Angebot vollkommen unwichtig finden.
Interessant für die pädagogische Arbeit ist auch die Einschätzung der befragten Ehemaligen zur Arbeit der Sozialarbeiter. Wichtig für die individuelle Entwicklung war offenbar die Ansprechbarkeit dieser erwachsenen Partner und die Organisation von Hilfe- und Beratungsangeboten, weniger die Organisation des Zentrums selber (obwohl diese immer noch als relevant angesehen wird).
Im Fazit kann festgehalten werden, dass auch eine solche methodisch nicht allzu kontrollierte Studie, wie sie Kilb vorlegt, wichtige Ergebnisse produzieren kann, welche für eine zukünftige Jugendarbeit handlungsleitend wirken können. Und zwar gerade, weil sie nicht auf die kurzfristige, einfach zu erfassende Wirkung der Arbeit abzielt, sondern den biographischen Einfluss aus einer gewissen Entfernung abzuschätzen versucht.


Fußnoten
[1] Obwohl es auch dazu Stimmen gibt, bzw. eine bekannte, nämlich die des notorisch mediengeilen Chefs des Krimonologischen Forschungsinstituts Niedersachsen, Christian Pfeiffer. Allerdings … lohnt es sich eigentlich noch, etwas zu Pfeiffer zu sagen? Er ist bekannt dafür, einen starken Staat zu fordern, der gegen jede Deliquenz und Abweichung polizeilich vorgeht und diese Forderung mit Studien zu untermauern, die keiner auch nur ansatzweise kritischen Prüfung standhalten. Allerdings: er wird in der Presse und bei bestimmten Politikerinnen und Politikern gerne zitiert, deshalb kommt man offenbar nicht so richtig um ihn herum.
[2] Ein kleiner Schlenker sei erlaubt: in bestimmter Weise scheint diese Orientierung der Community Organizer, also dieser eher US-amerikanischen Variante der Sozialarbeit, die sich auf die Aktivierung von Individuen konzentriert, sich im Wahlkampf und der Politik Barack Obamas widerzuspiegeln. Hier wird weit mehr, als in der deutschen Politik, auf die Organisation politischer und gesellschaftlicher Initiativen von den Betroffenen selber – die beim Wahlkampf nicht unbedingt die Klientel Sozialer Arbeit darstellen müssen – gesetzt. Es scheint, dass die frühere Arbeit Obamas als Community Organizer einen gewissen Anteil an dieser ja schon sehr oft festgestellten neuen, empowernden Form von Politik und Politisierung hatte und hat. [Vgl. als ein Beispiel: Moorstedt, Tobias (2008) / Jeffersons Erben : Wie die digitalen Medien die Politik verändern. – Frankfurt am Main : Suhrkamp, 2008.] Das es eine solche Tradition in Deutschland kaum gibt, könnte ein Grund dafür sein, dass die Übernahme einiger Charakteristika des Obama’schen Wahlkampfs in Deutschland (Twitteracounts, Youtube-Videos, Inszenierung von Politikern als Messiasgestalt etc.) kaum Auswirkungen hat. Hier wird offenbar nur die Oberfläche gesehen, nicht die Denk- und Handlungsstruktur.
[3] Hier könnten Bibliotheken, wenn sie dann die dazu nötigen Kompetenzen und Infrastrukturen haben, eine Aufgabe finden. Dabei postuliert Zeller, dass solche eigenständigen Forschungen und Publikationen auch gegen Tendenzen des „Ausbrennens“ im Beruf helfen könnten. Insoweit wäre die Zurverfügungsstellung einer Publikations- und Forschungsinfrastruktur, ob nun von Bibliotheken, Hochschulen, Fachverbänden oder anderen Institutionen und Initiativen, auch ein Beitrag zur Qualitätssicherung der tatsächlichen Praxis.
[4] wink zu meinem alten Schul-/Jugendklub. No disrespect.

26.04.2009

Schulbibliotheken in Berlin, 2009

Ich hatte schon im letzten Jahr eine Recherche zu den Schulbibliotheken in Berlin durchgeführt, die an eine Recherche anschloss, die ich 2006 in meiner Magisterarbeit verwendet hatte. Diese Recherche habe ich nun in diesem Monat wiederholt. Dabei habe ich die Homepages aller Berliner Schulen nach Hinweisen zu Schulbibliotheken durchsucht.
Wozu das ganze? Es gibt einfach keine anderen Daten zu Schulbibliotheken. Deshalb schweben alle Angaben und Texte zu Schulbibliotheken erstaunlich unempirisch in der Luft, es sei den, sie basieren auf individuellen Erfahrungen (wie z.B. bei Günter Schlamp). Solche Erfahrungen sind selbstverständlich wichtig und interessant, aber sie erlauben beispielsweise nicht, Aussagen darüber zu treffen, wieviele Schulbibliotheken es eigentlich gibt. Angesichts dessen, dass der Bildungspolitik alle paar Jahrzehnte mal einfällt, dass Schulbibliotheken irgendwie sinnvoll sein könnten, ist das schon erstaunlich. Berlin bietet sich als Recherchegegenstand an, weil es gerade nicht als Hochburg der Schulbibliotheken bekannt ist.
Eine kurze Zusammenfassung der Ergebnisse:

  • Schulbibliotheken sind weiterhin schulinterne Einrichtungen, die sich nach den Anforderungen der jeweiligen Schule richten, nicht danach, was in den (seltenen) bibliothekarischen oder pädagogischen Texten über sie gesagt wird.

  • Sie sind deshalb vollständig eigenständig. Es scheint keine Gemeinsamkeit in Ausstattung, Nutzungskonzept, tatsächlicher Nutzung, Öffnungszeiten, Personal, Bestand und Bestandsentwicklung, Einbindung in den Schul- und Unterrichtsalltag, Etat oder anderes zu geben.

  • Öffentlichen und Schulbibliotheken arbeiten in Berlin offenbar so gut wie gar nicht zusammen.

  • Eine relativ große Anzahl von Schulen betreibt Schulbibliotheken (oder ermöglicht es, dass andere, z.B. Schulfördervereine sie betreiben), allerdings entscheidet sich die große Zahl von Schulen dagegen. Einige wenige Schulen geben dafür Geld- und Raumnot an, der Großteil beschäftigt sich zumindest in Öffentlichen Dokumenten nicht mit dieser Frage.

  • Die gerundeten Zahlen: Nach Eigenangabe haben in Berlin 25,3% der Grundschulen (110 von 434), 11,3% der Hauptschulen (6 von 53), 6,8% der Realschulen (5 von 73), 28,7% der Gymnasien (31 von 108), 30,2% der Gesamtschulen (16 von 53), 11,0% der Schulen mit besonderem Förderschwerpunkt (8 von 73) und 11,1% (naja, 1 von 9) Freien Schulen, also insgesamt 22,0% (177 von 803) Schulen bis zur Sekundarstufe II eine Einrichtung, die sie als Schulbibliothek, -bücherei, -mediothek oder ähnlich beschreiben.

  • Im Vergleich zu den Daten von 2008 ist das eine leichte Steigerung bei allen Schultypen, wobei es immer noch so ist, dass die Schülerinnen und Schüler, die einen “hohen” Bildungsabschluss anstreben, eine weit größere Chance haben, eine Schulbibliothek zu nutzen, als diejenigen, welche einen “geringeren” Bildungsabschluss anstreben. Oder anders: Gymnasiasten und Gymnasiastinnen haben mehr Schulbibliothek, als Lernende auf Real- und Hauptschulen, obwohl Schulbibliotheken zumeist diskursiv mit dem Lesenlernen verbunden werden und nicht mit dem Abitur. Allerdings reichen zwei Datensammlungen nicht aus, eine Entwicklungstendenz zu konstatieren.

Ich habe einen kleinen Text, “Schulen und Schulbibliotheken in Berlin, 2009” geschrieben, welcher die Daten genauer bespricht. Dieser findet sich hier: http://www.divshare.com/download/7214782-286
Außerdem habe ich für diejenigen, welche mit den Daten arbeiten wollen, diese Daten inklusive der Zotero-Schnappschüssen in ein Archiv gepackt, welches hier zu finden ist: http://www.divshare.com/download/7214551-9de [Achtung: durch die Zotero-Dateien ist es ziemlich groß, genauer gesagt 67 MB.]
Die Daten zur Recherche 2008, nach denen ich auch immer wieder mal gefragt wurde, finden sich hier: http://www.divshare.com/download/7214893-71f

15.07.2008

Lernen aus Bibliotheksbüchern

John Amosford berichtet von einer Studie von Bibliotheken im Devon County [England], in welcher versucht wurde, festzustellen, was Nutzerinnen und Nutzer eigentlich aus den Büchern lernen, die sie sich in Bibliotheken ausborgen. [Amosford, John / Assessing Generic Learning Outcomes in public lending libraries. – In: Performance Measurements and Metrics, 8 (2007) 2, pp. 127-136] Diese Frage stellte sich im Rahmen der in England an quasi alle öffentlichen Einrichtungen ergehenden ständigen Aufforderung, die Effekte ihrer Arbeit nachzuweisen und gegebenenfalls auf der Basis nachvollziehbarer empirischer Grundlangen zu verbessern [Evidence Based Librarianship].
Dabei wird selbstverständlich auch in England davon ausgegangen, dass Bibliotheken einen Lerneffekt bei ihren Nutzerinnen und Nutzern auslösen würden, obwohl Amosford noch einmal kurz diskutiert, warum eine Bibliothek trotzdem keine formale Bildungseinrichtung (wie Schulen oder Universitäten) sein und mit diesen auch nicht vergliechen werden kann. Allerdings stellt auch Amosford fest, ist dieser weithin angenommen Lerneffekt schwierig zu bestimmen. Der Ausgangspunkt der Studien war folgender: Bibliotheken würden, ganz egal welche Funktionen und Angebote sie ansonsten anbieten und welchen Reformen sie unterworfen würde, immer noch vorrangig von der Öffentlichkeit genutzt, um Bücher auszuleihen:


While the role of libraries has broadened in recent years, the book lending function of libraries is still seen as a core function of libraries by many members of the public, and will remain central to debates about service reform. [p. 135]

Das Problem sei nun, dass zwar vermutet werden kann, dass diese Bücher unter anderem für Lernaktivitäten genutzt werden oder “nebenher” Wissen vermitteln; aber gerade diese Vermutung schwierig zu beweisen ist. Die Bibliotheken im Devon County versuchten dies mithilfe einer Umfrage anzugehen. Sie formulierten folgende Fragen:

Did the book:
Provide you with insight (knowledge and understanding)?
Help you learn new facts (knowledge and understanding)?
Help develop your skills (skills)?
Challenge your attitudes (attitudes and values)?
Change your opinions (attitudes and values)?
Entertain you (enjoyment, inspiration, creativity)?
Motivate or inspire you (enjoyment, inspiration, creativity)?
Change your daily life (activity behaviour and progression)?
Benefit you personally (activity behaviour and progression)? [p. 129]

Interessant war der Weg, diese Fragen zu stellen. Sie wurden auf einem A4-Blatt zusammegefasst, welches den einzelnen ausgeliehen Büchern beigelegt wurde. Dies machte deutlich, dass sich die Fragen auf das jeweilige Buch bezogen. Außerdem konnten sie so von den Ausleihenden on-the-fly beim oder gleich ach dem Lesen des jeweilgen Buches beantwortet werden und nicht erst eine Zeit nach dem Lesen, wie dies bei Interviews der Fall wäre.
Amosford spricht von einer Antwortrate von 20%, was einerseits bedeutet, dass die Daten zwar Trends anzeigen, aber nicht als repräsentativ gelten können. Dennoch erhielten die Bibliotheken 3636 Anworten für belletristische und 1706 für Sachliteratur.
Ein Großteil der Antwortenden gab an, aus dem jeweiligen Buch etwas mitgenommen zu haben, ob nun eine neue Sichtweise oder neue Fakten. Dies gilt nicht nur für die Sachliteratur, sondern ebenso für Belletristik. Kaum jemand gibt an, dass das jeweilige sein oder ihr Leben verändert hätte. Interessant ist allerdings, dass nur eine Minderheit von – immerhin – 27% der Menschen, die sich Sachliteratur ausgeborgten, dies taten, weil sie diese für eigenständige Lernprozesse benötigten. Vielmehr gaben 57% (bei der Belletristik 96%) an, das jeweilige Werk zum privaten Vergüngen (“private enjoyment”) gelesen zu haben. Dies ist ein Rückschlag für die Vorstellung, dass Menschen im Allgemeinen ein konkretes Informationsinteresse formulieren und sich danach gezielt Medien aus der Bibliothek besorgen. Das gibt es auch, aber ein Großteil der Menschen liesst offenbar Sachliteratur aus Spass. Es ist zumindest zu fragen, ob man den Bestandsaufbau an stark an solchen angenommenen Informationsinteressen ausrichten sollte.
Obwohl die Methode ihre Grenzen hat, die von Amosford auch besprochen werden, zeigen sie doch einen gangbaren Weg, um zumindest grundlegende Aussagen über die Nutzung von Bibliotheksmedien treffen zu können.

12.07.2008

Woher kamen eigentlich die PISA-Studien?

Vor einigen Jahren dominierten in Deutschland die PISA-Studien die öffentliche Debatte, die Bildungspolitik und auch die bibliothekarischen Konzeptpapiere und Texte. Das scheint heute anders geworden zu sein, so richtig wurde PISA 2006 nicht mehr wahrgenommen und langsam verschwindet die Phrase, dass man an den PISA-Studien sehen könnte, wie schlecht das deutsche Bildungssystem ist und das deshalb eigentlich sofort xxxx [1], wieder aus diesen Texten.
Was allerdings in diesen Debatten und auch heute nicht so richtig gefragt wurde, war, wieso es eigentlich diese Studien gab. Immerhin kosteten sie jeweils (für Deutschland) rund 30 Millionen Euro. Und sie waren auch nicht die einzigen Studien im Feld der Bildungsstatistik. Hinzu kamen unter anderem die IGLU-Studien, die Stefi-Studie, die DESI-Studie und weitere lokale Studien wie Markus, QuaSum, LAU und LaC. Nicht zu vergessen die Anstrengungen, eine nationale Bildungsberichtserstattung aufzubauen (nicht nur – wie schon länger praktiziert – für die Weiterbildung, sondern auch für Kindertagesstätten oder den gesamten Bildungssektor). Hingegen erschienen die PISA-Studien in den meisten Texten, die sich auf sie bezogen, quasi vom Himmel gefallen zu sein. Irgendwie schien irgendwer (die OECD, wenn man genauer nachschaute) auf den Gedanken gekommen zu sein, diese Studien durchzuführen und irgendwie konnten sie dann auch relativ einfach durchgeführt werden (was immerhin hieß, dass jeweils rund 5.000 Schülerinnen und Schüler drei Stunden Tests schreiben und zudem von allen beteiligten Schulen Fragebögen ausgefüllt werden mussten). Die eigentlich selbstverständliche Frage, welche Aufgaben diese Studien haben, wie sie initiiert und durchgeführt wurden, schien kaum gestellt zu werden, bevor sie jeweils zur Untermauerung des eigenen bildungspolitischen Standpunkts herangezogen wurden.
Dabei sind diese Studien Teil einer relativ grundlegenden Wende der deutschen Bildungspolitik. Es herrscht heute die Vorstellung vor, dass Bildungseinrichtungen nur durch eine möglichste breite und große Unterstützung durch wissenschaftliche Methoden politisch gesteuert werden könnten. Euphemistisch wird diese Hinwendung zu Vergleichsstudien gerne als Anpassung an internationale Gepflogenheiten dargestellt. Das ist selbstverständlich so nicht richtig. Es gibt einige Staaten, in denen in der Bildungspolitik ein Focus auf die externe und interne Evaluationen gelegt wird und es gibt auch Staaten, die sich nicht auf solche Evaluationen konzentrieren oder in denen die Bedeutung von Bildungsevaluationen (schon wieder) zurückgeht. [2] Letztlich ist das immer eine politische Entscheidung, egal wie sehr sich darauf berufen wird, dass es sich bei den Studien um wissenschaftliche Werke handeln würde. [3]
Diese Umorientierung in der Bildungspolitik ist – egal, was man von ihr hält – weit relevanter, als dies in den meisten Bezügen auf die PISA-Studien thematisiert wurde. Die Hinwendung zu empirischen Bildungsberichten verschiebt die Wahrnehmung der Politik von der Aufgabe und Funktion von Bildungseinrichtungen relevant. Letztlich machen diese Bildungsstudien das Versprechen, dass es möglich ist, Bildungsqualität empirisch zu messen und dies sogar in einer solchen Weise, dass (faire) Vergleiche zwischen Bildungseinrichtungen möglich werden und sich aus diesen Ergebnissen Handlungsoptionen für die Bildungspolitik ableiten lassen. Dieses Versprechen wird seit etwas mehr als zehn Jahren in der deutschen Bildungspolitik allgemein geteilt, auch wenn der gesellschaftliche und journalistische Hype um die PISA-Studien offenbar vorbei ist. Letztlich ist dieser Paradigmenwechsel auch relevanter, als beispielsweise jede Aussage über die Lesekompetenz deutschen Schülerinnen und Schüler im Vergleich zu Lernenden in anderen Staaten, die mithilfe der PISA-Studien gemacht wurde.
Eine sehr übersichtliche Zusammenfassung der Versprechen, welche sich die Bildungspolitik von dieser empirischen Wende macht, liefert Isabell van Ackeren [Ackeren, Isabell van (2007) / Nutzung großflächiger Tests für die Schulentwicklung : Exemplarische Analyse der Erfahrungen aus England, Frankreich und den Niederlanden. – Bonn ; Berlin : Bundesministerium für Bildung und Forschung. – (Bildungsforschung ; 3)] im ersten Teil ihrer Untersuchung über verschiedene Ansätze der Nutzung des in solchen Vergleichsstudien generierten Wissens.


Der Blick über die nationalen Grenzen zeigt, dass in vielen Schul­systemen Europas die Einzelschulen in den letzten Jahren immer stärker dazu angehalten werden, Verantwortung über ihre Leistun­gen abzulegen. Zentral organisierte Leistungsmessungen und Eva­luationsprogramme spielen dabei eine wichtige Rolle. Mit ihrer Hilfe werden Auskünfte über die Qualität der Einzelschule einge­holt und öffentlich oder/und vertraulich verschiedenen Zielgrup­pen zur Verfügung gestellt. Großflächige externe Evaluationsfor­men stellen ein wichtiges Element grundsätzlicher, auf die Anhe­bung des Leistungsniveaus eines Bildungssystems ausgerichteter Reformen dar: Die Schulen vieler Länder sind zum Subjekt einer Gesetzgebung und Politik geworden, die große Veränderungen in Bereichen wie ‚Curriculum’, ‚Leistungsmessung’ und ‚Schulauto­nomie’ mit sich brachten. So sind die curricularen Forderungen restriktiver geworden, Testverfahren, aber auch regelmäßige Schul­inspektionen wurden ausgeweitet, Bildungspolitik wurde bei gleichzeitiger Dezentralisierung der Verantwortung für ihre Imple­mentierung stärker zentralisiert und verschiedene Regierungen haben versucht, Marktelemente im Bildungsbereich einzuführen, indem Eltern verstärkt Schulwahlmöglichkeiten eingeräumt wur­den und die Finanzierung der Schulen an die eingeworbene Schü­lerzahl gekoppelt wurde. In diesem Kontext ist ein Denken in be­trieblichen Begriffen auch im schulischen Bereich nicht mehr ungewöhnlich. Unterricht wird durchaus als ein Produktionsprozess gesehen, mit dem Inputs in Outputs transformiert werden. Die Ausprägung solcher Reformen variiert von Land zu Land aufgrund historischer, kultureller, institutioneller und politischer Faktoren. Es gibt einige gemeinsame Elemente, die sich über die Ländergrenzen hinweg identifizieren lassen; großflächige, extern gesteuerte Evaluationsformen sind ein Beispiel dafür, obgleich solche Reform­elemente im Kontext des jeweiligen nationalen Bildungssystems einschließlich seines historischen und gegenwärtigen sozialen Zusammenhangs zu betrachten sind. Vor diesem Hintergrund stre­ben Regierungen vieler Länder der ganzen Welt nach Möglichkeiten, Wissen und Kompetenzen zu testen und sie interessieren sich dafür, ob und wie dadurch das Lehren und Lernen mit den entsprechenden Arbeitsergebnissen kontrolliert werden kann. Die Etablierung von Tests, Prüfungen und Studien wird als wichtiger Steuerungsmechanismus in vielen Ländern angesehen: Alle Schü­ler/innen werden demnach zur Teilnahme an standardisierten Tests und Prüfungen verpflichtet. Das Erreichen bzw. Nicht-Errei­chen der geforderten Standards ist nicht selten mit positiven bzw. negativen Sanktionen, z. B. finanzieller Art, verknüpft, um in Schu­len und Klassenräumen Änderungen zu erreichen und dadurch insgesamt Reformen in Bildungssystemen umzusetzen. Die erhofften Möglichkeiten einer testbasierten Reform scheinen dabei auch aus Kostengründen attraktiv. Tests sind offensichtlich weniger teuer als Reformen, die direkten Einfluss auf das Unterrichtsgeschehen nehmen wollen.
[Ackeren (2007), S. 8f.]

Diese Versprechen werden sich nicht im erhofften Maße erfüllen – dies ist aufgrund internationaler Erfahrungen und der Erfahrung aus anderen Bildungsreformen in Deutschland, schon jetzt problemlos vorher zu sagen. Allerdings ist ein teilweises Scheitern von Reformen im Rahmen demokratischer Prozesse auch kein wirkliches Problem, sondern Triebfeder gesellschaftlicher Auseinandersetzungen. Deswegen wird auch dieses Scheitern insgesamt nicht zum Untergang des deutschen Bildungssystems führen, auch wenn solcher Szenarien immer wieder gerne aufgerufen werden. Trotzdem bestimmen diese Vorstellungen aktuell die Wahrnehmung von Bildungseinrichtungen durch die Bildungspolitik. Und, auch dies ist kein wirklich schwierige, Vorhersage, wenn Bibliotheken Einrichtungen sein wollen, die irgendetwas mit Bildung zu tun haben wollen, dann werden sie gezwungen sein, sich unter dieses Regime zu ordnen. Die PISA-Studien sind nicht vom Himmel gefallen, sie sind Teil eines politischen Paradigmenwechsels. Und dieser ist – wie alle Paradigmenwechsel – weder eindeutig zu begrüßen noch eindeutig abzulehnen.


Fußnote:
[1] Hier beliebige bildungspolitische Massnahme einsetzen. Gerade in der Hochzeit der Debatte schien es, als könnte einfach jede politische Entscheidung (von der egalitären Ganztagsgesamtschule bis zur Förderung der Bildung im Familienverband) und kulturelle Veranstaltung mit den PISA-Studien begründet werden, auch wenn das die eigentlichen Studien bei genauerem Lesen eher selten hergaben.
[2] Dies hat auch lange nicht so viel mit den in Deutschland gerne gepflegten modernen Feindbildern zu tun, wie dies auf den ersten Blick erscheinen könnte. Beispielsweise ist Englang ein Land, in welchem fast ausschließlich Evaluationen und (sich ständig ändernde) Bildungsstandards zur Steuerung von Bildungseinrichtungen eingesetzt wird, wohingegen in Schottland nicht einmal ein allgemein akzeptiertes landesweites Curriculum für Bildungseinrichtungen existiert. In Wales und Nordirland haben Evaluationen ebenso nicht die Bedeutung, die sie in England haben. Ähnlich verhält es sich mit den USA, in dem die Bedeutung von Vergleichsstudien für die nationale Bildungspolitik groß ist – was allerdings in seiner Wirkung dadurch eingeschränkt ist, dass die Bundesregierung keinen verfassungsrechtlichen Anspruch auf die Bildungspolitik der Staaten hat und wenn überhaupt, dann durch die Vergabe von Finanzmitteln Einfluss auf die Bildungspolitik nehmen kann. In einigen US-amerikanischen Bundeststaaten ist die Bedeutung solcher Studien ebenfalls groß, in anderen ist sie praktisch sehr gering. Auch die in Deutschaldn gerne als Vorbild begriffenen skandinavischen Staaten sind ähnlich divers. Norwegen setzt stark auf Bildungsevaluationen und die Veröffentlichung der auf diesem Weg gewonnen Daten, während Schweden sehr verhalten damit umgeht. Auch in Finnland, dass in Deutschland gerne als “PISA-Gewinner” begriffen wird, haben Bildungsstatistiken einer eher geringen Wert. Und das Frankreich ebenso wie Deutschland in den PISA-Studien eher schlecht abschnitt, hat die dortige Bildungspolitik nicht wirklich groß tangiert. Man sollte also mit einfachen Erklärungen, warum in einem Land empirische (und teilweise auch pseudo-empirische) Bildungsberichterstattungen eine große Bedeutung haben und in anderen nicht, sehr zurückhaltend sein. Dies scheint sehr von der nationalen Bildungspolitik und den dort vertrenden Ansichten beeinflusst zu sein.
[3] Was für einige Studien, die außerhalb Deutschlands eingesetzt werden, teilweise bestritten werden kann.

29.06.2008

Ungewollte Effekte weitflächiger Evaluationen

[Gesellschaftliche] Technik, im umfassenden Sinne begriffen, ist funktionierende Simplifikation, ist eine Form der Reduktion von Komplexität, die sich konstruieren und realisieren läßt, obwohl man die Welt und die Gesellschaft nicht kennt, in der dies geschieht: ausprobiert an sich selber. Die Emanzipation der Individuen – wohlgemerkt: auch der unvernünftigen Individuen – ist ein unvermeidlicher Nebeneffekt dieser Technisierung.
Nur ein so weit gefaßter Technikbegriff kann den Anspruch einlösen, zur Selbstbeschreibung der modernen Gesellschaft beizutragen. Er mach das Beiseiteschieben von Hinsichten und Rücksichten verständlich. Er bezeichnet das Absehen von individualpsychologischen und von ökologischen Auswirkungen gleichermaßen. Er klärt die technische Seite der Wissenschaft, und zwar ganz unabhängig von den Anwendungen wissenschaftlicher Erkenntnisse auf Produktionsprozesse. Er macht verständlich, daß die moderne Gesellschaft zur humanistischen und zur ökologischen Selbstkritik neigt; aber auch: daß sie in Reaktion darauf wiederum nur Technik einsetzen kann, indem sie zum Beispiel Humandefizite und ökologische Probleme als Fianzierungsprobleme auffaßt.
[Luhmann, Niklas / Beobachtungen der Moderne. – 2. Aufl. – Wiesbaden : VS Verlag für Sozialwissenschaften, 2006 [1992], S.21f.]

Am 24. und 25. Juni 2008 fand am Wissenschaftszentrum Berlin für Sozialforschung (WZB) die eher wenig besucht Konferenz „Changing Educational Accountablility in Europe“ statt. Während im deutschen Bildungssystem, hauptsächlich im Bezug auf Schulen, Diskussionen darüber geführt werden, ob allgemeine Standards zu einer Erhöhung der Schulqualität führen können, ob mehr nationale und internationale Vergleichsstudien zu einer Verbesserung der Bildungsergebnisse führen werden und ob die Orientierung am betriebswirtschaftlichen Paradigma der informierten Kundin bzw. des informierten Kunden und einem verstärkten Wettbewerb zwischen autonomen Schulen positive Effekte für Schülerinnen, Schüler und deren Familien haben könnten, ist eine solche Test- und Wettbewerbssituation in anderen Staaten die allgemeine Praxis im Schulsystem. Dabei stechen die USA und England (nicht Schottland, Wales und Nordirland) hervor, in denen die bildungspolitische Steuerung der Schulen hauptsächlich über nationale, regionale und kommunale Standards, Test und Wettbewerbssituationen erfolgt. Erklärtes Ziel der deutschen Bildungspolitik ist es, sich dieses Praxis anzunähern. Der sogenannte Konstanzer Beschluss von 1997, in welchem die Kultusministerkonferenz beschloss, dass Deutschland (wieder) an internationalen vergleichenden Bildungsstudien teilnehmen und die Ergebnisse dieser Studien zur Weiterentwicklung des Bildungssystems nutzen soll, war der offizielle Beginn dieses bildungspolitischen Paradigmenwechsels. Die IGLU- und die PISA-Studien waren seine bisher bekanntesten Ergebnisse.

Inkonsistente Studienergebnisse
Die Grundfrage der Konferenz war, so die Präsidentin der WZB Jutta Allmendinger, herauszufinden, was das Messen, Testen und Standardisieren im Hinblick auf Schul- und Unterrichtsqualität bringt. Insbesondere interessierten die Veranstaltenden dabei ungewollte Effekte dieser Steuerungsmodelle. Dabei steht man, wenn man einmal versucht, über eine einzelne Studien hinauszuschauen, beständig vor einem weiteren Rätsel: die Ergebnisse verschiedener Studien lassen sich kaum konsistent miteinander verbinden. Als Beispiel zeigte Prof. Allmendinger, dass es keinen statistischen Zusammenhang zwischen den Ergebnissen von Staaten in den PISA-Studien und der Verteilung und Anzahl und vorgeblichen Qualität der Schulabschlüsse in diesen Staaten gibt. Einen solchen Zusammenhang gibt es auch nicht, wenn man die einzelnen deutschen Bundesländern miteinander vergleicht. Wie im Laufe der Konferenz ersichtlich wurde, gilt dies für verschiedene Studien und Kriterien, die zur Bestimmung der Qualität von Bildungssystemen herangezogen werden.

name and blame
Gwyn Bevan, Professor an der London School of Economics and Political Science, stellte die Praxis des name and blame im englischen Gesundheitssektor vor. Der Gesundheitssektor ist dabei als Vorreiter einer Entwicklung zu sehen, welche mit einiger Verzögerung auch im englischen Bildungssektor zur Anwendung kam. Gesundheitseinrichtungen – Krankenhäuser, Kurhäuser, einzelne Praxen – werden als relativ autonome Akteure auf einem Pseudomarkt verstanden. Diese Institutionen werden so wenig wie möglich direkt bürokratisch kontrolliert und gesteuert, sondern – soweit möglich – als Black-Box verstanden, die einen Input erhalten und einen messbareren Output erzielen sollen. Wie sie den Weg von Input zu Output organisieren, bliebt dabei idealtypisch ihnen selbst überlassen. Die Eingriffsmöglichkeiten des Staates soll sich – neben der Gesetzgebung – auf Hilfe im unabwendbaren Notfall und die finanzielle Förderung guter Praxis beschränken. Gemessen wird diese „gute Praxis“ mithilfe von Standards, d.h. mit mehr oder weniger komplexen Fragesätzen, deren Antworten in möglichst einfache Zahlen übersetzt werden. Im Allgemeinen werden diese Ergebnisse in einfach Punktesystemen (z.B. null bis vier Sterne) und Ranglisten ausgedrückt und in dieser Form auch intensiv medial verbreitet. Insbesondere die Einrichtungen, die bei solchen Tests schlecht abschneiden, werden öffentlich von der Regierung und der Presse benannt und als schlechte Beispiele dargestellt. Dies ist zwar unter der New Labour Regierung seit 1997 verstärkt worden, wurde aber ähnlich schon unter der Regierung der Conservative Party praktiziert.
Erwartet wurde nun, dass sich Institutionen anstrengen würden, möglichst hohe Punktzahlen (Sternchen) zu erhalten, dass sie dies durch eine allgemeine Steigerung der Qualität tun würden und dass gleichzeitig die Grundsätze des kapitalistischen Wettbewerbs dazu führen würden, dass die durch die Ranglisten informierten Bürgerinnen und Bürger das jeweils beste Produkt wählen, bzw. die jeweils beste Einrichtung besuchen würden und somit diejenigen Einrichtungen, die schlechte Ergebnisse erreichen, entweder ihre Qualität verbessern oder aber untergehen würden. [1]
Das trat allerdings, so lässt sich der Vortrag von Bevan zusammenfassen, nicht ein. Egal, wie gut oder schlecht eine Praxis oder ein Krankenhaus abschnitt: es gingen weder relevant mehr noch relevant weniger Menschen hin. Dies ist bei Schulen nicht anders: immer noch gehen Kinder und Jugendliche vor allem in möglichst wohnortnahe Schulen, egal wie sehr sich diese spezialisieren oder wie gut und schlecht diese Schulen bei Rankings abschließen. Der erwartete Markteffekt, welcher durch die Darstellung möglichst einfach nachvollziehbarer Informationen [2] und möglichst großer Wahlmöglichkeit der Individuen erreicht werden soll, trat bis heute nicht ein. Ähnliches berichtete im Laufe der Tagung auch Guri Skedsmo für das norwegische Schulsystem, welches ebenso die Wahlfreiheit der Schülerinnen, Schüler und Eltern fördert.
Ebenso ist allerdings auch kein qualitätssteigender Effekt auf die einzelnen Einrichtungen nachzuweisen. Zwar steigen die gemessenen Werte tendenziell, aber das auch überall. Die Abstände bleiben ähnlich groß.
Hingegen sind negative Effekt für die Reputation und Selbstwahrnehmung der getesteten Einrichtungen nachzuweisen. Zum einen das Gefühl des Personals, für minderwertige Einrichtungen zu arbeiten, dass insbesondere nach schlechten Testergebnissen auftritt. Bevan erwähnte Berichte von Menschen, die sich „am Tag danach“ (d.h. nach einem schlechten Testergebnis) leer und ausgebrannt fühlen und auf ihr Arbeitsstelle als trostlos und emotional herabziehend ansehen. Dies ist nicht nur bei Null-Sterne-Ergebnisse zu beachten, sondern auch bei (meist vorübergehenden) Verlusten von einem Stern, was zu wahren Panikreaktionen in den Einrichtungen führen kann. Zudem ist zu beobachten, dass gerade Einrichtungen, die mit einer solchen Abqualifzierung rechnen, hauptsächlich auf Marketing-Aktionen setzen und nicht auf langfristige Strategien.
Verstärkt wird dieser Effekt dadurch, dass es nicht etwa ein einziges nationales Testsystem gäbe, welches immer und überall angewandt würde, sondern immer wieder wechselnde Tests , ausgehend von unterschiedlichen politischen Ebenen und mit unterschiedlichen Blickwinkeln.

Campbell’s Law

The more any quantitative social indicator is used for social decisionmaking, the more subject it will be to corruption pressures and the more apt it will be to distort and corrupt the social processes it is intended to monitor. [Campbell’s Law]

Daniel Koretz von der Harvard University zitierte Campbell’s Law, um die Wirkung von Tests im us-amerikanischen Bildungssystem zu kennzeichnen. Campbell’s Law besagt, dass ein Indikator um so mehr ein Objekt von direkter und indirekter Korrumption wird, je mehr er als Basis für gesellschaftliche und politische Entscheidungen herangezogen wird.
Bevor er dies ausführte, stellte Koretz klar, dass der überwältigen Bedeutung von unterschiedlichen Tests und Evaluationen im politischen und gesellschaftlichen Diskurs wenig bis quasi gar kein Wissen über diese Tests gegenüberstehen. Die gesamten Tests, egal ob lokal eingesetzte Überprüfungen von Standards oder Tests im Umfang der PISA-Studien, sind selber bisher kaum Gegenstand wissenschaftlicher Untersuchungen geworden. Wir haben kaum Daten über die Reliabilität von Tests, wir haben auch kaum ein Wissen darüber, wie groß die tatsächliche Aussagekraft solcher Tests tatsächlich ist.
Dabei erinnerte Koretz an einen eigentlich trivialen, aber gerne übersehenen Fakt, nämlich daran, dass Tests das jeweils gemessene auf small samples reduziert, beispielsweise die Schulabschlussprüfung das Lernen von 10 oder mehr Jahren Schule in einige Stunden Tests oder die IGLU- und PISA-Studien die Lernerfolge von Schülerinnen und Schülern der vierten Klasse respektive 15-Jährigen in jeweils 2-stündigen Tests. Das jeweils abgefragte Sample soll also immer einen größeren Wissens- und Kompetenzbestand repräsentieren. Ob das Sample dies tatsächlich tut, ist nicht so klar, wie dies gerne angenommen wird. Dies ist bei Schulnoten aus zahlreichen Anekdoten bekannt und immerhin soweit akzeptiert, dass gegen Noten der Klageweg vor Gericht möglich ist. Bei den PISA-Studien hingegen oder auch zahlreichen anderen Evaluationen scheint das quasi nicht thematisiert zu werden.
Desweiteren stellte Koretz auf der Basis seiner Forschungsergebnisse zu Evaluationen im Bildungsbereich klar, dass die in diesen Evaluationen jeweils gemessenen Daten und Kompetenzen zumeist „simple and unspecified“ seien, bzw. dass sie zumeist so grob gefasst werden, dass die Menschen zwar mit ihnen umgehen, aber nicht wirklich sagen können, was jetzt genau gemessen wurde und was die jeweiligen Ergebnisse heißen. Lesekompetenz zum Beispiel: was ist das?
Und nicht zuletzt scheint ein Charakteristika von Ergebnissen solcher Test zu sein, dass sie regelmäßig für Aussagen herangezogen werden, die eine gesellschaftliche oder politische Bedeutung haben, aber überhaupt nicht getestet wurden. Hier kann beispielsweise an die im Rahmen der Debatten um die PISA-Studien mit voller Überzeugung geäußerte Behauptungen verweisen werden, dass Bibliotheken einen positiven Einfluss auf die Entwicklung der – wie gesagt nicht wirklich klar gefassten – Lesekompetenz haben würden, obwohl dieser Einfluss in den Studien überhaupt nicht abgefragt wurde.

Die Überbetonung einzelner Werte, die Campbell’s Law als problematisch herausstellt, führt laut Koretz in US-amerikanischen Schulen zu vier ungewollten Mechanismen:

  1. Cheating, also einfacher Betrug. Je bedeutender das Erreichen bestimmter Werte für die Existenz einer Einrichtung ist oder auch nur dafür, von weiteren Beobachtungen und ungewollten Unterstützungsleistung verschont zu bleiben wird, umso höher ist die Chance, dass dies mit Betrug versucht wird. Dieser Effekt ist allerdings zu erwarten und wird in den meisten Anlagen von Testläufen antizipiert.

  2. Changing which people are treated or measured. Bei jedem bedeutsamen Test kommt es laut Koretz dazu, dass Schulen und lokale Behörden versuchen, bestimmte Schülerinnen und Schüler aus Tests herauszuhalten, indem beispielsweise Ausschlussgründe, die es in jedem Test gibt, sehr weitreichend ausgelegt werden. Bevans hatte Ähnliches für Gesundheitseinrichtungen in England berichtet, wo teilweise bestimmtes Personal oder bestimmte Patientinnen und Patienten an Testtagen von der Einrichtung ferngehalten wird. Selbstverständlich verzerrt sich so jedes Ergebnis.

  3. Shifting efforts from unmeasured to measured outcomes. Dieser Effekt ist eigentlich vorhersehbar, insbesondere, wenn Evaluationen beständig wiederholt werden. Man muss sich allerdings daran erinnern, dass die jeweils gemessenen Werte konstruiert werden, um Aussagen über weiterreichende Kompetenzen zu liefern. Bei der Konstruktion der Tests wird jeweils davon ausgegangen, dass durch das Messen eines Teilbereiches eine Aussage über eine ganzheitlich vermittelte Kompetenz getroffen werden könne. So wurde aus den Ergebnissen der PISA-Test geschlossen, wie die tatsächliche Lesekompetenz der Schülerinnen und Schüler sei. Lesekompetenz ist dabei ein Konstruktion, welches den alltäglichen und problemzentrierten Einsatz des Lesens und der Verarbeitung des Gelesenen beinhaltet. Letztlich waren aber auch diese Test zeitlich begrenzte schriftliche Kontrollen im Klassenraum. Während dies bei einmaligen Test vor allem eine Problem der Aussagekraft darstellt, wird dies bei regelmäßiger Wiederholung zu einen Verzerrungsproblem und führt zu einer Veränderung des Unterrichts. Die Vermittlung von ganzheitlichen Lernstoffen wird zurückgestellt zugunsten des Lernens von getesteten Werten. Dies ist bei den PISA-Studien so überhaupt nicht gewollt. Eigentlich sollen diese Tests so etwas wie ein Photo aus verschiedenen Schulsystemen liefern, während die Schulsysteme davon unbeeinflusst nebenher laufen sollen. Aber das funktioniert einfach nicht. Die Studien selber verändern, worauf im Unterricht und der Wissensvermittlung geachtet wird. Schwierig ist es, den Einfluss dieser Test auf die Gestaltung des Unterrichts genau zu beziffern, aber Koretz nannte Schätzungen, wonach es in US-amerikanischen Schulen üblich sei, sechs Wochen eines Schuljahres vor allem für solche Test – die, anders als die „normalen“ Schularbeiten oder Schuabschlusstests, keinen Einfluss auf die Bildungskarriere der Lernenden haben – zu üben. Abgefragt wird durch die Tests dann also vor allem eine Erinnerung an Geübtes, nicht – wie eigentlich impliziert – eine Kompetenz oder ein Wissensbestand. [3]

  4. Undermining the measured outcomes. Das ist einer unerwünschter, aber eigentlich auch zu erwartender Nebeneffekt: gemessenen werden Daten immer, um mehr, als sich selber auszudrücken. Aber die Fokussierung auf diese Daten – die für die Vergleichbarkeit zwischen Einrichtungen oft notwendig ist – führt dazu, dass die Aussagekraft dieser Daten abnimmt. Die Einrichtungen werden sich, bewusst oder unbewusst, darauf ausrichten, diese Datenwerte zu verbessern und zwar nicht nur, indem die Qualität des Gesamtzusammenhangs, der durch die Daten repräsentiert werden soll, verbessert wird, sondern auch indem hauptsächlich die gemessenen Werte beeinflusst werden. Dies funktioniert oft viel banaler, als man sich das gerne vorstellen will. Der Effekt ist aus Bibliotheken in klein bekannt: am Eingang werden durch einen Zähler die Menschen gezählt, die durch diesen Eingang gehen. Aus dieser Zahl wird auf die Annahme der Bibliothek durch Besucherinnen und Besucher geschlossen. Würde – so die dahinter stehende Überlegung – die Qualität der Bibliothek erhöht, würden auch mehr Menschen diese besuchen. Deshalb wird bei der Bewertung von Bibliotheken die Zahl der Besuche beständig einbezogen. Aber da jede Bibliothek das weiß, kann sie auch darauf achten, dass die Anzahl der am Eingang gezählten Menschen hoch ist, ohne dabei wirklich zu cheaten: beispielsweise andere Ein- und Ausgänge schließen, ein Hinweis darauf abringen, dass es ein öffentliches Klo in der Bibliothek gibt, häufig den offiziellen Eingangs für bibliotheksinterne Gänge nutzen und nicht den Personaleingang, Bestände anschaffen, die zum Mitnehmen und weniger zum in-der-Bibliothek-Nutzen anregen. Das heißt nicht, dass die Zahl der Menschen, die durch den Eingang gehen, unbedeutend wäre. Sinkt sie innerhalb eines Jahres um 50% Prozent, ist das immer noch ein schlechtes Zeichen. Aber ihre Aussagekraft sinkt tendenziell immer weiter, je mehr sich das Wissen um die Bedeutung eines Wertes für die Bewertung einer Einrichtung verbreitet.

Hinzu kommt, so Koretz weiter, dass im schulischen Kontext die Präsentation von Tests zu gänzlich unterschiedlichen Ergebnissen führt, also beispielsweise eine Frage, die als Aufzählung präsentiert wird zu anderen Ergebnissen führt, als die gleiche Frage, die als Fließtext oder als Tabelle präsentiert wird. Insgesamt sei die Aussagekraft von Tests sehr gering, bzw. größtenteils „Nonsense“. Als Forschungsperspektive im Bereich Evaluationen und Standards nannte Koretz abschließend den impact on behavoir and on learning and the score inflation.
[Vgl. auch: Koretz, Daniel / Measuring Up : What Educational Testing Really Tells Us. – Cambridge, MA: Harvard University Press, 2008]

In der abschließenden Fragerunde nannte Koretz auf explizite Nachfrage als positiven Effekt der beständigen Evaluation und Testung US-amerikanischer Schulen, dass sowohl die Lehrkräfte als auch die Schulleitungen gezwungen wären, ihre eigene Arbeit schriftlich zu dokumentieren und zu reflektieren. (Allerdings gibt es aus englischen Bibliotheken auch schon die Klage, dass sie durch das ständige Berichteschreiben nicht mehr zum bibliothekarischen Arbeiten kämen.)
Gwyn Bevan argumentierte im Anschluss an Koretz’ Vortrag, dass die Steuerung öffentlicher Einrichtungen durch Evaluationen und Standards strukturelle Ähnlichkeiten zum Kommandosystem der Sowjetunion aufweise, in welcher auch der Großteil der Verantwortung bei den jeweiligen Einrichtungen gelegen hätte und hauptsächlich über die Vorgabe von zu erreichenden Werten, die zumeist vereinheitlicht waren und auf die realen Gegebenheiten vor Ort wenig Rücksicht nahmen, regiert wurde.
Seine geringe Meinung von Testwerten untermauerte Koretz noch einmal mit dem Hinweis, dass seiner Erfahrung nach Tests zumeist nur das herauskriegen, was eh bekannt sei. Unerwartete Ergebnisse seinen zumeist auf Fehler in den Tests zurückzuführen. Wouter Van Dooren (Universiteit Antwerpen) illustrierte das an den PISA-Ergebnissen in Belgien. Belgien besteht bekanntlich aus zwei Regionen, Flandern und Wallonien, sowie der Hauptstadt Brüssel als eigener Region. Die Geschichte des Schulsystems in den beiden großen Regionen lange gleich verlaufen, erst vor ungefähr zehn Jahren wurden sie in den Verantwortungsbereich der Regionen überlassen, wobei die Struktur der Schulsysteme trotzdem ähnlich blieb. Die Schulen haben in beiden Landesteilen eine relativ große Autonomie. Die PISA-Ergebnisse fallen allerdings radikal auseinander: nimmt man nur Flandern, dann ist diese Region besser, als Finnland und Südkorea, misst man nur Wallonien, dann ist diese Region ungefähr so schlecht wie Deutschland. Es gibt für diese Ergebnisse keine wirkliche Erklärung, da die Strukturen, die gesellschaftlichen und sozialen Voraussetzungen und die Geschichte der Schulsysteme nahezu identisch sind. Eventuell, so Van Doorens Vermutung, liegt der Fehler tatsächlich in der Konzeption der PISA-Studien, nicht in den Schulsystemen, was allerdings die Frage aufwirft, wozu diese Studien dann überhaupt gut seien.

Anne West (London School of Economics and Political Science) konnte Koretz’ Einschätzungen für die Schulen in England bestätigen. Sie stellte einen weiteren ungewollten Effekt der beständigen Evaluation, das ressourcen fest. Englische Schulen werden nach Standards bewertet, die beispielsweise besagen, dass 30% der Schülerinnen und Schüler in einem bestimmten Test eine bestimmte Note erhalten sollen. Nun haben Schulen immer solche Lernenden, die diese Noten von sich aus erreichen, Lernende, welche solche Noten nicht erreichen und Lernende, deren durchschnittlichen Leistungen an der Grenze dieser Noten liegen, die also vielleicht, aber vielleicht auch nicht diese Note erreichen. Intern logisch, aber nicht intendiert, ist nun, dass Schulen ihre Ressourcen auf die Schülerinnen und Schüler konzentrieren, die sich an dieser Grenze befinden, also beispielsweise Nachhilfestunden oder besondere Förderung im Unterricht erhalten, damit diese bei den relevanten Tests die bessere Note erreichen. Davon haben weder die Klassen als Gesamtverband etwas, da nur ein Teil der Lernenden gefördert wird, noch die leistungsschwachen Schülerinnen und Schüler, die eigentlich besondere Aufmerksamkeit verdienen würden und für deren Förderung eigentlich von Regierung Mittel bereitgestellt werden, die aber von den Schulen zum großen Teil zum ressourcen genutzt würden.
Zudem bestätigte auch West den Trend, das Schulen versuchen, Kinder und Jugendliche bei Test außen vor zu halten, auch wenn es dafür keine direkten Hinweise gäbe. Wichtig ist, dass diese Trends allgemein festzustellen sind, es also kein individuelles Fehlverhalten einzelner Schulen oder Lehrkräfte sei, sondern Effekte, die in der Struktur von Evaluationen und Bildungsstandards angelegt scheint.
Die Frage, warum überhaupt evaluiert würden und warum die Bildungspolitik trotz negativer Erfahrungen immer wieder auf Standards und Vergleichsstudien zurückgreift, konnte auch West nicht beantworten. Sie vermutete aber, dass es eher mit der Funktion des politischen Systems und weniger mit dem Bildungssystem zu tun habe: „at least there have to measure something“. Alles andere würde heißen, dass die Politik eingestehen müsse, dass die Evaluationen, welche das englische Schulsystem prägen würden, eine jahrelang beschrittene Sackgasse darstellen würde.

Tests sind politisch
Evaluationen und Vergleichsstudien sind, so kristallisierte sich im Laufe der Konferenz in fast allen Redebeiträgen immer mehr heraus, hauptsächlich politische Instrumente und nicht, wie sie oft verstanden werden, unangreifbare, wissenschaftlich fundierte und objektive Instrumente. [4]
Bénédicte Robert (Université Paris 12 val de Marne, Sciences Po) stellte dies an der Umsetzung des No Child Left Behind Act in Chicago dar. Der No Child Left Behind Act, erlassen 2001, definiert, dass bis 2014 eigentlich alle (100%, wobei politisch umstritten ist, was diese 100% genau heißt) Schülerinnen und Schüler in den USA den gleichen Standard in Lesekompetenz und der mathematischen Kompetenz erreichen sollen. Dazu wird auf eine standardbasierte Evaluation und Steuerung des Schulsystems, auf sogenannte, aber auch nicht genauer beschriebene, „scientifically based research“ und eine Wahlfreiheit zwischen den einzelnen Schulen gesetzt. Zumeist bedeutet die „scientifically based research“ die Vergabe von Evaluationsaufträgen an Unternehmen, die zwar wissenschaftliche Methodiken einsetzen, aber nicht Teil von wissenschaftlichen Einrichtungen darstellen, vergleichbar mit Umfrageinstituten wie Emnid, forsa oder Infratest und Einrichtungen wie Sinus Sociovision. Wichtig ist für diese Politik die Formulierung nationaler Bildungsstandards und der beständige Einsatz von Vergleichsstudien. Die im Rahmen des Gesetzes angewendeten Standards sind Ergebnis politischer Auseinandersetzungen, nicht pädagogischer Debatten.
Ergebnis dieser Politik war allerdings bislang nicht, dass sich die Qualität der Schulen verbessert hätte. Zwar steigen die Ergebnisse bei den regelmäßigen Test, doch scheint dies eher zu den von Koretz dargelegten ungewollten Effekten von Evaluationen zu gehören. Vielmehr hat sich, wie Robert darstellte, ein Kompetenzstreit zwischen unterschiedlichen politischen Ebenen darüber entwickelt, was genau, wie und wann gemessen wird. In Chicago hat dies beispielsweise den Effekt, dass die Schülerinnen und Schüler pro Schuljahr zwei unterschiedliche Tests schreiben müssen, einmal den, der im Bundesstaat Illinois verwendet wird und einmal den, welchen die Stadt Chicago verwendet. Interessant ist, dass durch die Konzentration auf Standards und Evaluationen, trotz aller Rhetorik von der erweiterten Autonomie der Schulen, der (verfassungsrechtlich nicht zu begründende) Einfluss des Nationalstaates und von Nicht-schulischem Personal, insbesondere aus der lokalen Wirtschaft, auf die Schulen zugenommen hat.
Giliberto Capano (Università di Bologna) fasste die Situation in Italien zusammen. In Italien existiert zwar seit 1994 eine Einrichtung, die für die Regierung Daten über die Hochschulen sammeln soll, was sie auch – das erste Mal in der italienischen Geschichte – kontinuierlich tut. Allerdings wird auf diese Daten von der Regierung – die in Italien auch relativ oft wechselt – kaum zurückgegriffen. Bisher gäbe es keine klaren und konsistenten Aussagen der Politik, was diese überhaupt von den Hochschule wolle, schlimmer noch: die einmal gemachten Forderungen scheinen relativ belanglos, ihre Umsetzung wird weder überprüft, noch bewertet. Ob eine Universität sie umsetzt oder nicht, scheint relativ egal. Ohne solche Vorgaben sei allerdings – abgesehen von allen anderen Problemen – jewede Evaluation vollkommen sinnlos.

Auch wenn das auf der Konferenz selber kein Thema war, geht die Formulierung von Tests immer auch mit einer kritischen Forschungsrichtung zusammen, die daran arbeitet, „faire Tests“ zu entwickeln, die unterschiedliche Ausgangsbedingungen einbeziehen und es beispielsweise ermöglichen sollen, unterschiedliche langfristig angelegte Schulkonzepte abzubilden. Der Einfluss dieser Forschungen scheint bisher aber nicht allzu groß zu sein.

Was ist zu erwarten?
Die Konferenz wurde einberufen, um sich darüber klar zu werden, was die sich abzeichnende Wende hin zu Standards und evaluationsbasierte Outcome-Analysen in der Bildungspolitik für das deutsche (formale) Bildungssystem bedeutet. Allerdings, so fasste Jutta Allmendinger am Ende der Konferenz zusammen, wissen wir immer noch nicht, was das ganze Messen und Standardisieren mit der Entwicklung der Schulqualität zu tun hat. So wie es aussieht, scheinen die negativen Einflüsse zu überwiegen.
Allmendinger verwies darauf, dass auch in deutschen Debatten um die Bildungsqualität der Fokus auf bestimmte Werte gelegt wird. Sie kündigte an, dass das WZB sich in der nächsten Zeit damit beschäftigen wird, wie in diesen Debatten soziale Kompetenzen einbezogen werden können, die bislang überhaupt nicht thematisiert sind.

Die Wende hin zum Testen und Betonen von evaluierbaren Outcomes wird nicht allein im Schulbereich stattfinden. Vielmehr scheint aktuell die gesamte öffentliche Verwaltung davon ergriffen zu sein. Deshalb wird sich dies auch auf Bibliotheken auswirken. Der BIX-Bibliotheksindex ist dabei nur ein kleiner Schritt. Seine Reichweite ist beschränkt, die Teilnahme an ihm ist noch freiwillig und die Kritik an den in ihm bedeutsamen Werten und deren Analyse ist wenn auch nicht dokumentiert, so doch relativ weit verbreitet. Aber die Grundidee, dass Standards dabei helfen würden, dass die Qualität von Bibliotheken nachgewiesen und verbessert werden könnte, scheint sich immer mehr durchzusetzen, obwohl dies bislang im besten Fall eine theoretische Möglichkeit darstellt. Eine empirische Evidenz für den positiven Effekt von Standards und Evaluationen gibt es für Schulen nicht, es gibt ihn für das Gesundheitswesen nicht, insoweit wäre es überraschend, wenn es ihn für Bibliotheken gäbe. Die Arbeitgruppe „Bibliothek 21“ schlägt dennoch relativ ausgearbeitete „Leistungs- und Qualitätsstandards für Bibliotheken“ vor, dass sich hauptsächlich auf Prozentwerte stützt. Ob dieser Vorschlag irgendeinen Einfluss zeitigen wird, wird abzuwarten bleiben.
Wichtiger erscheint, dass es mit einiger Wahrscheinlichkeit dazu kommen wird, dass auch für Bibliotheken Standards von Dritten erlassen werden, denen man sich nicht so leicht wird entziehen können, wie dem BIX. Die PISA-Studien kamen ja auch nicht, weil die Schulen sie gewollt hätten, sondern weil die Kultusministerkonferenz einem Vorschlag der OECD zustimmte. Es ist in diesem Zusammenhang vielleicht hilfreich, an Nico Stehrs Fazit seiner Studie zum Einfluss des Wissens auf die Konstitution moderner demokratischer Einrichtungen und Gesellschaften zu erinnern:

Dennoch wird die Abhängigkeit vom Wissen weiter zunehmen. Denn trotz der Demystifizierung des Wissens kann die Alternative nicht lauten, statt dessen mehr oder weniger zufällig auf irgendwelche Glaubensvorstellungen zu vertrauen. Man muß sich mit dem Gedanken der Kontingenz des Wissens vertraut machen und die Illusion verabschieden, daß dieser Zustand nur eine vorübergehende Erscheinung sei, die über kurz oder lang wieder verschwindet.
[Stehr, Nico / Die Zerbrechlichkeit moderner Gesellschaften : Die Stagnation der Macht und die Chancen der Individuums. – Weilerswist : Velbrück Wissenschaft, 2000, S. 309]


Fußnoten:
[1] Hierzu ist in Gesundheitsbereich eine freie Wahlmöglichkeit der Bürgerinnen und Bürger notwendig, die in Deutschland durch das Hausarztprinzip nicht gegeben ist. Im Bildungsbereich ist für eine solches System auch eine Wahlfreiheit notwendig, die aufgrund des Wohnortprinzips bei Schulen (d.h. das prinzipiell Schülerinnen und Schüler in der nächstgelegenen Einrichtung eingeschult werden sollen) in Deutschland ebenso nicht gegeben ist.
[2] Im Allgemeinen gehen alle zeitgenössischen betriebswirtschaftlichen Theorien davon aus, dass zum funktionieren eines Marktes informierte Marktteilnehmer gehören. Nur wenn alle Teilnehmenden an einem Markt auf die gleichen Informationen zurückgreifen können werden sie dieser Überzeugung nach rationale Marktentscheidungen treffen. Ansonsten würde die Interaktionen auf dem Markt nicht unter Gleichen stattfinden. Als ein möglicher Grund für ein Marktversagen wird deshalb die angebliche oder reale Uninformiert einzelnen Akteure angesehen. Obwohl klar ist, dass Informationsmonopole einen einschränkenden Einfluss auf Märkte haben, ist der positive Markteffekt einer allgemeinen Informiertheit bislang nicht wirklich empirisch abgesichert, ebenso wenig wir die Vorstellung, dass Marktteilnehmer hauptsächlich rationale Entscheidungen treffen würden.
[3] Dies wird auch möglich, da sich um diese Tests herum ein eigenständiger Wirtschaftszweig entwickelt hat. Dies Tests werden öfter von wirtschaftlichen Einrichtungen und weniger von wissenschaftlichen Institutionen entworfen und durchgeführt. Aus Gründen der Transparenz sind die Anlage all dieser Test inklusive Beispielaufgaben im Buchhandel zu erhalten, zudem Übungsbücher und Kurse für die jeweiligen Kurse, was genau genommen vollkommen gegen die Grundüberlegung dieser Tests wirkt, die ja eigentlich Aussagen über größere Zusammenhänge ermöglicht werden solle. Zu vergleichen ist dies teilweise mit dem absurden Wettlauf um den perfekten Lebenslauf, in den sich in Deutschland (und anderswo) Arbeitssuchende stürzen. Einerseits gibt es Hinweise, Bücher und Kurse darüber, worauf Arbeitergeber achten würden und zwar in einer wachsende Zahl mit durchaus widersprüchlichen Angaben. Anderseits gibt es die Arbeitgeber, die sich immer wieder auf neue Auswahlkriterien einigen müssen, da die alten nichts mehr taugen, einfach, weil zu viele Menschen absichtlich auf bestimmte Dinge achten, wenn die Bedeutung dieser Dinge erstmal bekannt gemacht wurde. Gab es beispielsweise eine Zeit, in der bei einer Anzahl von Stellen darauf geachtet wurde, das Menschen irgendwie in ihrem Anschreiben andeuten, sozial aktiv zu sein, setzte sich irgendwann die Floskel, man wolle „gerne was mit Menschen machen“ so sehr in fast allen Bewerbungen durch, dass dieses Kriterium nichts mehr galt. War einst ein Lebenslauf, der viele ehrenamtliche Tätigkeiten enthielt, ein Auswahlkriterium, da Menschen mit einem solchen ein hohe Selbstorganisationsfähigkeit zugestanden wurde, gilt dieses Kriterium immer weniger, nachdem es sich herumgesprochen hat und heute jede zweistündige Tätigkeit als Linienrichter bei einem Sportfest als bedeutsame ehrenamtlich Tätigkeit in den Lebenslauf aufgenommen wird, die auch nicht mehr von einer langjährigen Tätigkeit als Jugendtrainer zu unterscheiden ist. Dies ist ein ständiger Wettlauf, der dem eigentlichen Ziel, sich a.) als Arbeitsuchende möglichst gut zu präsentieren und b.) als Arbeitgebende, dass für die jeweilige Stelle und den Arbeitszusammenhang passende Personal zu finden, nicht im geringsten dienlich ist. Letztlich scheinen oft die Menschen „zu gewinnen“, die die zufällig richtigen Bewerbungsratgeber gelesen haben und weniger die, welche am Besten auf die Stelle passen würden. (Erinnert sich noch jemand an die Zeit, wo die Handschrift auf den Briefumschlägen, mit denen Bewerbungen geschickt wurden, angeblich graphologisch ausgewertet wurden? Und daran, wie Menschen tatsächlich diese Adressen von anderen Menschen schreiben ließen, weil sie meinten, ihrer Handschrift vermittle das falsche Bild?)
[4] Zumal, wie Nico Stehr immer wieder betont, gesellschaftlich ein unzutreffendes Bild von wissenschaftlichem Wissen verbreitet ist. Während wissenschaftsinterne die Prekarität und beständige Diskussion wissenschaftlicher Methoden und Ergebnisse als Vorteil gilt, versteht die Gesellschaft allgemein wissenschaftliches Wissen als unumstößliches Tatsachenwissen, quasi als letztmögliche Tatsachenaussage. Zumindest wird wissenschaftliches Wissen so benutzt, als sei es unumstößlich. Deshalb wird der Expertin und dem Experten eine Aussagekraft zugestanden, die sich nicht aus der Qualität der gelieferten Daten heraus begründen lässt.

24.05.2008

Elemente und Methoden der Bildungsforschung

Bildung ist, nicht nur im bibliothekarischen Rahmen, recht diffus definiert. Ebenso uneinheitlich sind die wissenschaftlichen Zugriffe auf die Wirkung von Bildung. Die einen messen den Wissenszuwachs und nennen das Bildungseffekt, die anderen versuchen einen Zusammenhang zwischen Bildungsabschlüssen und beruflicher Position oder dem erwirtschafteten Einkommen Jahre nach dem Abschluss zu messen, wieder andere versuchen nach einer Bildungsaktivität – sagen wir mal einem Fortbildungsseminar – die Zufriedenheit der Lernenenden zu erfragen. All diese Ansätze sind nachvollziehbar und führen zu sinnvoll verwendbaren Ergebnissen. Hinzu kommt, dass Wissenschaft beständig zur Politikberatung herangezogen wird und dann möglichst einfach nachvollziehbar zuvor gestellte Fragen beantworten und die Ergebnisse so darstellen soll, dass auf ihrer Basis politische Entscheidungen getroffen werden können. Diese Studien sind dann zwar sehr praxisorientiert und lassen teilweise die inhaltliche Tiefe vermissen, welche man ansonsten von wissenschaftlichen Arbeiten erwartet – nichtsdestotrotz sind sie relevant, schließlich haben sie zumindest einen theoretischen Einfluss auf die Bildungspolitik. (Ob sie das tatsächlich haben, ist eine andere Frage, welche unter dem Schlagwort “Vermittlungsproblem” gerade in der Sozialwissenschaft intensiv bearbeitet wird.) [1] Hinzu kommt, dass eigentlich “schon immer”, aber durch die Forderung nach Qualitätskontrolle und Evaluation verstärkt, in weithin dokumentierter Form wissenschaftlichen Methoden im kleineren Rahmen in den Bildungseinrichtungen selber angewandt werden, um Rückmeldung über die Wirksamkeit der eigenen Anstrengungen zu erhalten und diese zur weiteren Entwicklung der jeweiligen Einrichtung zu benutzen. [2]
Diese Vielfalt ist ein Ausdruck der Bedeutung, der Bildung allgemein zugemessen wird. Das ist zu begrüßen, aber für die Frage, welche Bildungseffekte Öffentliche Bibliotheken haben (könnten) ist diese unübersichtlich Landschaft einigermaßen unhandlich. Es ist nicht einfach möglich, eine Mastermethode zu übernehmen, die in einem ähnlichen Feld (beispielsweise der Museumspädagogik) entwickelt wurde und diese einfach für Bibliotheken anzuwenden. (Schade eigentlich.)
Insoweit ist erst einmal eine Systematisierung notwendig: Welche Methoden werden angewandt, um welche Forschungsfragen im Zusammenhang mit Bildung zu stellen? Welche Forschungsfragen werden überhaupt gestellt? Es ist ja nicht so, dass sich irgendwer hinstellt und fragt: “Ist die Bildung dieser Einrichtung jetzt gut oder schlecht?”, dann eine Methode anwendet, eine Zahl als Ergebnis erhält und damit zufrieden ist. Das mögen sich manche Politikerinnen und Politiker vielleicht wünschen, teilweise scheinen auch die PISA-Studien in der Öffentlichkeit so wahrgenommen worden zu sein. Aber ein Blick in die unterschiedlichen Forschung selber zeigt, dass das offenbar nicht funktioniert. Jede der Studien formuliert erstmal, was sie eigentlich untersucht, also welche Frage sie genau stellt und wählt aufgrund dieser Frage die jeweils angewandte Methode aus.
Eine solch Systematisierung ist das Thema des Abschnitts, an dem ich gerade schreibe. Letztlich muss eine solche Systematisierung auch noch daraufhin angeschaut werden, was sie für die Frage nach bibliothekarischen Bildungseffekten bringt. Aber das ist dann der folgende Schritt. Zumindest scheint es möglich, die Forschungsfragen nach drei Ebenen zu unterteilen und diese Ebenen nach einzelnen Elementen. Ebenen bedeutet hier: Inhaltliche Ebene, geographische Ebene, temporale Ebene. Deutlicher wird das wohl, wenn man die dazugehörigen Elemente ausführt.

Inhaltliche Ebene [also die Frage: was wird als Bildung verstanden oder an Bildung gemessen?]

  • Wissenzuwachs

  • Leistung [Beitrag zur Aufrechterhaltung eines gesellschaftlichen Subsystems wie ein Wirtschaftszweig oder die demokratischen Öffentlichkeit]

  • Verwertbarkeit [Zusammenhang von Bildungsabschluss und dem Geld, dass man über die Lebenszeit erhält]

  • Umsetzung von Zielsetzungen [individuellen, gesellschaftlichen oder anders definierten, beispielsweise der Vorstellung von Wirtschaftsverbänden von “ausbildungsfähigen” Jugendlichen]

  • Wohlbefinden

geographische Ebene

  • individuell [also direkt “am” Individuum gemessen, bei den den einzelnen Lernenden]

  • institutionell [eine Schule, ein Seminar etc.]

  • regional

  • gesamtgesellschaftlich / national / international

Temporale Ebene

  • aktuell [Vorbild: Leistungskontrollen in Schulen]

  • nach Beendigung einer Bildungsaktivität [beispielsweise Abschlussprüfungen]

  • biographisch

  • in einem definierten Zeitraum [eher die politische Kategorie, wenn beispielsweise die Opposition in einem Landtag überprüfen lassen will, ob die bildungspolitischen Entscheidungen der Regierung in den letzten drei Jahren überhaupt etwas gebracht haben]

Jeder dieser Ebene lassen sich ungefähre Erkenntnisinteressen zuordnen, welche mit jeweils ähnlichen Methoden angegangen werden. Also beim Element “Verwertbarkeit” die Frage: Lohnt sich ein Bildungsgang und die direkten und indirekten Ausgaben für ihn? Dazu werden zumeist statistische Methoden genutzt, indem Bildung durch Abschlusszertifikate [Zeugnisse, Berufs- und Hochschulabschlüsse] operationalisiert und mit den beruflichen Karrieren von Menschen in einen Zusammenhang gebracht werden. Das ist etwas einfach ausgedrückt, die Methoden selber sind dann elaborierter, als einfach nur Zusammenhänge zu postulieren, auch die Fragen sind (oft) weitergehend. Beispielsweise wird gefragt, ob dieser Zusammenhang für Frauen anders ist, als für Männer (bzw. das weiß man auch so, die Fragen ist, wie sehr unterschiedlich der Zusammenhang ist). Oder beim Element “Wohlbefinden” die Frage, wie jemand einen Bildungsaktivität wahrgenommen hat und wie er sie persönlich im Bezug auf den sinngebenden Effekt, den Bildung auch haben soll, bewerten würde. Dies wird meist realisiert, indem einerseits rekonstruiert wird, was eigentlich bei der jeweiligen Bildungsaktivität genau passiert ist und was deren Ziele waren und andererseits relativ offene (teil-standardisierte oder fokussiert-narrative) Interviews mit den Teilnehmenden geführt werden. Selbstverständlich haben all diese Ansätze ihre Vor- und Nachteile, zumeist auch “blinde Flecken”, also Dinge die sie nicht abbilden können. Das scheint aber kein Manko zu sein, solange die jeweiligen Grenzen reflektiert werden und nicht irgendwer behauptet, die einzig richtige Mastermethode gefunden zu haben, die alles im Bezug auf Bildung messen kann. [3]
Diese Systematisierung ist bei mir erstmal in einer größeren Tabelle kumuliert, welche sich aber gewiss im Laufe der Arbeit noch wandeln wird. Jetzt wird die Frage zu bearbeiten sein, was das für Bibliotheken und der Bildungseffekte heißen kann. Wenn beispielsweise zahlreiche Studien auf den Zertifikaten von Bildungseinrichtungen aufbauen, einfach weil diese verfügbar sind und zudem einigermaßen standardisiert vergeben werden, dann muss man einfach feststellen: das tun Bibliotheken nicht. Es gibt vielleicht hier und da “Bibliotheksführerscheine” für Kinder oder Bescheinigungen über die Teilnahme an Recherchekursen [4], aber diese haben mit den Zertifikaten von Schulen und Ausbildungseinrichtungen nichts zu tun: ihr “Inhalt”, die Formalitäten für deren Erwerb und die Leistungen, die für diesen Erwerb aufzubringen sind, sind einfach zu uneinheitlich. Auf diese Weise wird Bildung in Bibliotheken nicht zu messen sein.


Fußnoten:
[1] Immerhin lässt sich so der Erfolg der Sinus-Studien verstehen, die in der Darstellung ihrer Ergebnisse relativ oberflächlich bleiben, die angewandten Methoden und ihre Datensammlung unter Verschluss halten (was eigentlich bei wissenschaftlichen Arbeiten gerade nicht passieren sollte, die immer so dargestellt werden sollen, dass sie nachprüfbar sind), da sie ihr Firmenkapital darstellen und trotzdem immer wieder neue Aufträge für weitere Teilstudien erhalten – zuletzt zur Lebenswelt von Migrantinnen und Migranten in Deutschland und zum Wiedereinstiegsverhalten von Frauen nach der Schwangerschaft und der Kindererziehung.
[2] Ganz abgesehen davon, dass auch die Theorieproduktion zum Entstehen von Bildungseffekten nicht zum Erliegen gekommen ist, trotz aller Warnungen davor, dass eine zu große Orientierung auf die praktische Verwertbarkeit von Wissenschaft genau dazu führen könnte.
[3] Okay, dass ist schon angesprochen worden: wenn die Öffentlichkeit diese Grenzen nicht wahrnehmen will, hat man das Problem wieder. Das ist ja mit den PISA-Studien passiert, deren Aussagekraft ja letztlich begrenzt war, einfach weil sie nicht das gesamte Bildungssystem untersuchten, sondern “nur” die notwendig stark standardisiert abgefragten Leistungen von 15-jährigen Schülerinnen und Schülern in drei, später vier “Kompentenzbereichen”, wobei auch diese Bereiche einer Definition bedurften, die umstritten war. Über den musischen Unterricht, über die Leistungen am Ende der Schulzeit oder Einfluss von nicht-schulischen Lernorten beim Erreichen der jeweiligen Ergebnisse konnten die Studien keine Ergebnisse liefern. Dafür haben sie unumstritten den Vorzug – weil sie neben den Test auch die soziale Lage der Lernenden abfragten -, die sozial ungerechte Wirkung des deutschen (und belgischen) Bildungssystems empirisch untermauert zu haben. Das war der Öffentlichkeit – auch der bibliothekarischen – allerdings relativ egal, als die ersten beiden Studien diskutiert wurden. Die dortig gelieferten Werte wurden zu unanfechtbaren Aussagen über das gesamte Bildungssystem erklärt und die gelieferten Tabellen zu Wertungslisten wie in der Bundesliga. Daran hat auch die umfangreiche Darstellung der Testergebnisse und -instrumente sowie die Reflexion der Grenzen dieser Studien in diesen Publikationen nichts geändert. (Und das PISA 2006 jetzt in der Öffentlichkeit, an der Aufregung bei den beiden anderen Studien gemessen, quasi ignoriert wird, ist noch ein anderes Thema.)
[4] Ich rede von Öffentlichen Bibliotheken. Bei Hochschulbibliotheken, die sich als “Teaching Libraries” verstehen, mag dies etwas anderes sein. Immerhin gelten die Angebote einiger dieser Bibliotheken als offizielle universitäre Module, in denen teilweise Credit Points erworben werden können.

2.05.2008

Wirkung politischer Erwachsenenbildung

Die Frage, wie die Wirkung von Bildung gemessen werden kann, welche außerhalb des formalen Bildungssystems [Schule, Ausbildung, Hochschule und – je nach Diskussionsstand – auch Kindertagesbetreuungseinrichtung] stattfindet, wurde im Rahmen der Erwachsenenbildung fokussierter und intensiver bearbeitet, als dies bislang für Öffentliche Bibliotheken der Fall war. Insoweit kann die Studie Wirklichkeit und Wirkung politischer Erwachsenenbildung von Klaus Ahlheim und Bardo Heger [Ahlheim, Klaus ; Heger, Bardo (2006) / Wirkung und Wirkung politischer Erwachsenenbildung : Eine empirische Untersuchung in Nordrhein-Westfalen. – Schwalbach / Taunus : Wochenschau Verlag, 2006], Hinweise auf die Probleme und Möglichkeiten geben, die Wirkung von Bildung in Bibliotheken oder anderen Einrichtungen außerhalb des formalen Bildungssystems zu bestimmen, beispielsweise die von Museen, Jugendklubs, Stiftungen oder Vereinen.

Methode
Es gibt, so fassen Ahlheim und Heger gleich zu Beginn ihrer Arbeit den Sachstand zusammen, auf dem Gebiet der politischen Erwachsenenbildung kaum Daten, auf die eine Untersuchung aufbauen könnte, auch wenn in den letzten Jahren einige Untersuchungen zur Wirkung dieser Form von Bildung erschienen, welche allerdings wenig mehr als einige Hinweise geben können. Zudem besteht bei den Forschenden und Aktiven auf diesem Gebiet immer eine große Skepsis, ob eine solche Wirkungsmessung überhaupt möglich sei.
Wir sind vor allem überzeugt, dass man die Wirkung politischer Erwachsenenbildung, an der ja letztlich alle, die Teilnehmer, die Anbieter, de Lehrenden, die Träger, ‘Finanzierer’ und Politiker, interessiert sind, nicht exakt messen und belegen kann. Und wir haben dennoch versucht, die Wirkung politischer Erwachsenenbildung empirisch auf die Spur zu kommen. [S. 8]
Ausgehend von der Erkenntnis, dass die Messung dieser Wirkungen mit einer einzelnen Methode nicht gelingen kann, unterteilen Ahlheim und Heger ihre Untersuchung in vier Schritte:

  1. Eine quantitative Bestimmung des Status Quo (also: Wieviele Einrichtungen? Wie groß? Welche Programminhalte? Welche Programmformen?), hauptsächlich durch Hinzuziehung vorhandener Statistiken und einer Programmanalyse von 27 ausgewählten Einrichtungen

  2. Aufgrund der Programmanalyse Experten-/Expertinneninterviews mit einer kleineren Stichprobe über die Trends in der politischen Erwachsenenbildung. Die Expertinnen und Experten waren die Mitarbeitenden in 15 Einrichtungen, welche jeweils in ihrer Einrichtung für die Programmgestaltung verantwortlich sind

  3. Zur Überprüfung der Ergebnisse des ersten und zweiten Schritts eine Verschickung von Fragebögen an einer größere Stichprobe von letztlich 116 antwortenden Einrichtungen

  4. Zur Überprüfung der Wirkungen politischer Erwachsenenbildung auf der Ebene der Teilnehmerinnen und Teilnehmer ein Anzahl von leitfadengestützten, biographieorientierten Interviews

Überevaluation
Gerade bei der Verschickung der Fragebögen stießen Ahlheim und Heger auf ein Problem, welches bisher – im Gegensatz zur englisch-sprachigen Wirkungsforschung – in Deutschland kaum thematisiert wurde: die (gefühlte) Über-Evaluation von Einrichtungen. Die Tendenz öffentlicher Verwaltungen und anderer Trägereinrichtungen, aber auch die Hinwendung zu einer praxisorientierten Forschung und zur verstärkten Ausbildung für diese Forschung, führte gerade in öffentlichen Einrichtungen in Großbritannien und den USA dazu, dass immer wieder neue Berichte geschrieben und neue Datensammlungen angelegt werden müssen, die ja auch Arbeitszeit kostet und immer weiter als Belastung empfunden werden. Offenbar führte auch die beständig neugefasste Evaluation in verschiedenen Einrichtungen dazu, dass kaum noch Zeit blieb, die Ergebnisse solcher Evaluationen in der eigenen Einrichtung auszuwerten und aus ihnen Konsequenzen zu ziehen.
In Deutschland scheint dieses Problem zwar an einigen Stellen reflektiert zu werden, Stefan Hornbostel vom Institut für Forschungsinformation und Qualitätssicherung erwähnt dies beispielsweise in seinen Vorträgen immer wieder einmal, aber in der Praxis und Forschung bislang kaum als Problem thematisiert zu werden. Ahlheim und Heger berichten demgegenüber sehr direkt von diesem Problem, welches sich in der Forschungspraxis mit hoher Wahrscheinlichkeit im zunehmenden Maße einstellen wird:

Auf unsere telefonische Mitteilung, dass wir die ursprünglich gesetzte Abgabefrist um einige Wochen verlängert haben, hörten wir recht oft – teils als Entschuldigung für die Verspätung, teils als Begründung für eine endgültige Absage an unser Ansinnen – die Klage, dass man zur Zeit mit Fragebogen und statistischen Erhebungen der verschiedenen Träger, Förderer und Geldgeber regelrecht, so mehrfach wörtlich ‘zugeschmissen’ werde. [11]

Solches “Zuschmeißen” hat hat außer Verspätungen bei der Beantwortung auch den Effekt, dass die Fragebögen und Berichte möglichst schnell ausgefüllt und geschrieben werden und deshalb in ihrer Aussagekraft verliehren, einfach, weil Standardformulierungen und ungefähre Angaben effektiver sind, als die eigentlich angestrebten Reflexion über die jeweilige Fragen. Gerade für sozialwissenschaftliche Ansätze stellt das ein großes Problem dar, denn was will man mit Fragebögen herauskriegen, die mit Standardantworten ausgefüllt werden? Zumal man sich ja erhofft, dass die angebotenen offenen Antwortmöglichkeiten neue Erkenntnisse ermöglichen.

Ergebnisse
Gemäß dem Anspruch an die politische Erwachsenenbildung, möglichst vielfältig zu sein und auf die Bedürfnisse der Gesellschaft einzugehen, ist die Landschaft dieser Bildung in Nordrhein-Westfalen sehr unterschiedlich und thematisch relativ bunt. Dies ist das grundlegende Ergebnis der Studie von Ahlheim und Heger. Gleichwohl schlägt sich die allgemein angespannte Haushaltslage auf die Programmgestaltung nieder, was allerdings auch zu erwarten war. Hervorgehoben wird, dass nicht einmal die in den Medien oft als schwer zu erreichenden “sozial Schwachen” mit geringen Bildungshintergrund die Zielgruppe darstellen, welche von der politischen Erwachsenenbildung nicht erreicht wird. Vielmehr sind es gerade Berufstätige, die kaum an Veranstaltungen der politischen Bildung teilnehmen. Während andere Zielgruppen offenbar durch spezielle Programme erreicht werden, sind es gerade die Personen, welchen das Leitbild der deutschen Gesellschaft abgeben (die erwerbstätigen, selbstverantwortlichen und kompetenten Menschen), die sich der politischen Bildung relativ verweigern, solange es nicht gerade in gewerkschaftlichen Fortbildungen um betriebspolitische Themen geht. Allerdings ist zumindest in der politischen Erwachsenenbildung – wenn auch nicht unbedingt in der Öffentlichkeit – dieses Problem auch schon länger bekannt.
Interessanter ist das Ergebnis, dass kürzere Veranstaltungsformen (Vorträge, Diskussionen etc.) eher ein Stammpublikum der jeweiligen Einrichtungen ansprechen, während längere Veranstaltungsformen (Seminare, Vortragsreihen, Bildungsurlaub etc.) eher von “neuen” Teilnehmerinnen und Teilnehmer gewählt werden. Zwar ziehen Ahlheim und Heger aus diesem Ergebnis keinen eigenen Schluss, deuten aber berechtigt an, dass dieses für die immer wieder auftauchende Debatte um den Sinn von “Kurzbildung” relevant ist. Wenn vor allem Menschen “kurze” Veranstaltungen nutzen, die immer wieder kommen, dann kann man von langfristigen Wirkungen dieser Veranstaltungen ausgehen, die mit einer Abfrage der Erkenntnisse direkt nach der Veranstaltung nicht erfasst werden können.
Interessant sind auch die Auseinandersetzung der politischen Erwachsenenbildungseinrichtungen mit dem Qualitätsmanagement (QM). QM wird nach und nach in unterschiedlichen öffentlichen und quasi-öffentlichen Einrichtungen zum Standard. Dabei stellen Ahlheim und Heger klar, dass es zwar einen Diskurs gibt, der ein Bild zeichnet, nachdem die Programmgestaltung in Bildungseinrichtungen nahezu ungeplant stattgefunden hätte und diesem Missstand jetzt mit Evaluationen und qualitätssichernden Maßnahmen Abhilfe geschaffen würde. Dieser Inszenierung eines relevanten Bruchs in der bisherigen Praxis stehe allerdings gegenüber, dass auch die bisherige Programmplanung nicht wahllos oder alleine an den Interessen der Unterrichtenden ausgerichtet gewesen sei. Eine Auswirkung des Diskurses sei eine Bedeutungswandel von Evaluationen. Habe bisher eine eher qualitativ angelegte Evaluation stattgefunden (Interviews, Nachbereitungsgespräche etc.), die hauptsächlich zur Eigenvergewisserung und der Programmplanung gedient hätten, würde nun Evaluation verstärkt als Mittel zur Außendarstellung begriffen und dabei auf quantitative Methoden (Statistiken, vergleichbare Zahlen) gesetzt.
Zumindest zum Zeitpunkt der Umfrage hatten noch nicht alle untersuchten Einrichtungen ein QM eingeführt, obwohl der Trend zu solchen Systemen rasant sein soll. So aber konnten Ahlheim und Heger festhalten, dass Einrichtungen, die ein QM eingeführt hatten, dieses positiver bewerteten als solche, die es gerade erst einführten oder sich aktiv gegen eine solche Einführung aussprachen. Ob diese unterschiedliche Haltung von den QM herrührt oder aber die Einführung der QM bewirkt hat, ist nicht festzustellen.
Relevant ist allerdings, dass QM in der Hoffnung eingeführt werden, die Qualität einer Einrichtung messen und verbessern zu können. Die Wirkung scheint allerdings eine andere zu sein:

Vieles spricht dafür, dass die Beschäftigung mit Qualitätssicherungssystemen oftmals weniger der Sorge um, die Qualität als vielmehr der Sorge um den Erhalt des Angebot geschuldet ist. [164]

Aufschlussreich ist indes der Rangfolge der positiven Wirkungen bzw. Erwartungen bei jenen, die bereits ein QM eingeführt haben und jenen, die sich gerade im Einführungsprozess befinden, sagt sie doch etwas über die wesentlichen Gründe, die aus Sicht der Einrichtungen für ein QM-System sprechen. In beiden Gruppen erhält die Antwortvorgabe ‘Wir werten unsere Veranstaltungen systematischer aus’ die höchste Zustimmung (76 bzw. 63 Prozent). Hohe Zustimmung findet auch das ‘marktorientierte’ Item ‘Das Image der Einrichtung verbessert sich’. Es nimmt bei den Einrichtungen mit etabliertem QM-System den zweiten Platz ein (70 Prozent), bei den Einrichtungen in der Einführungsphase der dritten Platz (36 Prozent). In diesen Einrichtungen wird die etwas vage Hoffnung auf eine verbesserte Außenwirkung von einer konkreten Erwartung übertroffen, das nämlich die Einführung eines QM-Systems ‘den Zugang zu bestimmten >Fördertöpfen< ' eröffne (45 Prozent). Erst mit gewissem Abstand folgen Wirkungen, die unmittelbar mit der Qualität des Programms zu tun haben, dass sich das Angebot etwa 'konsequent an den Interessen und Bedürfnissen der Adressaten' orientiere (24 bzw. 26 Prozent). Und während das allgemein gehaltene Item 'Unser Programm wird spürbar besser' noch Zustimmungsquoten von 20 bzw. 29 Prozent erreicht, geht kaum einer der Befragten davon aus, dass das Bildungsprogramm infolge der Qualitätsentwicklung vielfältiger werde. Eher werden schon Befürchtungen geäußert, das Programm werde im Gegenteil stärker standardisiert und der Bereich der politischen Bildung verliere im Gesamtprogramm an Bedeutung. [165ff.]

Unsere Daten vermitteln jedenfalls den Eindruck, dass die Qualitätsentwicklung auf die Programmplanung und -gestaltung eher wenig Einfluss hat und ihre Wirkung stärker im Bereich der Organisationsentwicklung, der Verbesserung der internen Kommunikation und Verwaltungsabläufe liegen. [168]

Weniger überraschend, aber doch sehr eindeutig fallen die biographie-orientierten Interviews aus, die Ahlheim und Heger mit Teilnehmenden geführt haben. Die Grundfrage dabei ist nicht, welchen Erfolg eine einzelne Veranstaltung bewirkt hat, sondern welchen langfristigen Einfluss politischen Bildung auf das Leben von Menschen gehabt habe. Mithilfe dieses Ansatzes liegen schon einige wenige Ergebnisse vor, die darauf hindeuten, dass Bildung bei vielen Menschen gerade wenig kurzfristige Wirkungen habe, aber langfristig auf die Gestaltung des Lebens und der Sinngebung der eigenen Biographie großen Einfluss hat.[1] Genau das können Ahlheim und Heger auch für die politische Bildung nachweisen. Für einige Menschen ermöglicht diese Bildung, dass eigene Leben aktiv zu gestalten, für andere ist es Teil ihrer Individualität geworden. Das Problem dieser Methode ist allerdings immer die Auswahl der Befragten. Auch Ahlheim und Heger haben vor allem Menschen befragt, die öfter an politischer Erwachsenenbildung teilgenommen haben und bei denen auch zu erwarten ist, dass sie für sich persönlich einen Sinn in dieser Aktivität sehen, was sich dann in den Antworten auch widerspiegelt. Obwohl es immer wieder beeindruckend ist, zu lesen, wie Menschen wegen des Zugangs zu Bildung gesellschaftlich aktiv werden, aus einer eher resignativen Haltung heraustreten und politisch gestaltend und selbstbewusst werden oder auch die vorgezeichneten Biographien verlassen und statt mit einem Dasein als Hausfrau zufrieden zu sein, ein Studium beginnen und dafür eine Scheidung und die Probleme von Alleinerziehenden auf sich zu nehmen, lässt sich immer wieder fragen, ob diese beeindruckenden Beispiele nicht Ausnahmen darstellen, denen viele wirkungslosen Veranstaltungen gegenüberstehen.

Bibliotheken
Selbstverständlich lassen sich die Ergebnisse aus der politischen Erwachsenenbildung nicht direkt auf Bibliotheken übertragen. Die Frage, welche Wirkung die politische Erwachsenenbildung in Deutschland hat wurde spätestens seit einer Arbeitstagung der Bundeszentrale für politische Bildung im Sommer 1976 relativ kontinuierlich versucht wissenschaftlich zu beantworten. [Zumindest ist das der früheste Hinweis, den ich gefunden habe. Allerdings habe ich nicht aktiv nach früheren gesucht.] Viele Argumente für und wieder verschiedene Methoden sind ausgewechselt worden, die Anlage der Untersuchung von Ahlheim und Heger scheint einen Kompromiss darzustellen, der dieser Debatten mit einbezieht.
Gerade der Versuch, die Realität durch die Kombination verschiedener Methoden darzustellen, scheint auch für Bibliotheken und deren Bildungswirkungen sinnvoll. Dies scheint vor allem die Reflexion über die Grenzen und Möglichkeiten der jeweiligen Methodiken zu fördern und den Eindruck zu vermindern, dass es möglich wäre, mit einer “Mastermethode”, die eventuell auch noch möglichst einfach, billig, schnell und objektiv anwendbar wäre, die komplexen Wirkungen von Bildungseinrichtungen, welche – im Gegensatz zu Einrichtungen des formalen Bildungssystems – ohne Curricula und damit ohne feste Lernziele auskommen müssen/dürfen, bestimmen zu können.

[1] Vgl. für Teilnehmende an Telekollegs: Kade, Jochen ; Seitter, Wolfgang (1996) / Lebenslanges Lernen – mögliche Bildungswelten : Erwachsenenbildung, Biographie und Alltag . Opladen: Leske + Budrich, 1996. – [Studien zur Erziehungwissenschaft und Bildungsforschung ; 10]; für einen Überblick zur biographischen Bedeutung von Bildung: Fröhlich, Volker ; Göppel, Rolf (Hrsg.): Bildung als Reflexion über die Lebenszeit. Gießen : Psychosozial-Verlag, 2006, S.28-49. – [Psychoanalytische Pädagogik ; 23]

9.04.2008

Schulbibliotheken in Berlin, 2008. Übersicht

Vor zwei Jahren habe ich im Rahmen meiner Magisterabeit einmal erhoben, wieviele Schulbibliotheken es in Berlin damals gab. Da darüber nirgends Daten vorlagen, habe ich die Homepages aller Schulen in Berlin angeschaut und dort nach Schulbibliotheken gesucht. Bei dieser Methode konnte ich immerhin davon ausgehen, dass die gefundenen Schulbibliotheken auch tatsächlich eine Bedeutung im jeweiligen Schulalltag spielten und nicht irgendwelche Einrichtungen darstellen, die im hintersten Kellerraum liegen und bei denen man nicht weiß, ob die überhaupt genutzt werden. [Das war jetzt eine kleine Reminiszenz an mein altes Gymnasium.] Das Ergebnis war 8,9%. Also insgesamt fanden sich auf diesem Weg in 8,9% aller Berliner Schulen Bibliotheken (auch unter anderem Namen), die es auf die jeweiligen Homepages der Schulen geschafft hatten. Wenn man härtere Standards anlegte (was damals möglich war, weil insgesamt zu den Bibliotheken auf den Schulhomepages mehr Angaben veröffentlicht wurden), waren es 5,1% der Schulen, die Einrichtungen hatten, welche (jetzt die Standards) für Schülerinnen und Schüler Medien zu mehr als eine Fach und an geregelten Öffnungszeiten zur freien Verfügung stellten. Bessere Zahlen gab es nicht.
Demnächst werde ich wieder einmal über meine damalige Arbeit auf einer kleineren Veranstaltung berichten. Ich habe die Chance ergriffen, zwei Jahre später auf die selbe Weise die Zahl der Schulbibliotheken in Berlin zu erheben. Das gibt mir nicht nur neues Material für den Bericht, sondern ermöglicht es auch, Veränderungen zu beschreiben. Das wird noch zu tun sein, aber ich bin mit der Datenaufnahme fertig geworden. Allerdings hat sich in den Schulen auch einiges verändert. Seit 2006/2007 müssen Schulen in Berlin ein Schulprogramm vorlegen, in dem der Ist-Zustand und die angestrebten Entwicklungen aufgezeigt werden. Viele Schulen haben diese Programme auf ihren Homepages zur Verfügung gestellt. Bei diesen Programmen kann man gut begründet davon ausgehen, dass in diesen aus “Werbegründen” Einrichtungen auftauchen, die zwar irgendwo in halb vergessenen Räumen existieren, aber nicht unbedingt im Schulalltag eine Rolle spielen. Das ist für die Interpretation der Zahlen im Hinterkopf zu behalten. Die Zahlen von 2006 sind mit denen von 2008 also nicht direkt zu vergleichen. Trends lassen sich mit Werten von zwei Zeitpunkten überhaupt nicht zeichnen. Dazu sind (wie bei den PISA-Studien) mindestens drei Zeitpunkte notwendig. (Was ein Arbeitsauftrag für April 2010 ist.)

Wohl eher durch den Zwang zum Schulprogramm schreiben und weniger wegen einem veränderten Engagement lautet die Gesamtzahl nun 17,4%. 139 von 800 Schulen in Berlin geben an, eine Schulbibliothek zu besitzen. Eine genauere Auflistung habe ich als pdf-Dokument hier eingestellt: Schulbibliotheken in Berlin, 2008 [Erste Ergebnisse].

Wie gesagt, eine genauere Auswertung ist notwendig. Aber festhalten lässt sich doch folgendes:

  1. Die “Schulbibliothekslandschaft” in Berlin ist durch starke Diskontinuitäten geprägt. Viele Einrichtungen wurden 2007/2008 wieder eröffnet und waren in den Jahren zuvor offenbar geschlossen gewesen. Einrichtungen, die 2006 existierten, scheinen zu einem großen Teil 2008 nicht mehr geöffnet zu sein.

  2. Wer größere Bildungserfolge hat, der hat in Berlin immer noch eine größere Chance, eine Schulbibliothek nutzen zu können, als Lernende mit einem geringen Bildungserfolg. 19, 7% der Gymnasien und 26,4% der Gesamtschulen [in Berlin fast alle mit gymnasialer Oberstufe] geben an, Schulbibliotheken zu besitzen. Von den 75 Realschulen sind es nur 4, von den 57 Hauptschulen eine. Da bekanntlich in Deutschland der Bildungserfolg strukturell eng mit dem ökonomischen Status des Elternhauses der Jugendlichen zusammenhängt, kann man auch sagen, dass tendenziell eher die Schülerinnen und Schüler aus reicheren und reichen Familien eine Schulbibliothek nutzen können, als die mit einem nicht so reichen Elternhaus. Dennoch ist auch der größte Bildungserfolg keine Garantie dafür, eine Schulbibliothek nutzen zu können.

  3. Die Schulbibliotheken in Berlin leben vom Ehrenamt. Angestellte in Schulbibliotheken sind die Ausnahme, ein fester Etat, der nicht durch Spenden oder Schulfeste aufgebracht werden muss, ebenso. Allerdings hat die Anzahl der Schulbibliothek-AGs merklich abgenommen. Gab es sie 2006 noch in fast jeder Schule, die eine Schulbibliothek hatte, scheinen 2008 Eltern und andere Erwachsene (beispielsweise Lesepatinnen und Lesepaten) die Leitung von einem Großteil der Schulbibliotheken übernommen zu haben. Zumindest ist dies zu vermuten, da andere Arbeitsgemeinschaften der Schulen in den Schulprogrammen sehr ausführlich aufgezählt werden, nur nicht die für Schulbibliotheken.

4.02.2008

Grenzen des Effizienzpotentials

[Neben anderen Tendenzen] steht Deutschland an erster Stelle betriebswirtschaftlicher Effizienz, auch die Weiterbildung ist und wird dieser Perspektive weiterhin unterzogen werden. Doch weitere Einsparungen verträgt das lebenslange Lernen in der Weiterbildung nicht, zumal wenn neben der Unterstützung beim lebenslangen Lernen auch neue individualisierte Lernformen und Konzepte entwickelt werden sollen. Es wird langfristig negative Auswirkungen haben, wenn unterbezahltes Personal angestellt werden muß. Das hier hervorstechende mangelnde oder nachlassende Interesse an Verantwortungsübernahme ist nach einigen Berichten auch in der Erstausbildung zu beobachten. Wenn diese Tendenzen sich tatsächlich realisieren würden und kein Widerstand und keine Einsicht dagegen Gehör findet, steuern wird nicht auf eine Weiterbildungsgesellschaft zu. Eher müssen wir mit einem Absinken de Qualifikationsniveaus für die breite Masse der Bevölkerung, bei gleichzeitigem Ansteigen der Anforderungen im Bereich der Hochqualifizierten, rechnen. Ein Konzept des selbstorganisierten lebenslangen Lernens könnte dann schnell in einen solchen Prozeß eingebunden werden. [Arnold, Rolf ; Gieseke, Wiltrud / Einleitung: Theorie und Praxis des lebenslangen Lernens, S. IX. – In: dies. [Hrsg.] / Die Weiterbildungsgesellschaft : Band 1 Bildungstheoretische Grundlagen und Perspektiven. – Neuwied ; Kriftel : Luchterhand, 1999, S. VII-XIII. – (Grundlagen der Weiterbildung)]
[Über die langfristigen Entwicklungen im britischen Hochschulbereich, insbesondere die beständig neu formulierten Evaluationsmethodiken] Now as it seems to me, the ‘no standing still’ conception of excellence flies in the face of experience. Sometimes things are as god as we are going to get them, and to recognize this is not a matter of complaceny but of realism. In fact, continuous enhancement may be an incoherent ideal. If we have realistic standards of what can be achived, then we should be able to achieve them. To achieve them is to have done the best we can, in which case there is no scope for still further ‘enhancement’. Of course, we could resonably suppose this to be the case if what is at issue is not educational attainment, but customer satisfaction, and it is striking that in introducing Enhancement as a replacement for Quality Assurance, goverment ministers were quick to assert that student satisfaction would play an important part in its implementation. [Graham, Gordon / The Institution of Intellectual Values : Realism and Idealism in Higher Education. – Exeter : Imprint Academic, 2005, S. 79 – (St Andrews studies in philosophy and public affairs ; 5)]

~ älter »

Get free blog up and running in minutes with Blogsome
Theme designed by Janis Joseph