Was genau Evaluationen der Sozialen Arbeit bieten können, soll in dieser Arbeit gezeigt werden. Dabei wird auf das wieder verstärkt diskutierte Verfahren der Wirkungsevaluation1 bzw. Wirkungsmessung eingegangen.
Im ersten Teil dieser Arbeit findet eine Auseinandersetzung mit dem Thema Wirkungsevaluation statt. Dabei werden besonders die theoretischen Modelle vorgestellt, die zum einen das Design einer Evaluation beschreiben, zum anderen eine Operationalisierung eines Evaluationsgegenstandes möglich machen (vgl. Kapitel 2.1). Die Operationalisierung des Evaluationsgegenstandes wird in dieser Arbeit an der Wirkungsmessung zum Projekt 'ALKOR' verdeutlicht. Dafür wird im ersten Teil dieser Arbeit der Begriff der Einstellungsmessung eingeführt und weiter definiert (vgl. Kapitel 2.2). Im zweiten Teil wird auf diesen Wissensbestand aufgebaut und ein Projekt, das in der Praxis durchgeführt wird, evaluiert. Dabei wird auf die genaue Umsetzung des Projektes sowie die Evaluation eingegangen. Bei dem Projekt handelt es sich um eine 'Schulprojektwoche' zum Thema 'Inklusion im Schwerpunkt Menschen mit Behinderung' (vgl. Kapitel 3.1). An dieser wird eine Wirkungsmessung implementiert, um die Wirkungen des Projektes nachzuweisen. Anschließend wird die Umsetzung der Wirkungsmessung mit den Rahmenbedingungen und Voraussetzungen des Projektes besprochen. Hierbei wird wiederum auf das Design – nun in Bezug zur Praxis – und auf die Umsetzung der Messung der Einstellungsveränderungen der SchülerInnen gegenüber Menschen mit einer Behinderung eingegangen (vgl. Kapitel 3.2). Abschließend werden die Ergebnisse dargestellt und erläutert (vgl. Kapitel 3.3) sowie Chancen und Herausforderungen der Wirkungsevaluation im Kontext der Sozialen Arbeit aufgeführt (vgl. Kapitel 4).
Zentraler Gegenstand der vorliegenden Arbeit ist, dass Wirkungsmessungen bzw. Wirkungsevaluationen in der Sozialen Arbeit durch ein adäquates Design und eine gelungene Operationalisierung möglich und lohnenswert sind. Dies wird an möglichen Problemen und Lösungen sowie Chancen verdeutlicht. Hierbei wird darauf geachtet, dass durch das Design der kausale Wirkungszusammenhang hergestellt werden kann.
Inhaltsverzeichnis
1. Evaluation in der Sozialen Arbeit
2. Wirkungsevaluation in der Sozialen Arbeit
2.1 Wirkungsmessung
2.2 Das Wissen um Einstellungsmessung und deren Gewinn
3. Wirkungsmessung am Beispiel des Projektes 'ALKOR'
3.1 Kurzdarstellung des Projektes
3.2 Die Wirkungsmessung – ein Praxisbeispiel
3.2.1 Das (quasi-)experimentelle Design als adäquates Design in der Praxis
3.2.2 Operationalisierung des theoretischen Konstruktes
3.2.3 Erfahrungen mit der Umsetzung des theoretischen Konstruktes
3.3 Darstellung der Ergebnisse
3.3.1 Deskriptive Betrachtung
3.3.2 Itemanalyse
3.3.3 Einstellung, Wirkungen und Einstellungsveränderung
4. Chance und Herausforderung für die Soziale Arbeit
Literatur
Anhang
1. Evaluation in der Sozialen Arbeit
Evaluation ist auch in der Sozialen Arbeit mittlerweile eine feste Größe geworden (vgl. Dahmen 2011; Rolka 2011; Otto/Polutta/Ziegler 2010; Schröder/Streblow 2007; Böttcher/Holtappels/Brohm 2006). War es vor 10 bis 15 Jahren noch möglich, „Effektivitäts- und Effizienzfragestellungen meist intuitiv, politisch, unter Berufung auf Traditionen oder gar nicht [zu] beantworten“ (Früchtel 1995, 7), werden heute mehr und mehr Evaluationen genutzt, die eine professionellere Herangehensweise ermöglichen. „Denn Evaluation verfügt über 'Werkzeuge', die das schwer Fassbare in der pädagogischen Arbeit beschreiben, messen, rekonstruieren und schließlich glaubwürdig bewerten sollen“ (Schröder 2007, 7). Durch diese 'Werkzeuge' können Qualität und Professionalität geschaffen werden. Ob Evaluation seriöse, wissenschaftliche Kriterien hervorbringt oder ob sie verwertbare und nutzbare Informationen im Sinne der Weiterentwicklung der Dienstleistungen in der Praxis produzieren kann, sind beispielhaft angeführte Fragen (vgl. Loidl-Keil/Laskowski 2005, V), die mithilfe von sinnvollen und adäquaten Designs[1] beantwortet werden können.
Dieser Auseinandersetzung mit dem Thema liegt die Definition von Evaluation der Gesellschaft für Evaluation e.V. (DeGEval) zugrunde:
„Evaluation ist die systematische Untersuchung des Nutzens oder Wertes eines Gegenstandes. Solche Evaluationsgegenstände können z.B. Programme, Projekte, Produkte, Maßnahmen, Leistungen, Organisationen, Politik, Technologien oder Forschungen sein. Die erzielten Ergebnisse, Schlussfolgerungen oder Empfehlungen müssen nachvollziehbar auf empirisch gewonnenen qualitativen und/oder quantitativen Daten beruhen“ (DeGEval 2008, 15).
Allgemein sind für die Soziale Arbeit fünf „Hauptnutzen“ einer Evaluation zusammen zu fassen. Diese können zur Zielformulierung genutzt, aber auch als wissenschaftliche Begründung von Evaluation in der Sozialen Arbeit gesehen werden. Der erste „Hauptnutzen“ lässt sich als Erfolgskontrolle bezeichnen. Wie am Beispiel der Jugendhilfe gezeigt, unterliegt die Soziale Arbeit großen Erwartungen.
„Nahezu alle Träger Sozialer Arbeit sehen sich einem zunehmenden Kosten-, Legitimations- und Leistungsdruck ausgesetzt. Insbesondere Kostenträger (…) formulieren (…) die Erwartung, dass sich die Praxis Sozialer Arbeit (...) einer detaillierten 'Erwartungs-Erfolgs-Kontrolle' unterzieht“ (König 2007, 64).
Aus dieser 'Erwartungs-Erfolgs-Kontrolle' heraus kann die durch Evaluation durchgeführte Erfolgskontrolle abgeleitet werden.
Darüber hinaus wird durch eine Evaluation in der Sozialen Arbeit der „Problemdruck“ genommen. Strukturiertes Arbeiten in der komplexen Arbeitswelt kann durch den Hauptnutzen ' Aufklärung' Tätigkeiten in der Sozialen Arbeit, die wirkungsvolleres und besseres Handeln für die Professionellen ermöglichen, fördern (vgl. König 2007, 64).
Weiterhin bietet Evaluation die Möglichkeit, durch ' Qualifizierung' zur Professionalisierung Sozialer Arbeit beizutragen. Ob 'die Soziale Arbeit' bzw. Menschen, die in der Sozialen Arbeit tätig sind, wirklich einer Profession zugeordnet werden können, ist weiterhin fraglich (vgl. Hartmann-Hanff 2011, 190ff.). Die Weiterentwicklung methodischen Handelns ermöglicht jedoch Professionalität in der Sozialen Arbeit: „Durch systematische Reflexion [bzw. Evaluation] alltäglicher Arbeit können z.B. Beiträge zu einer sinnvollen Personalentwicklung in Organisationen und damit zu einer ständig sich fortentwickelnden Professionalisierung der Sozialen Arbeit geleistet werden“ (König 2007, 65).
Die 'Legitimation' als vierter Hauptnutzen trägt dazu bei, dass es zu einer 'Daseinsberechtigung' von Sozialer Arbeit kommt. Durch „die Entwicklung objektivierbarer Standards trägt [Evaluation] nicht nur dem wachsenden Bedürfnis vieler KollegInnen [der Sozialen Arbeit] nach Selbstvergewisserung Rechnung, sondern unterstützt auch den Nachweis von Qualität und Effizienz der eigenen Arbeit gegenüber entsprechenden Anfragen von außen“ (König 2007, 65).
Letzter der fünf Hauptnutzen ist die ' Innovation'.
„Wie seit langer Zeit im Bereich der Industrie und in vielen Bereichen der Humandienstleistungen, sind auch in der Sozialen Arbeit so genannte 'kontinuierliche Verbesserungsprozesse' inzwischen zu praktikablen und effektiven Instrumenten nicht nur der Qualitätssicherung und -entwicklung geworden“ (König 2007, 65).
Diese kontinuierlichen Verbesserungsprozesse durch Evaluation in der Sozialen Arbeit wirken als Antrieb für Innovation.
Die DeGeval hat dazu beigetragen, dass Evaluation in Deutschland wissenschaftlich anerkannt ist. Durch die Standards für Evaluation, die von der DeGEval entwickelt wurden, können Richtlinien geschaffen werden, an denen sich jeder, der mit Evaluation zu tun hat, orientieren kann. Als 'Werkzeug' bieten die Standards unter anderem die Möglichkeit, „die Qualität von Evaluationen zu sichern[,] (…) Orientierung bei Planung und Durchführung von Evaluationen zu geben (...) [und] Transparenz über Evaluation als professionelle Praxis gegenüber einer breiten Öffentlichkeit [zu] schaffen“ (DeGEval 2008, 14). Dabei orientiert sich die DeGEval an bereits bestehenden Standards aus der Schweiz (SEVAL-Standards) und den 'Standards des Joint Committee on Standards for Educational Evaluation' (JC-Standards) (vgl. DeGEval 2008, 20). Die von der DeGEval konzipierten Standards lassen sich in vier grundlegende Eigenschaften einteilen: Nützlichkeit, Durchführbarkeit, Fairness und Genauigkeit. Diesen Einteilungselementen können 25 Standards untergeordnet werden (vgl. DeGEval 2008).
Finden die Standards der DeGEval in der Evaluationspraxis als Leitlinien Anklang, können unterschiedliche Funktionen von Evaluation abgedeckt werden (vgl. DeGEval 2008, 16). Dabei kommt es immer darauf an, wann und wie evaluiert wird. So können u.a. formative Evaluationen[2] z.B. Erkenntnis- und Entwicklungsfunktionen abdecken. Dagegen werden durch summative Evaluationen z.B. Wirkungen nachgewiesen. Diese decken die Kontroll- und Legitimationsfunktion[3] ab (vgl. Stockmann 2010b, 55ff.).
Zur Erreichung der unterschiedlichen Funktionen können auch die von der Organisation für wirtschaftliche Zusammenarbeit und Entwicklung (OECD)[4] bzw. des Organs des OECD-Entwicklungsausschusses konzipierten 'OECD-DAC Kriterien' beitragen. Darunter werden Relevanz, Effektivität, Effizienz, Wirkung/Impact und Nachhaltigkeit zusammengefasst (vgl. OECD 2010). Die zentralen Fragen sind: wird das Richtige getan (Relevanz), werden die Ziele erreicht (Effektivität), werden die Ziele wirtschaftlich erreicht (Effizienz), trägt die Maßnahme zur Erreichung übergeordneter Ziele bei (Wirkung/Impact) und sind die positiven Wirkungen von Dauer (Nachhaltigkeit)? (vgl. BMZ, 2006). Diese Kriterien sollen, ähnlich wie die DeGEval-Standards, sowohl Orientierungshilfen für die praktische Durchführung sein, als auch für die theoretische Planung einer Evaluation herangezogen werden und so einen Beitrag zur wissenschaftlichen Fundierung von Evaluationen leisten (vgl. BMZ 2006, 2).
Was genau Evaluationen der Sozialen Arbeit bieten können, soll in dieser Arbeit gezeigt werden. Dabei wird auf das wieder verstärkt diskutierte Verfahren der Wirkungsevaluation[5] bzw. Wirkungsmessung eingegangen (vgl. Reade 2008, 2). 'Wieder' bedeutet in diesem Zusammenhang, dass Wirkungsevaluationen unter gestiegenen methodischen und konzeptionellen Anforderungen umzusetzen sind (vgl. Caspari 2009, 184). Am Beispiel der Entwicklungszusammenarbeit wird deutlich, dass die Durchführung von Evaluation in der Praxis nicht zwangsläufig den methodischen und konzeptionellen Anforderungen entspricht (vgl. Reade 2008, 2). Daher findet im ersten Teil dieser Arbeit eine Auseinandersetzung mit dem Thema Wirkungsevaluation statt. Dabei werden besonders die theoretischen Modelle vorgestellt, die zum einen das Design einer Evaluation beschreiben, zum anderen eine Operationalisierung eines Evaluationsgegenstandes möglich machen (vgl. Kapitel 2.1). Die Operationalisierung des Evaluationsgegenstandes wird in dieser Arbeit an der Wirkungsmessung zum Projekt 'ALKOR'[6] verdeutlicht. Dafür wird im ersten Teil dieser Arbeit der Begriff der Einstellungsmessung eingeführt und weiter definiert (vgl. Kapitel 2.2). Im zweiten Teil wird auf diesen Wissensbestand aufgebaut und ein Projekt, das in der Praxis durchgeführt wird, evaluiert. Dabei wird auf die genaue Umsetzung des Projektes sowie die Evaluation eingegangen. Bei dem Projekt handelt es sich um eine 'Schulprojektwoche' zum Thema 'Inklusion im Schwerpunkt Menschen mit Behinderung' (vgl. Kapitel 3.1). An dieser wird eine Wirkungsmessung implementiert, um die Wirkungen des Projektes nachzuweisen. Anschließend wird die Umsetzung der Wirkungsmessung mit den Rahmenbedingungen und Voraussetzungen des Projektes besprochen. Hierbei wird wiederum auf das Design – nun in Bezug zur Praxis – und auf die Umsetzung der Messung der Einstellungsveränderungen der SchülerInnen gegenüber Menschen mit einer Behinderung eingegangen (vgl. Kapitel 3.2). Abschließend werden die Ergebnisse dargestellt und erläutert (vgl. Kapitel 3.3) sowie Chancen und Herausforderungen der Wirkungsevaluation im Kontext der Sozialen Arbeit aufgeführt (vgl. Kapitel 4).
Zentraler Gegenstand der vorliegenden Arbeit ist, dass Wirkungsmessungen bzw. Wirkungsevaluationen in der Sozialen Arbeit durch ein adäquates Design und eine gelungene Operationalisierung möglich und lohnenswert sind. Dies wird an möglichen Problemen und Lösungen sowie Chancen verdeutlicht. Hierbei wird darauf geachtet, dass durch das Design der kausale Wirkungszusammenhang hergestellt werden kann.
2. Wirkungsevaluation in der Sozialen Arbeit
Herausforderungen
Wie wichtig Wirkungen in der Sozialen Arbeit sind, zeigen der Wunsch und die Bestrebungen nach einer wirkungsorientierten[7] Steuerung der Sozialen Arbeit (vgl. Dahmen 2011; Polutta 2011, 373ff.; Otto/Polutta/Ziegler 2010; Böttcher/Dicke/Ziegler 2009; Struzyna 2007).[8] Durch diesen Wunsch steigt folglich auch das Interesse an Wirkungsevaluationen. „Die neue ergebnis- und evidenzbasierte Denkart und das daraus folgende verstärkte Interesse an Wirkungsevaluationen führten international zu einer intensiven Auseinandersetzung mit methodischen und konzeptionellen Ansätzen von Wirkungsevaluation“ (Caspari 2009, 190). Am Beispiel der Jugendhilfe macht Karl-Heinz Struzyna deutlich, dass die Gesellschaft, aber auch die Protagonisten in der Jugendhilfe ein Recht auf das Wissen über Wirkungen eines Projektes, einer Maßnahme o.ä.[9] haben.
„Die Frage nach Wirkungen der Hilfen zur Erziehung ist eine nahe liegende und legitime Frage der Gesellschaft, die erhebliche öffentliche Mittel für diese sozialpädagogische Leistung aufwendet. Es ist gleichfalls eine zentrale Frage für die leistungsberechtigten (Kinder, Jugendliche, Eltern), die vor der Einwilligung in ein Hilfearrangement Aufklärung und Mitsprache über die intendierte Wirkung sowie über eventuelle Risiken und Nebenwirkungen erwarten dürfen“ (Struzyna 2007, 5).
Es ist vielsagend, dass die Qualifizierung der Hilfen zur Erziehung durch wirkungsorientierte Ausgestaltung der Leistungs-, Entgelt- und Qualitätsentwicklungsvereinbarungen nach §§ 78a ff. SGB VIII festgelegt sind. Hiermit soll ermöglicht werden, dass auch „die methodische Weiterentwicklung der Hilfen zur Erziehung für die Steigerung ihrer Leistungsfähigkeit sowie für die Zukunftsfähigkeit dieses Aufgabenfeldes“ (Struzyna 2007, 5) gesichert ist.
Die Auseinandersetzung mit methodischen Weiterentwicklungsmöglichkeiten und der Steigerung der Leistungsfähigkeit bewirkt, dass Soziale Arbeit bzw. die Tätigen in der Sozialen Arbeit immer neuen Anforderungen unterliegen (vgl. u.a. Lutz 2008, 3ff.). Diese nach Wirkungen orientierten neuen Anforderungen sind aber auch in anderen Politikfeldern bekannt.
„Ausgelöst durch die Aid Effectiveness Debatte[10] und verstärkt durch die Pariser Erklärung[11] über die Wirksamkeit der Entwicklungszusammenarbeit sowie die Accra Agenda for Action[12] richtet sich die Aufmerksamkeit politischer Entscheidungsträger weltweit mehr und mehr auf Wirkungen“ (Caspari 2009, 183).
In der Entwicklungszusammenarbeit wird über Wirkungen schon lange diskutiert. In diesem Politikfeld ist die Diskussion um die Wirkungen so alt, wie die Entwicklungszusammenarbeit selbst (vgl. Caspari 2009, 185).
Kritik – durch Design und Operationalisierung abgewendet
Das Forschungsdesign ist bei einer Evaluation bzw. bei der dieser Arbeit zugrundeliegenden Wirkungsmessung ausschlaggebend. Sprich: wie genau können durch was Wirkungen eines Projektes messbar gemacht werden. Des Weiteren sind Überlegungen zur Operationalisierung wichtig. Operationalisierung meint 'Konkretisierung' und soll die Begriffe, mit denen wir unseren Gegenstand beschrieben und definiert haben, auf konkret 'Beobachtbares' (der Erfahrung und damit der Erfassung Zugängliches) zurückführen“ (König 2007, 81, vgl. auch Schnell/Hill/Esser 2005, 11). Hierbei ist besonders wichtig, dass diese Operationalisierung zu validen Erhebungsinstrumenten und zu reliablen Daten führt. „Unter Validität (Gültigkeit) eines Messinstrumentes versteht man das Ausmaß, in dem das Messinstrument tatsächlich das misst, was es messen soll“ (Schnell/Hill/Esser 2005, 154). Reliabilität dagegen „kann [als] das Ausmaß bezeichnet werden, in dem wiederholte Messungen eines Objektes mit einem Messinstrument die gleichen Werte liefert“ (Schnell/Hill/Esser 2005, 151). Dabei ist das eine nicht die Voraussetzung oder die Folge des anderen.[13]
In der Fachdebatte zum Thema (Wirkungs-) Evaluation gibt es zwei große Diskussionspunkte. Zum einen wird über die Operationalisierung diskutiert (vgl. König 2007, Bortz/Döring 2006, Schnell/Hill/Esser 2005, Früchtel 1995), die sich für viele Evaluationsgegenstände als sehr kompliziert darstellt. Zum anderen ist umstritten, ob eine Wirkungsmessung bzw. Wirkungsevaluation durch experimentelle bzw. quasi-experimentelle Designs ethisch vertreten werden kann (vgl. Quack 2010; Reade 2008; Heiner 2001). Die Notwendigkeit einer Kontrollgruppe (KG) bzw. Vergleichsgruppe (VG)[14], die dezidiert nicht an einem Projekt teilnehmen kann (darf) und somit bewusst 'ausgeschlossen' wird, erscheint ethisch nicht vertretbar. Gegensätzlich wird argumentiert, dass – zumindest bei den experimentellen Designs - per Zufall entschieden werden muss. Diese Herangehensweise ist auch mit in Deutschland gängigen Auswahlmethoden vergleichbar, wenn aufgrund begrenzter finanzieller Mittel nicht alle potentiellen Begünstigten an einer Maßnahme teilnehmen können und eine Auswahl getroffen werden muss. Studienplätze werden zum Beispiel – nach einer vorherigen Prüfung der Wartezeit und des Abschlusses – per Zufall vergeben (vgl. Caspari 2009, 196). Das Argument dafür ist, dass es kein gerechteres Mittel als per Zufallsprinzip bzw. Los ausgewählte Gruppen gebe. Davon abgesehen ist die Umsetzung eines Projektes mit geringen finanziellen Mitteln immer noch eine geeignete Möglichkeit um zu prüfen, ob das Projekt sinnvoll und wirkungsvoll ist. Wird das Projekt im Rahmen der finanziellen Möglichkeit durchgeführt und wird die Gruppe, die das Projekt durch den Mangel an finanziellen Mittel nicht durchlaufen kann, als KG bzw. VG herangezogen, kann getestet werden, ob das Projekt Wirkungen zeigt bzw. sinnvoll ist. Wird durch diese Evaluation festgestellt, dass das Projekt nicht zum gewünschten Ziel führt, können Gelder eingespart werden. Ein weiteres Projekt dieser Art wird dann vermutlich nicht durchgeführt. Ein Projekt, das keine Wirkungen hat bzw. nicht sinnvoll ist, wird so begründet nicht weiter umgesetzt. Zeigt das Projekt jedoch Wirkungen und erweist es sich als sinnvoll, kann ein weiteres entsprechendes Projekt implementiert werden (vgl. Caspari 2009, 195ff.).
Demzufolge gibt es auch Möglichkeiten für die Soziale Arbeit (quasi-)experimentelle Designs zu entwickeln. Die Fragen um ein ethisch nicht bedenkliches Design stellen sich dann nicht. Das Augenmerk sollte auf der Weiterentwicklung von Operationalisierungsverfahren liegen. Das bedeutet, dass die Operationalisierung von bestimmten – möglicherweise einheitlichen – Evaluationsgegenständen zu validen Erhebungsinstrumenten und zu reliablen Daten führt. Auf diese Thematik wird in Kapitel 2.1 vertiefend eingegangen.
Zusammenfassend ist festzuhalten, dass Wirkungsevaluationen nur durch ein sinnvolles Design verwirklicht werden können. Überlegungen und die Planung vor, während bzw. nach einer Evaluation sind daher ein, wenn nicht der größte Bestandteil einer Evaluation. Nur ein gelungenes Design kann den kausalen Zusammenhang zwischen Wirkung und Maßnahme aufzeigen.
Die Erhebungsmethode als Grundlage von Einstellungsmessungen
Mit dem Wissen um das Evaluationsdesign wird als weiterer Schritt mit der Entwicklung der Erhebungsinstrumente begonnen. Hierbei ist es wichtig, genau zu wissen, was erhoben werden soll. Diese Arbeit zeigt, dass es von großer Bedeutung ist, eine klare Definition für Einstellungen vorzunehmen. „Im Gegensatz zum allgemeinen psychologischen Begriff der (...) [Einstellung], der eine kurzzeitige spezifische Reaktionsbereitschaft meint, zielt der sozialpsychologische (…) [Einstellungs-] begriff auf eine zeitlich relativ stabile Haltung einem sozialen Objekt gegenüber“ (vgl. Siegfried/Siegfried 2007, 218). Dabei sind die hier gemeinten sozialen Objekte z.B. Einzelpersonen, soziale Gruppen, Institutionen, Ideen und Ideologien (ebd.)[15]. Ein Ziel des Projektes 'ALKOR' ist daher die Veränderung der Einstellung der ProjektteilnehmerInnen ohne Behinderung gegenüber bzw. zu Menschen mit einer Behinderung.
Um die Veränderung der Einstellung der ProjektteilnehmerInnen messen zu können, wird das in Kapitel 2.2 vorgestellte Design in Verbindung mit einem 'self-administered Fragebogen' durchgeführt. Der Fragebogen wird von den SchülerInnen durch die 'Classroom-Methode' im Klassenverbund beantwortet. Bei dieser Herangehensweise ist von einer annähernd 100%igen Rücklaufquote auszugehen und die Befragten können über Sinn und Zweck der Evaluation direkt informiert werden. Darüber hinaus bekommen sie für die Beantwortung des Fragebogens unmittelbar Zeit. Er verschwindet – wie bei einer postalischen Befragung – möglicherweise nicht erst in einem Ablageordner (vgl. Bortz/Döring 2006, 242ff.; Schnell/Hill/Esser 2005, 319ff.).
Für die Erarbeitung der im Projekt 'ALKOR' genutzten Fragebögen bzw. der Skala werden verschiedene akzeptierte und anerkannte Skalen[16] genutzt. Diese sind die Grundlage eines für das Projekt geeigneten Messinstrumentes.[17]
2.1 Wirkungsmessung
'Wirkung' ist nicht gleich 'Wirkung'
Die Wirkungsmessung[18], die am Beispiel des Projektes 'ALKOR' durchgeführt wird, soll durch ein angemessenes Forschungsdesign beantworten, ob das Projekt Veränderungen in den Einstellungen der ProjektteilnehmerInnen bewirkt. Ziel der Auswahl des Designs ist es, zwischen Nettowirkungen und Bruttowirkungen unterscheiden zu können. Dabei ist es wichtig, den Begriff 'Wirkung' anhand einer klaren Definition zu präzisieren. Nettowirkungen werden nur durch das Projekt herbeigeführt. Bruttowirkungen dagegen sind Wirkungen, die mit dem Projekt aber auch mit anderen Einflüsse produziert werden.
„Zentrale Schwierigkeit bei der Attribution (...), d.h. der Identifikation der kausalen Wirkung einer Maßnahme, ist die Frage, ob festgestellte (positive) Veränderungen in der Situation der Zielgruppe tatsächlich eine Folge der zu evaluierenden Maßnahme sind, oder ob sich der Erfolg auch ohne diese Maßnahme eingestellt hätte (...)“ (Caspari 2009, 190).[19]
Sind die gemessenen Wirkungen nur auf das Projekt zurückzuführen (Nettowirkungen), oder sind sie auch von anderen Gegebenheiten produziert worden (Bruttowirkungen)? Die Möglichkeit, dass eine große Anzahl verschiedener Einflüsse auf die Zielgruppe (ZG) wirken, ist sehr hoch. Diese Einflüsse beinhalten möglicherweise positive bzw. negative Folgen auf das Projekt, das evaluiert werden soll. Äußere Einflüsse, beispielsweise die allgemeine Entwicklung in einer Region[20], könnten zu einer Veränderung führen (vgl. Caspari 2009, 190). Die Unterscheidung zwischen Brutto- und Nettowirkungen ermöglicht eine genauere Zuordnung, welche Wirkungen tatsächlich auf das Projekt zurückzuführen sind:
„Daher werden Wirkungen anhand durchschnittlicher Populationseffekte empirisch erschlossen, indem die tatsächlich festgestellten Veränderungen bei Maßnahmenteilnehmer(inne)n mit dem Kontrafaktischen (Counterfactual)[21], d.h. der hypothetischen Veränderungen, die auch ohne Maßnahme eingetreten wäre, verglichen werden“ (Caspari 2009, 191 f.).
Häufig werden aber auch andere Begriffe als Synonyme für Wirkung/Wirksamkeit verwendet. Diese Begriffsunstimmigkeit löst Missverständnisse aus und kann dazu führen, dass die Nettowirkungen[22], die bei einer Wirkungsevaluation bzw. Wirkungsmessung von größter Wichtigkeit sind, nicht klar benannt werden können. Daher sind die Bedeutungen der oft synonym verwendeten Begriffe Effekt/Effektivität, Resultat, Zielerreichung, Outcome und Impact klar voneinander zu trennen.
Ein Effekt bzw. Effektivität ist die „direkt oder indirekt aus einer Maßnahme resultierende beabsichtigte oder unbeabsichtigte Veränderung“ (OECD 2009, 26). Wirkung ist der Zusammenschluss von vielen Effekten bzw. Resultaten, die sowohl positiv als auch negativ bzw. unbeabsichtigt oder beabsichtigt bewertet werden können und auf das Projekt oder die Maßnahme zurückzuführen sind (vgl. Gesellschaft zur Förderung professioneller Evaluation o.J., 4).
„Es wird ersichtlich, dass der Begriff 'Effekt' bzw. 'Effektivität' oder 'Wirkung' in Abgrenzung zu dem der 'Zielerreichung' gesehen werden muss, denn bei letzterem ist ein Kausalzusammenhang nicht unbedingt gegeben, da Ziele auch unabhängig einer Maßnahme eintreten können: Finanzielle oder ökonomische Veränderungen eines Landes können dazu führen, dass formulierte Ziele erreicht werden, auch wenn die vermeintlich effektive Maßnahme selbst nichts bewirkt“ (Caspari 2009, 191).
Wirkungen oder auch Effektivität wiederum werden unterschieden in Outcomes und Impacts. Der Begriff Outcome beschreibt dabei „die voraussichtlich oder tatsächlich erreichten kurz- und mittelfristigen Wirkungen der Outputs[23] einer Maßnahme“ (OECD 2009, 36). Impacts sind „positive und negative, primäre und sekundäre Langzeiteffekte, die direkt oder indirekt, beabsichtigt oder unbeabsichtigt durch eine Entwicklungsmaßnahme [bzw. ein Projekt] verursacht werden“ (OECD, 31).
Ein weiterer Begriff, der nicht direkt in Verbindung mit Wirkungen steht, ist der Begriff der Effizienz. Effizienz ist – wie in Kapitel 1 benannt – eines der OECD-DAC Kriterien. Daher sollte er an dieser Stelle, auch wenn er nicht direkt mit Wirkungen in Verbindung gebracht werden kann/soll, kurz definiert werden um Missverständnisse zu beseitigen. Effizienz kann auch als Wirtschaftlichkeit bzw. als das Verhältnis des Inputs zum erreichten Output oder Outcome bezeichnet werden (vgl. Schlander 2009, 119). „Damit unterscheidet sich [Effektivität] (…) von Effizienz, die sich auf die Relation von Output und Input bezieht und somit ein Ziel-Mittel-Verhältnis beschreibt“ (Burmeister 2011, 203). Effektivität fragt also, ob das Projekt Wirkungen gezeigt hat, wohingegen Effizienz darüber aufklären kann, wie bzw. mit welchen Mitteln das Projekt Wirkungen hervorbringt.
„Allgemein bezieht sich Effizienz auf das 'Verhältnis von Mitteleinsatz und Zielerreichung' (…), womit bereits anklingt, daß [!] über Effizienz nur sinnvoll diskutiert werden kann, wenn zuvor Einigkeit über das anzustrebende Zielkriterium und den Zielerreichungsgrad (die 'Effektivität') hergestellt worden ist. Mit anderen Worten, Effizienz ist stets ein der Effektivität nachgeordnetes sekundäres oder instrumentelles Ziel (…)“ (Schlander 2009, 118).
Dieses Zitat von Michael Schlander zeigt zweierlei. Zum einen, dass die Begriffsbestimmung von Effektivität notwendig ist, da sonst die Begriffe Brutto- und Nettowirkungen nicht voneinander unterschieden werden können (vgl. auch Caspari 2009, 191). Zum anderen, dass das anzustrebende Zielkriterium und der Zielerreichungsgrad nicht mit Effektivität gleichgesetzt werden kann. Dennoch – und hier kann Michael Schlander zugestimmt werden – ist Effizienz ein der Effektivität nachgeordnetes Ziel. Ohne das Wissen um die Effektivität kann Effizienz nicht festgestellt werden.
Wirkungsmessung – über das Design umsetzbar
Um die durch das Projekt herbeigeführten Wirkungen unter Berücksichtigung des Kontrafaktischen messen zu können, müssen zwei Gruppen gebildet werden. Eine Experimentalgruppe bzw. ZG und eine KG bzw. VG. Die Experimentalgruppe ist die Gruppe, die das Projekt durchläuft. Dagegen ist die KG bzw. VG diejenige, die nicht am Projekt teilnimmt.
KG und VG verweisen hierbei auf zwei unterschiedliche Herangehensweisen: das experimentelle sowie das quasi-experimentelle Design. Die beiden Varianten unterscheiden sich in der Zusammenstellung der zweiten, nicht am Projekt teilnehmenden Gruppe. Eine KG, die bei einem experimentellen Design als Vergleich herangezogen wird, kann z.B. durch die Methode der 'Randomisierung' zufällig zugewiesen werden.[24] „Der Randomisierung liegt das Prinzip des statistischen Fehlerausgleichs zugrunde, das – hier angewendet – besagt, dass sich die Besonderheiten von Personen in der einen Gruppe durch die Besonderheiten von Personen in der anderen Gruppe ausgleichen bzw. dass es zu einer Neutralisierung personenbezogener Störvariablen kommt“ (Bortz/Döring 2006, 54). Personengebundene Störvariablen sind dann gegeben, „wenn sich die Untersuchungsteilnehmer der einen Stichprobe von den Untersuchungsteilnehmern der anderen Stichprobe(n) nicht nur bezüglich der unabhängigen Variablen, sondern auch in Bezug auf weitere, mit der abhängigen Variablen zusammenhängende Merkmale unterscheiden“ (Bortz/Döring 2006, 524).[25] Haben die Personen in der ZG im Gegensatz zu der zum Vergleich herangezogenen Personengruppe viel Kontakt zu Menschen mit Behinderung z.B. durch Familienmitglieder oder Freunde, kann das als personenbezogene Störvariable bezeichnet werden. Befinden sich in der ZG beispielsweise mehr Frauen als in der zum Vergleich herangezogenen Gruppe, wird ebenfalls von einer personenbezogenen Störvariable gesprochen.
[...]
[1] Bei einem Forschungsdesign handelt es sich um Überlegungen, wie genau Daten erhoben werden sollen. „Dabei müssen eine Reihe von Entscheidungen getroffen werden, wann, wo, wie und wie oft die empirischen Indikatoren an welchen Objekten erfasst werden sollen. Die Gesamtheit dieser Entscheidungen bezeichnet man als 'Untersuchungsanordnung' oder 'Forschungsdesign'“ (Schnell/Hill/Esser 2005, 211).
[2] „Formative Evaluationen werden während der Implementierung z.B. eines Programms bzw. parallel zum Ablauf einer Massnahme [!] durchgeführt“ (ProEval o.J., 7, vgl. auch Bortz/Döring 2006, 109f.). Dagegen sind summative Evaluationen (auch Prozessevaluation genannt) Evaluationen, die sich „auf den Verlauf bzw. den Umsetzungsprozess eines Projekts/Programms“ (ProEval o.J., 13, vgl. auch Bortz/Döring 2006, 109f.) konzentrieren. „Der Fokus solcher [formative] Evaluationen liegt nicht auf Inputs, Outputs, Wirkungen usw., sondern vielmehr auf den Verfahren, Praktiken, Strukturen, Organisationsformen, Bedingungen etc..., die zum Erreichen der Projektziele eingesetzt werden bzw. dazu beitragen“ (ProEval o.J., 13, vgl. auch Bortz/Döring 2006, 109f.).
[3] Zusammengefasst sind die Funktionen von Evaluation, die Erkenntnisfunktion, Kontrollfunktion, Dialogfunktion, Legitimationsfunktion sowie Steuerungsfunktion, aufzuführen (vgl. Stockmann 2010b, 72ff., Stockmann 2007, 36ff., Bortz/Döring 2006, 97). Hierbei ist aber zu beachten, dass Funktionen immer miteinander wirken. „Allerdings sind diese [Funktionen von Evaluation] (…) nicht unabhängig voneinander, sondern, im Gegenteil, eng miteinander verbunden“ (Stockmann 2007, 39).
[4] Die OECD befasst sich mit Entwicklungszusammenarbeit und ist kein typisches bzw. nicht ausschließlich das Handlungsfeld der Sozialen Arbeit. Dennoch sind die OECD-DAC Kriterien auch außerhalb der Entwicklungszusammenarbeit relevant.
[5] „(...) Wirkungsevaluationen [beinhalten] in erster Linie die Zuordnung von Wirkungen zu einer Maßnahme denn die Bewertung dessen, was stattfindet“ (Caspari 2009, 190).
[6] Die Abkürzung 'ALKOR' steht für 'Allgemeines Lernkonzept mit Herz' (Cor (lat.) bedeutet Herz bzw. Stern im Sternenbild Großer Wagen).
[7] „Wirkungsorientierung bedeutet somit letztendlich die Implementierung eines wirkungsorientierten Monitorings d.h. eines Monitoring-Systems, das auf Basis zuvor festgelegter Indikatoren nicht nur überprüft, was getan wurde, sondern auch, welche Veränderungen bewirkt wurden, das also auf die kontinuierliche Wirkungsbeobachtung ausgerichtet ist“ (Caspari 2012, 12).
[8] An der Wirkungsorientierung kann kritisiert werden, dass Soziale Arbeit nicht nach ökonomischen und effizienten Zielen ausgerichtet werden sollte (vgl. Kutscher 2009, Böttcher 2002).
[9] Projekt steht im Folgenden stellvertretend für Maßnahmen, Prozesse, Organisationen usw.
[10] „Die ökonometrische Querschnitts- und Panelanalyse ist in den letzten Jahren zum zentralen Schauplatz
für die Diskussion über Aid Effectiveness geworden. Im Mittelpunkt der Debatte steht dabei der
Zusammenhang zwischen vergebenen EZ-Ressourcen und der wirtschaftlichen Entwicklung eines
Landes“ (Faust/Leiderer o.J, 1).
[11] „Die 2005 verabschiedete Paris-Erklärung (PE) hat Grundsätze und Verfahren zur Verbesserung der Wirksamkeit der Entwicklungszusammenarbeit (EZ) definiert und in Form von zwölf Zielen konkretisiert, die mit messbaren Indikatoren versehen und bis 2010 zu erreichen sind“ (DIE 2008, 1).
[12] „Die für die Förderung der Entwicklung zuständigen Minister und Ministerinnen aus Entwicklungs- und Geberländern sowie die Leitung multilateraler und bilateraler Entwicklungsorganisationen haben am 4. September 2008 in Accra/Ghana (…) [eine] Erklärung zur Beschleunigung und Vertiefung der Umsetzung der Erklärung von Paris über die Wirksamkeit der Entwicklungszusammenarbeit (2. März 2005) gebilligt“ (OECD 2008, 1).
[13] „Wenn man, zum Beispiel, das Gewicht eines Sandhaufens wissen möchte, dann wird man eine Waage verwenden – keinen Meterstab. Valide ist die Messung aber nur dann, wenn man tatsächlich den ganzen Sand auf die Waage gegeben hat und nur den Sand und nicht auch noch herumliegende Steine oder eine Schaufel. Und reliabel ist die Messung nur dann, wenn die Waage geeicht ist und man sich während des Vorgangs nicht zufällig auf die Waage aufgestützt hatte“ (Dür 2008, 18).
[14] Mit den Begriffen experimentelle bzw. quasi-experimentelle Designs sowie KG und VG wird sich in Kapitel 2.1 näher befasst.
[15] Diese Definition ist eine von vielen Versuchen, den „Kernbereich der Einstellung“ zu erfassen. Weitere werden in Kapitel 2.2 aufgezeigt.
[16] Diese werden in Kapitel 3.2.2 vorgestellt.
[17] „Bevor für eine Untersuchung ein eigener Test entwickelt wird, sollte überprüft werden, ob für das interessierende Merkmal bereits ein brauchbarer Test existiert (...)“ (Bortz/Döring 2006, 213).
[18] Wirkungsevaluationen forschen im Gegensatz zu Wirkungsmessungen tiefer und suchen auch die Ursachen der Wirkungen (vgl. u.a. Reade 2008, 3). Daher könnte die für diese Arbeit herangezogene Wirkungsmessung kritisch auch als 'Black Box Evaluation' (vgl. Caspari 2012, 14) beschrieben werden. Diese ist aber bewusst ausgewählt und soll beispielhaft zeigen, dass Wirkungsevaluationen und Wirkungsmessungen in der Sozialen Arbeit möglich und sinnvoll sind. Die Vorgaben und der für die Bachelor-Thesis vorgeschriebene zeitliche Rahmen lassen keine umfangreiche und allumfassende Wirkungsevaluation zu.
[19] „Das zentrale Problem bei Wirkungsanalysen ist der Nachweis, dass bestimmte Veränderungen – oder auch 'konservierende Wirkung', d.h. Wirkungen die im Erhalt eines Ausgangszustandes bestehen – kausal mit zu untersuchenden Entwicklungsmaßnahme zusammenhängen“ (Oberndörfer/Hanf/Weiland 2010, 22).
[20] Dieses Beispiel stammt aus der Entwicklungszusammenarbeit. Ein passenderes Beispiel im Kontext der Behindertenpädagogik ist z.B. die Entwicklung neuer Gesetzte und Richtlinien. Die Ratifizierung der UN-Behindertenrechtskonvention könnte Einfluss auf vergleichbare Projekte genommen haben.
[21] „Die Situationen bzw. die Bedingungen, die für Personen, Organisationen oder Gruppen ohne Entwicklungsmaßnahmen theoretisch gegeben sein könnten“ (OECD 2009, 24).
[22] Im Folgenden sind - wenn nicht besonders benannt - mit Wirkungen immer Nettowirkungen gemeint.
[23] Unter Outputs können „Produkte, Investitionsgüter und Dienstleistungen, die Ergebnis einer Entwicklungsmaßnahme sind“ (OECD 2009, 36) verstanden werden.
[24] „Bei experimentellen Untersuchungen werden Untersuchungsobjekte per Zufall in Gruppen eingeteilt (Randomisierung) (...)“ (Bortz/Döring 2006, 54). Bei experimentellen Untersuchungen spricht man auch von Randomized Controlled Trials (RCT) (vgl. Caspari 2009, 194ff.).
[25] „Wir unterscheiden abhängige und unabhängige Variablen und bringen damit zum Ausdruck, dass Veränderungen der einen (abhängigen) Variablen mit dem Einfluss einer anderen (unabhängigen)Variablen erklärt werden sollen (z.B. Dosierung eines Schlafmittels als unabhängige Variable/Ursache und Schlafdauer als abhängige Variable/Wirkung)“ (Bortz/Döring 2006, 3).