Für neue Kunden:
Für bereits registrierte Kunden:
Hausarbeit, 2022
28 Seiten, Note: 1,7
Inhaltsverzeichnis
1 Einleitung
2 Teststandards
2.1 Standards für die Testentwicklung im Allgemeinem
2.2 Teststandards beim pädagogischen Test
2.3 Qualitätsbeurteilung von Tests
3 Reliabilität
3.1 Retest- Reliabilität
3.2 Paralleltest-Reliabilität
3.3 Split-Half-Reliabilität
4 Testwertinterpretation
4.1 Kriteriumsorientierte Testwertinterpretation
4.2 Normorientierte Testwertinterpretation
4.3 Prozentrangwerte
5 Praxisbeispiel: Rechentest
5.1 Teststandards
5.2 Reliabilität
5.3 Testwertinterpretation und Prozentränge
5.4 Zusammenfassung
6 Diskussion
7 Fazit und Ausblick
Literaturverzeichnis
Fragebögen und Tests sind wichtige Konstrukte, um die Meinungen und Leistungen eines Menschen zu erfassen. Kritisch wird es allerdings, wenn diese Tests nicht wissenschaftlich sind. Beispielweise möchte ein Testanwender oder eine Testanwenderin einen Rechentest verwenden, um die Rechenfähigkeit von einem Schüler oder einer Schülerin zu erfassen. Dieser Test ist nun allerdings sehr schlecht erstellt worden, die Items machen eher Aussagen über die Konzentrationsfähigkeit als über die Rechenfähigkeit (Validität), bei mehrfacher Messung des Tests kommen deutlich unterschiedliche Ergebnisse raus, sodass angenommen werden muss, dass der Test einen deutlichen Messfehler hat (Reliabilität) und aufgrund dessen, dass ein Testmanual fehlt, weiß der Testanwender oder die Testanwenderin nicht wie er oder sie den Test bewerten soll (Objektivität). Das sind gerade einmal die Probleme der Hauptgütekriterien, aber es können auch noch mehr Probleme auftreten. So können die Fragen schlecht erstellt sein, indem entweder die Schwierigkeit zu leicht ist und deshalb alle gut abschneiden oder zu schwer sein, indem alle schlecht abschneiden. Auch durch Multiple-Choice-Fragen können die Schüler und Schülerinnen raten, anstatt zu rechnen. Aber selbst, wenn ein Test wissenschaftlich gut ist, muss der Testanwender oder die Testanwenderin wissen, wie er oder sie den Test interpretieren soll. Dazu ist es wichtig die Norm oder die Kriterien richtig zu definieren und die passende Methode zu verwenden, damit die Ergebnisse überhaupt brauchbar sein können. Es gibt also einiges was falsch gemacht werden kann, weshalb diese Arbeit die Frage beantworten soll was besser gemacht werden kann, damit ein Test wissenschaftlich fundiert und interpretiert werden kann.
Zuerst beschäftigt sich diese Arbeit mit der Theorie in Kapitel 2-4 und anschließend werden die Inhalte an einem Praxisbeispiel verdeutlicht.
In Kapitel 2 geht es um die Teststandards, also was alles beachtet werden soll damit ein Test als wissenschaftlich eingestuft werden kann. Die Teststandards sind hierbei nur als Empfehlungen gedacht aber dennoch bieten sie einen guten Überblick über Inhalte, wie die Validität, die Fairness, die Bedeutsamkeit, die Ökonomie, die Normierung, das Testmanual, die Qualifikation des Testanwenders oder der Testanwenderin oder den Fragetypen. Außerdem gibt es Rezensionen, welche Tests bewerten und in Fachzeitschriften veröffentlichen.
In Kapitel 3 wird gesondert die Reliabilität vorgestellt. Dabei werden drei Methoden besprochen, nämlich die Retest-Reliabilität (Wiederholung), die Paralleltest-Reliabilität (zweiter Test) oder die Split-Half-Methode (Teilung eines Tests in zwei Hälften).
In Kapitel 4 sollen Methoden zur Interpretation von Ergebnissen vorgestellt werden, nämlich zum einem die normorientierte Testwertinterpretation, welche auf dem Vergleich mit anderen Menschen aufbaut, sowie die kriteriumsorientierte Testwertinterpretation, welche klare Kriterien definiert, anhand welcher die Ergebnisse überprüft werden können. Es werden auch Prozentränge vorgestellt, welche benötigt werden für die normorientierte Testwertinterpretation.
Schließlich sollen in Kapitel 5 die theoretischen Inhalte in einem Praxisbeispiel, nämlich des Rechentests dargestellt werden. Es werden also Empfehlungen gegeben, was einen guten Rechentest ausmacht.
Kapitel 6 und 7 runden diese Arbeit mit einer Diskussion zu den Teststandards und der Testwertinterpretation, sowie mit einem Fazit und Ausblick ab.
Damit ein Test wissenschaftlich fundiert ist und somit aussagekräftig ist haben sich im Laufe der Zeit Teststandards entwickelt. Teststandards werden verwendet sowohl für psychologische Tests als auch für pädagogische Tests.
Dabei sind Teststandards Leitlinien für die Entwicklung, Anwendung und Qualitätsbeurteilung von Tests (Moosbrugger & Kelava, 2020, S. 198). Teststandards für psychologische und pädagogische Tests werden unteranderem von der American Psychological Association (APA), der American Educational Research Association (AERA) und der National Council on Measurement in Education (NCME) erstellt (ebd. S. 199). Wichtig zu beachten bei diesen Standards ist, dass es keine Checkliste ist, zum „perfekten“ Test, da jeder Test individuell zu prüfen ist, was eine gewisse Expertise voraussetzt (American Educational Research Association [AERA], American Psychological Association [APA] & National Council on Measurement in Education [NCME] 1999, S. 4).
Um einen Test zu entwickeln, sollten einige Standards beachtet werden z. B. zu den Gütekriterien, der Itemkonstruktion oder zur Normierung. In diesem Kapitel werden daher einige ausgewählte Standards für die Testentwicklung vorgestellt. Das Gütekriterium Reliabilität wird in Kapitel 3 separat behandelt.
Ein angemessener Test muss ausreichende Informationen liefern zu den Themen: Geltungsbereich und somit dessen Repräsentativität, die Reliabilität, die Validität, dem Fehlen eines systematischen Fehlers, Fairness und Bedeutsamkeit, sowie der Ökonomie (International Test Commission [ITC], 2001, S. 15).
Die Validität ist das wichtigste Gütekriterium und gibt an, ob die Messung gültig ist, also ob sie, dass misst was es messen soll (Wirtschaftspsychologische Gesellschaft, o. D.). So müssen innerhalb der Teststandards gewisse Belege vorgelegt werden für die Validität. So muss z. B. der Inhaltsbereich definiert werden, qualifizierte Expertenurteile gebildet werden oder statistische Schätzungen erstellt werden. Diese dürfen nicht älter als acht Jahre alt sein (Moosbrugger & Kelava, 2020, S. 200).
Das Gütekriterium der Fairness sagt aus, dass alle Menschen, welche zur Personengruppe des Tests gehören, gleiche Chancen haben und nicht diskriminiert werden aufgrund von Geschlecht, der Kultur oder der Herkunft (Döring & Bortz, 2016, S.449). Für das Gütekriterium der Bedeutsamkeit gilt, dass es eine praktische Relevanz haben muss (ebd. S. 150).
Bei der Bedeutsamkeit sollte also beachtet werden, dass die Forschung einen Nutzen hat, indem dadurch Menschen geholfen wird oder es einen praktischen Nutzen hat etc.
Auch die Ökonomie muss beachtet werden, also wie viele finanzielle, aber auch zeitliche Ressourcen ein Test benötigt (Moosbrugger & Kelava, 2020, S. 24).
Dabei dürfte hier vor allem die zeitliche Ressource eine wichtige Rolle spielen.
Für die Itemgenerierung ist es bedeutsam den ganzen Inhaltsbereich eines latenten Merkmals zu erfassen, damit es das Merkmal gut repräsentieren kann (ebd. S. 201 – 202). Dabei können Items, welche hoch miteinander korrelieren zu einem Faktor zusammengefasst werden (Schmidt-Atzert, Krumm & Amelang, 2021, S. 90).
Somit kann ein Faktor einen Subtest darstellen, also einen Inhaltsbereich. So kann das Merkmal „Extraversion“ in mehreren Subtests „Extraversion gegenüber Fremden“ oder „Extraversion gegenüber Freunden“ etc. gegliedert werden, sodass der ganze mögliche Inhaltsbereich abgedeckt ist.
In pädagogischen Tests wird auch von Domänen gesprochen. Dabei kann das Fach Mathematik in Domänen wie Algebra oder Geometrie geteilt werden (Moosbrugger & Kelava, 2020, S. 221).
Ein wichtiges Instrument für die Vergleichbarkeit von Testergebnissen zwischen Menschen ist die Normierung. Dabei wird das Testergebnis einer Person in den Bezugsrahmen anderer Personen (Normstichprobe) gesetzt, um zu sehen wie gut/schlecht die Person im Vergleich abgeschnitten hat (Testentwicklung Pearson Deutschland, 2018). Dabei kann die Normierung auf Geschlechter, Altersgruppen oder Berufungen eingeteilt werden (Burisch, 2020, S. 40). Die Normierung sollte alle acht Jahre auf ihre Gültigkeit geprüft werden (Moosbrugger & Kelava, 2020, S. 202).
Es sollte auch ein Testmanual erstellt werden, welcher genaue Regeln zur Anwendung und Auswertung von Tests vorsieht, damit jeder Testanwender oder Testanwenderin objektiv handeln kann (Döring & Bortz, 2016, S. 431). Außerdem werden im Testmanual die Testkonstruktion, sowie Angaben zu den Gütekriterien gemacht (Schmidt-Atzert, Krumm &Amelang, 2021, S. 213).
Eine zentrale Rolle spielt also der Testanwender, bzw. die Testanwenderin, weshalb es auch hier einiges zu beachten gibt. Zum einem sollte der Testanwender / die Testanwenderin Fachwissen haben und den Test unter vorgegebenen Bedingungen sehr genau durchführen (Urhahne, Dresel & Fischer, 2019, S. 171).
Der Testanwender, bzw. die Testanwenderin braucht dieses Fachwissen, damit er/sie den Test überhaupt durchführen kann und um das Gütekriterium der Objektivität gewährleisten zu können, müssen alle Tests gleich ablaufen, weshalb Disziplin bei der Durchführung und Bewertung der Tests notwendig ist.
Außerdem müssen Testanwender und Testanwenderinnen Kommunikationsfertigkeiten besitzen, ethische Verhaltensgrundsätze beachten, sowie kompetent Störungen bewältigen (Moosbrugger & Kelava, 2020, S. 205).
Bei pädagogischen Tests sollte sich die Frage gestellt werden, was überhaupt erreicht werden soll und in welcher Form es am besten erfasst wird.
So kann beim Formellen Lernen nach einem Lehrplan ein gewisses Ziel erfüllt werden, was dann auch standardisiert überprüft werden muss (Sauter, Sauter & Wolfig, 2018, S. 112). Beim Informellen Lernen wiederum geht es nicht um klare Lernziele, sondern es wird im Alltag, bzw. in der Freizeit beiläufig gemacht, wobei es trotzdem zielgerichtet sein kann, wie z. B. beim Fußballspielen im Verein (Overwien, 2020, S. 233).
Beim Formativen Testen wird am Beginn ein Leistungsstand erfasst, damit Empfehlungen für Verbesserungen formuliert werden können. Am Ende wird erneut getestet, um zu sehen, ob es eine Entwicklung gegeben hat. Beim summativen Testen wird nur am Ende ein Test abgelegt (z. B. Modulklausur), welche den abschließenden Leistungstand klärt und einen Vergleich mit anderen ermöglicht (Universität Zürich, o. D.).
Um zu bestimmen, wie gut jemand bei einem pädagogischen Test abgeschnitten hat werden Noten (Niveaus) gebildet, wenn gewisse Kriterien erreicht werden. Dabei sollte der Vergleich zu anderen grundsätzlich keinen Einfluss auf die Note haben, wobei es im schulischen Kontext durchaus mal sinnvoll ist eine Korrektur für die Durchschnittsnote zu machen (Urhahne, Dresel & Fischer, 2019, S. 508 – 509).
Es können auch Fragetypen unterschieden werden, wie die geschlossene Frage, wo es eine begrenzte Antwortmöglichkeit gibt oder zwischen offenen Fragen, wo der Befragte oder die Befragte frei antworten muss (Patrzek, 2015, S. 92).
Bei geschlossen Fragen ist es demnach einfacher, da es hier „nur“ um die Wiedererkennung geht, während bei offenen Fragen frei reproduziert werden muss, was höhere kognitive Ressourcen beansprucht.
Fragen können nur bei pädagogischen Tests mit richtig oder falsch bewertet werden, da bei psychologischen Tests jeder Mensch nach seiner Meinung/Persönlichkeit etc. gefragt wird und somit individuell ist und deshalb auch nicht falsch antworten kann (Manipulation der eigenen Antwort ist allerdings möglich, aufgrund z. B. sozialer Erwünschtheit).
Je nachdem, was mit dem psychologischen oder pädagogischen Test erreicht werden möchte müssen unterschiedliche Teststandards, bzw. Methoden beachtet werden.
Um sicherzustellen, dass ein Test gut ist, gibt es auch hierfür Teststandards, welche die Qualität von Tests beurteilen.
Zum einem dienen Testrezensionen der Beurteilung von Testverfahren durch Expertenurteile. Die jeweiligen Rezensionen werden in Fachzeitschriften veröffentlicht. Dabei sind diese Rezensionen standardisiert und frei verfügbar, allerdings ist die Zugänglichkeit nicht immer leicht. Des Weiteren sind Testrezensionen nicht für alle Tests verfügbar (Schmidt-Atzert, Krumm & Amelang, 2021, S. 213).
Das Diagnostik- und Testkuratorium [DTK] der Föderation Deutscher Psychologenvereinigungen hat einen Standard, namens TBS-TK entwickelt, welcher zahlreiche Tests, wie z. B. das Bochumer Inventar zur berufsbezogenen Persönlichkeitsbeschreibung – Sechs Faktoren (BIP-6F) oder das Freiburger Persönlichkeitsinventar bewertet hat, welche frei zur Verfügung stehen (Berufsverband Deutscher Psychologinnen und Psychologen e.V. [BDP], o. D.)
Dazu hat das DTK einige Besprechungs- und Beurteilungskategorien erhoben, nach welchen ein Test bewertet wird. Dabei wird erst die Beschreibung des Tests, sowie dessen Zielsetzung angesehen, anschließend wird der Informationsgewinn der Verfahrenshinweise bewertet und geprüft, ob alle notwendigen Informationen des DTK-Standards zu finden sind. Später werden die theoretischen Grundlagen, die Objektivität, die Normierung, die Zuverlässigkeit (Reliabilität), die Validität, sowie weitere Gütekriterien bewertet. Zum Schluss findet eine Abschlussbewertung statt (Diagnostik- und Testkuratorium, 2018, S. 111).
Aufgrund der Expertenurteile, welche nach den Bewertungskriterien gebildet werden, kann herausgefunden werden, ob ein Test wissenschaftlich und somit brauchbar ist.
Die Reliabilität ist das Gütekriterium, welches die Messgenauigkeit eines Tests beschreibt. Das Gütekriterium der Reliabilität, bzw. der Zuverlässigkeit ist dann erfüllt, wenn das Merkmal ohne Messfehler gemessen wird (Moosbrugger & Kelava, 2020, S. 27). Das Maß für die Reliabilität nennt sich Reliabilitätskoeffizient und hat eine Skala zwischen 0 und 1 (0 – ausschließlich mit Messfehler, 1 – ohne Messfehler). Dabei wird von einem guten Reliabilitätskoeffizient gesprochen, wenn es den Wert von min. 0.70 nicht unterschreitet (ebd. S. 28). Laut Döring und Bortz (2016, S. 83) wird von einem guten Reliabilitätskoeffizienten gesprochen, wenn es mindestens den Wert von 0.80 erreicht.
Somit sollte der Reliabilitätskoeffizient zwischen 0.7 bis 0.8 sein, um einen guten Test zu haben, aber höhere Werte werden ausdrücklich erwünscht. Es gibt einige Methoden, um die Reliabilität zu messen, weshalb in diesem Kapitel der Retest, der Paralleltest, sowie die Split-Half-Reliabilität vorgestellt werden.
Bei der Retest-Reliabilität geht es darum, dass der gleiche Test von der gleichen Person zu zwei unterschiedlichen Zeitpunkten bearbeitet wird (Rammstedt, 2010, S. 244). Wichtig zu beachten ist, dass der Zeitraum zwischen den Testungen nicht zu lang ist. So haben Goetz, Stuck, Hirschi, Gillmann, Dapp, Nikolaus, Minder & Beck (2001, S. 200) in einer ihrer Studien einen Zeitraum von mindestens 3 Tagen und maximal 13 Tagen gewählt. Der Zeitintervall zwischen erster und zweiter Messung kann allerdings auch zwischen zwei bis drei Wochen gewählt werden, wichtig ist, dass das Intervall inhaltlich begründet wird (Döring & Bortz, 2016, S. 444).
Die Verwendung der Retest-Reliabilität sollte allerdings nur für Merkmale verwendet werden, welche stabil sind, wie z. B. Wertvorstellungen oder Einstellungen. Die Unterschiede zwischen der ersten und zweiten Messung sollten auf den Messfehler hinweisen (welcher für die Reliabilität relevant ist) und nicht auf die veränderte Merkmalsausprägung (Döring & Bortz, 2016, S. 444; Rammstedt, 2010, S. 244).
[...]