Betekenis p-, a-, Rir- en Rar-waarde

Onbekend maakt onbemind, maar bekend maakt bemind

Binnen verschillende toetstechnische professionaliseringstrajecten blijkt dat als het onderwerp toets- en itemanalyse aan de orde komt het merendeel van de betrokkenen aangeeft dat ze daar niets of heel weinig aan doen, zelfs al zijn toets- en itemindices beschikbaar. Vooral de toetsresultaten zijn belangrijk en als die naar tevredenheid zijn, dan is daarmee de analyse vaak voltooid. Zijn de resultaten niet tevreden, dan wordt soms aan de cesuur gesleuteld en dat eigenlijk zonder kennis van zaken. De reden is dat er een zekere angst bestaat en onwetendheid is ten aanzien van het tot stand komen van een cesuur en de toets- en itemindices. De indices zijn onbekend en de resultaten zijn gebaseerd op angstige complexe formules.

Als vervolgens aan de hand van eigen toetsen en vragen de indices worden besproken slaan angst en onzekerheid om in enthousiasme en inzicht. Als ook duidelijk wordt welke invloed slechte vragen op de cesuur kunnen hebben (studenten mogen immers niet het slachtoffer worden van slechte vragen) of op het slagingspercentage van de studenten, neemt het enthousiasme nog verder toe. Niet dat daarmee resultaten gemanipuleerd kunnen worden, maar wel dat doordacht kan worden omgegaan met de analysegegevens, de cesuur en de resultaten. Door aanbevelingen voor aanpassingen of het laten vervallen van vragen vast te leggen in een kort ‘proces verbaal’ van de analyse, wordt onderbouwd en transparant waarom zo gehandeld zou kunnen worden. Eventueel kan dit worden voorgelegd aan de examencommissie.

Om een toetstechnische analyse van gesloten vragen zoals de meerkeuzevraag te kunnen maken, wordt hierna kort toegelicht wat de betekenis is van de volgende psychometrische indices: p-, a-, Rir– en Rar-waarden. Zo ingewikkeld is het niet en mogelijk helpt het ergens bij.


p-waarde
De p-waarde betreft de moeilijkheid van een vraag. De p-waarde geeft weer hoeveel procent van de studenten de vraag goed heeft gemaakt (bij een meerkeuzevraag) of wat de gemiddelde score van alle studenten was op een open vraag. De p-waarde ligt tussen 0 en 1. Bij 0 hebben alle studenten de vraag fout beantwoord. Bij 1 hebben alle studenten de vraag goed beantwoord. Dus hoe makkelijker de vraag hoe hoger de p-waarde. Een vraag met een p-waarde van 0,83 is dus makkelijker dan een vraag met een p-waarde van 0,49.

Bij de ideale moeilijkheid van een vraag wordt ervan uitgegaan dat de vraag een goed onderscheid maakt tussen de ‘kenners’ en ‘niet-kenners’ (Dousma, Hortsen & Brants, 1997). Bij een p-waarde van 0,50 (het midden tussen 0 en 1) splitst de vraag de groep studenten precies in twee gelijke delen.

De ideale moeilijkheid van een vraag is echter ook afhankelijk van de blinde raadkans. Bij een open vraag is er nagenoeg geen blinde raadkans en is de ideale p-waarde daar dus 0,5. Ook bij zogenaamde polytome vragen zoals de multiple-responsvraag of de matchvraag is de blinde raadkans bijna 0. Dergelijke vragen kennen dus ook een ideale p-waarde van ± 0,5.

Bij dichotome vragen zoals de meerkeuzevraag met 2, 3, 4 of 5 alternatieven speelt de blinde raadkans wel een rol. Door te raden (gokken) kan een vraag per ongeluk goed worden beantwoord. Dit maakt het goed beantwoorden van dichotome vragen dus iets makkelijker en moet de ideale p-waarde dus iets omhoog gebracht worden. Bij 5 alternatieven is de ideale p-waarde 0,60, bij 4 alternatieven 0,63, bij 3 alternatieven 0,67 en bij 2 alternatieven 0,75. Bij dichotome vragen moet de blinde raadkans dus worden vereffend in de ideale p-waarde. De ideale moeilijkheid ligt bij dichotome vragen op de raadkans + (1 – raadkans)/2. Bij een 1-uit-4 vraag bijvoorbeeld wordt dit als volgt berekend: 0,25 + (1 – 0,25)/2 = 0,25 + 0,375 = 0,625 = 0,63. Eigenlijk betreft dit ook het midden, maar dan zonder de blinde raadkans. De berekening wordt duidelijker en het effect makkelijker te onthouden, door de volgende grafische weergave.
 

 

 

 

 

 

 

De werkelijke moeilijkheid van een vraag kan pas achteraf door middel van de p-waarde worden vastgesteld. Vooraf inschatten van de moeilijkheid van een vraag lukt eigenlijk niet.

Het is niet de bedoeling dat de ideale moeilijkheid van een vraag bij elke vraag in de toets moet worden nagestreefd. Een marge van + of – 0,2 bij verschillende vragen rond de ideale moeilijkheid, is uitstekend. Een toets met bijvoorbeeld uitsluitend makkelijke vragen maakt geen onderscheid tussen de betere en de zwakkere studenten. Betere studenten hebben dan niet kunnen laten zien waartoe ze echt in staat zijn, dus hoe goed ze echt zijn. Bij een moeilijke toets geldt het omgekeerde. De zwakkere studenten kunnen niet laten zien waartoe zij in staat zijn, omdat bijna alle vragen te moeilijk waren. Een mix van makkelijkere en moeilijke vragen is derhalve ideaal. De toets ordent de ‘kenners’ en de ‘niet-kenners’ dan op een goede wijze.
 

a-waarde
De a-waarde geeft de aantrekkelijkheid van een afleider aan. De a-waarde ligt tussen 0 en 1. Bij 0 kiest geen enkele student de afleider. Bij 1 kiezen alle studenten
de afleider. Als een afleider een hele hoge a-waarde heeft, is de p-waarde dus laag. Dat is ongewoon omdat de p-waarde hoger dient te zijn dan een a-waarde. Een hoge a-waarde kan wijzen op een sleutelfout of op een slecht geformuleerde sleutel (het juiste antwoord) of een afleider die teveel lijkt op de sleutel. Een a-waarde is bij voorkeur > 0,05, anders doet de afleider zijn werk niet goed.
 

Rir– en Rar-waarde
Rir– en Rar-waarden zeggen iets over het onderscheidend vermogen van een vraag (Rir-waarde) of een afleider (Rar-waarde). Onderscheidend vermogen wil zeggen of een vraag of een afleider een goed onderscheid maakt tussen de zwakkere en de betere studenten; ofwel goed discrimineert.
 

De Rir– en Rar-waarden liggen tussen -1 en +1. Bij voorkeur is de Rir-waarde> 0,2, maar nog liever >0,4 en is de Rar-waarde negatief; en hoe negatiever hoe beter. Een hoge Rir-waarde wil zeggen dat de betere studenten de vraag juist beantwoorden en de zwakkere studenten de vraag onjuist beantwoorden. Een afleider doet zijn werk goed als de Rar-waarde van die afleider negatief is en hoe meer negatief hoe beter. Dit is een aanwijzing dat juist de zwakkere studenten kiezen voor de afleider.
 

Negatieve Rir-waarden zijn ongewenst en duiden erop dat juist de betere studenten een vraag onjuist beantwoorden en de zwakkere studenten een vraag juist beantwoorden. Veelal is er dan iets met de vraag aan de hand. Maar als een vraag bijvoorbeeld erg makkelijk is (hoge p-waarde: p >= 0,9) dan zegt een lage Rir-waarde van bijvoorbeeld -0,07 niet zoveel. De vraag maakt door de hoge p-waarde sowieso al weinig onderscheid tussen de betere en de zwakkere studenten.
 

Bij een positieve Rar-waarde kiezen enkele betere studenten de afleider en dat is opvallend. Vaak kiezen dan de zwakkere studenten de sleutel wat leidt tot een negatieve Rir-waarde.
 

Een lage p-waarde bij drie alternatieven (p-waarde < 0,33) en een hoge Rir-waarde (>=0,4) betekent dat een vraag erg moeilijk is, maar wel juist wordt beantwoord door de betere studenten en onjuist wordt beantwoord door de zwakkere studenten. Op zich hoeft er dan dus niets mis te zijn met de vraag. Desondanks zou nog wel naar de vraag gekeken kunnen worden omdat het een wel erg moeilijke vraag betreft. Maar als de vraag inhoudelijk goed is kan de vraag ongewijzigd blijven bestaan. Het is blijkbaar een moeilijke maar goede vraag.
 

Over het algemeen geldt dat vragen met een p-waarde kleiner dan de gokkans sowieso moeten worden beoordeeld, omdat zelfs met blind raden de vraag onder de gokkans scoort. De vraag is blijkbaar opvallend moeilijk.
 

Naast de Rir– en Rar-waarden worden Rit– en Rat-waarden gebruikt. De Rir– en Rar-waarden geven, vooral als een toets uit minder vragen bestaat zoals bij een toets met open vragen vaker het geval is (vergeleken met een toets met gesloten vragen), betere informatie over het onderscheidend vermogen van een vraag. Het voert in de opzet van dit artikel te ver om het verschil tussen Rir/Rar en Rit/Rat toe te lichten.
 

Aantal studenten
p-, a-, Rir– en Rar-waarden zeggen eigenlijk pas iets als een toets is gemaakt door meer dan 50 studenten. Maar opvallende waarden bij minder dan 50 afnames zijn desondanks toch al het onderzoeken waard.
 

Tot slot
Uit het bovenstaande blijkt dat de itemindices elk afzonderlijk iets zeggen over de kwaliteit van een vraag, maar dat vooral de combinatie van de indices binnen een vraag de meeste informatie oplevert.
 

Tot slot hierna een overzicht van de gangbare waarden voor de itemindices. Neem deze waarden niet absoluut, maar gebruik ze met ‘bevinding van zaken’ (Draaijer, 2016) en ‘enig liberalisme’ (Bender, 2003). Maar meestal lukt dit pas als wat meer ervaring is verkregen, waardoor de indices en de toets als geheel beter kunnen worden gelezen.