AI binnen examineren

Het internet staat vol met artikelen over AI binnen het onderwijs en hoe dit de beoordeling en de validiteit en de betrouwbaarheid van examens kan beïnvloeden. Vooral scripties staan onder vuur en over oplossingen wordt breed nagedacht. Veel wordt gesproken over de bedreigingen, maar we hebben twee voorbeelden van kansen om efficiënter te werken als ontwikkelaar en/of beoordelaar van vragen.

Het eerste voorbeeld betreft een bericht op LinedIn over het beoordelen van een toets met essay-vragen door AI en wat dat oplevert aan betrouwbaarheid van de beoordeling en de tijd die nodig is voor de beoordeling. Het tweede voorbeeld betreft de inzet van AI bij de ontwikkeling van gesloten vragen.

Voorbeeld 1: Beoordelen van essay-vragen door de mens en door AI

Vincent Kalis, redactielid van Examens werd onlangs getipt door Silvester Draaijer over een LinkedIn-bericht. De reactie van Vincent op LinkdIn was: “Wauw, wat een baanbrekend onderzoek naar AI en toetsing aan KU Leuven. GPT-4o blijkt niet alleen supersnel, maar ook verrassend betrouwbaar en goed in het nakijken van complexe essayvragen.”

Red.: Als we bedenken dat een AI-systeem de essayvragen ook had kunnen ontwikkelen (zie het tweede voorbeeld) en het AI-systeem kan het ook nakijken, en nog beter dan de mens, wat blijft er dan veel extra tijd over voor het onderwijs, prachtig toch!

Overgenomen van LinkedIn: Van Orhan Agirdag (zd.)

Professor | ERC Laureaat | Kroonlid Onderwijsraad

Boortmeerbeek, Flemish Region, Belgium

AI is niet meer weg te denken uit het hoger onderwijs—ook niet voor docenten. Recent onderzocht ik of AI kan helpen bij het nakijken van het proefexamen van Wijsgerige Pedagogiek, een bachelorvak aan de KU Leuven met zeven pagina’s complexe essayvragen waarin 211 studenten diepgaand filosofisch moesten redeneren (gesloten boek examen). Hiervoor ontwikkelde ik een API-applicatie die, aan de hand van de examenvragen en een uitgebreid antwoordmodel, de studentenantwoorden automatisch beoordeelt met GPT-4o. De resultaten waren – zachtjes uitgedrukt – indrukwekkend:

Betrouwbaarheid (test-retest): 0.97, hoger dan veel menselijke beoordelingen.
Validiteit: correlatie van 0.91 met de verbetering van (menselijke) assistenten, wat wijst op zeer sterke overeenstemming tussen AI en menselijke beoordelingen.
Tijdsbesparing: 16 minuten met GPT-4o versus ruim een week met menselijke assistenten. Een efficiëntiewinst die vele malen groter is dan wat bijvoorbeeld de stoommachine bracht tijdens de industriële revolutie.
Kosten: slechts 7 euro aan API-kosten.

Daarnaast biedt AI de kans om inhoudelijke feedback te geven aan álle studenten op alle vragen—iets wat menselijk gezien nauwelijks haalbaar is met zo’n grote groep, maar enorm waardevol voor formatieve evaluatie.

Natuurlijk moeten we kritisch blijven op risico’s zoals bias door AI voordat we het echt implementeren. Toch staat één ding vast: AI gaat onze manier van toetsen, evalueren en feedback geven fundamenteel veranderen.

Voorbeeld 2: Succesvol AI-gebruik bij het ontwikkelen van gesloten toetsvragen

Door Harry Molkenboer, uit de praktijk

Inleiding
Veel ontwikkelaars van gesloten toetsvragen hebben al geëxperimenteerd met kunstmatige intelligentie (AI). Vaak met verrassend creatieve en bruikbare resultaten. Toch is de ervaring dat het inhoudelijk lang niet altijd klopt. Dat heeft een oorzaak, maar ook een die goed op te lossen is.

Binnen een examenorganisatie loopt momenteel een project om te onderzoeken of AI op een gestructureerde en herhaalbare manier kan worden ingezet bij de ontwikkeling van gesloten vragen. De eerste resultaten zijn veelbelovend.

AI in de praktijk van vraagontwikkeling
AI-systemen zoals ChatGPT zijn goed bekend met toetstechnische richtlijnen voor gesloten vragen, omdat hierover veel informatie online beschikbaar is. Voor de toetstechnische kant van vraagontwikkeling zijn ze dus al prima inzetbaar.

De inhoudelijke kant is lastiger. Hoe meer publieke informatie beschikbaar is over het onderwerp, hoe beter AI presteert. Het helpt als de ontwikkelaar het systeem goed instrueert — in AI-termen: “prompten”. Inhoudsdeskundigen zijn vervolgens nodig om de output te beoordelen en zo nodig aan te passen. Toch is AI, dankzij snelheid en creativiteit, een krachtig hulpmiddel dat steeds vaker effectief wordt ingezet bij verschillende examenlijnen.

Geen succes zonder stevige basis
Een AI-systeem genereert niet uit zichzelf een passende vraag. De kwaliteit van de input bepaalt het resultaat. Hoe nauwkeuriger de context en opdracht, hoe beter de output. Dat vraagt tijd, zeker als dit voor elke vraag opnieuw moet gebeuren.

Goede toetsvragen zijn alleen mogelijk op basis van een goed opgebouwde toetsmatrijs met:

een duidelijke leeruitkomst, die de beroepscontext beschrijft;
leerdoelen die concreet, eenduidig en beoordeelbaar zijn, geformuleerd met actieve werkwoorden passend bij het gewenste gedragsniveau (kennis, inzicht, toepassen, et cetera.);
een expliciete benoeming van het taxonomieniveau (bijvoorbeeld volgens Bloom).

Als dit ontbreekt, hebben ontwikkelaars moeite om tot gerichte vragen te komen. Dat leidt tot interpretatieverschillen, onduidelijkheid en verminderde validiteit en betrouwbaarheid van het examen.

Eerst het fundament, dan het toetshuis
De eerste stap is dus het leggen van een stevig fundament. Als er overeenstemming is over wat kandidaten moeten kennen en kunnen — inhoudelijk én toetstechnisch — ontstaat een concrete en eenduidige leidraad voor alle vormen van toetsontwikkeling. Zo ontstaat congruentie tussen wat we beogen te meten en wat we daadwerkelijk meten (zie figuur 1).

Figuur 1: Congruentie tussen leerdoelen, toets en beoordeling

Met zo’n fundament kunnen AI-systemen gericht gevoed worden met de juiste informatie: leeruitkomst, leerdoel, taxonomieniveau. Voeg daaraan toe hoeveel vragen je wilt en in welke vraagvorm, en je hebt een duidelijke opdracht voor het AI-systeem.

Gebruik alleen vastgestelde bronnen
Bij vragen zoals “In welke volgorde moet je de volgende handelingen uitvoeren…” ontstaat al snel discussie. Tenzij er een duidelijke richtlijn bestaat. Als die richtlijn er is, moet deze de basis zijn voor het juiste antwoord. Als die ontbreekt, hoort deze vraag niet in het examen thuis.

Daarom is het belangrijk dat AI alleen gebruikmaakt van vooraf vastgestelde, betrouwbare bronnen. Denk aan wetten, richtlijnen of gedeelde opleidingsmaterialen. Deze bronnen moeten beschikbaar zijn via openbare URL’s of als Worddocument (geen PDF’s — AI leest die slecht).

Zo blijft de kwaliteit van de gegenereerde vragen hoog en juridisch verdedigbaar. Dit voorkomt tijdrovende bezwaarprocedures achteraf.

De generieke prompt: vier elementen

De volgende vier elementen vormen de kern van een effectieve prompt:

De leeruitkomst (context)
Het leerdoel
Het taxonomieniveau
De vooraf vastgestelde bronnen (met weblinks of geüploade Wordbestanden)

Voorbeeld van een generieke prompt:

“Ontwikkel drie gesloten toetsvragen op basis van de opgegeven leeruitkomst, het leerdoel, het taxonomieniveau en de vooraf geüploade bronnen. Kies zelf de best passende vraagvorm.”

Dit kan zelfs gedaan worden door een niet-inhoudsdeskundige. Wel geldt: controleer altijd de output zorgvuldig.

Uploaden van toetsmatrijzen

Een vervolgstap is het uploaden van de volledige toetsmatrijs. Het AI-systeem doorloopt dan de leerdoelen per leeruitkomst en ontwikkelt automatisch passende vragen. Daarbij kun je zelf de gewenste outputstructuur opgeven, bijvoorbeeld:

Titel van het document
Leeruitkomst
Leerdoel
Taxonomieniveau
Eén of meerdere volledig uitgewerkte vragen
Antwoordinstructie (indien van toepassing en afhankelijk van de vraagvorm)
Juiste antwoord(en)
Feedback per antwoordoptie
Brontekst met artikelverwijzing
Link naar de officiële bron

De vragen kunnen als Worddocument worden gegenereerd. In een latere fase kan dit ook naar Excel, zodat rechtstreekse invoer in het toetssysteem mogelijk wordt.

Tot slot

Om AI op deze manier succesvol in te zetten is intensieve voorbereiding nodig. Er moet duidelijk zijn wat het AI-systeem krijgt en wat het moet opleveren. Maar de investering loont: het resultaat is kwaliteit én snelheid in het ontwikkelproces. Mits de fundering — de toetsmatrijs — van hoogwaardige kwaliteit is.

PS: het herontwikkelen van bestaande vragen werkt volgens hetzelfde principe.

2023	2022	2021	2020	2019	2018	2017	2016	2015	2014	2013
Oktober	Oktober	Oktober	Oktober	Oktober	Oktober	Oktober	Oktober	Oktober	September	Oktober
Juni	Juni	Juni	Juli	Juli	Juli	Juli	Juli	Juni	Juni	Juni
Maart	April	April	April	April	April	April	April	Maart	Maart	Maart
Januari	Januari	Januari	Januari	Januari	Januari	Januari	Januari	Januari	Januari

AI binnen examineren

Follow us

Follow us