De nieuwe voortgangstoets: de meest gestelde vragen

Wat is een voortgangstoets?

De voortgangstoets is een objectief instrument om de kennis en progressie van kennis van de student te meten. Met ingang van het studiejaar 2022-2023 werken alle acht Nederlandse medische faculteiten samen aan de interuniversitaire voortgangstoets om hun studenten relevante en kwalitatief goede vragen voor te schotelen. Niet het lesprogramma wordt getoetst, maar wat iemand opsteekt gedurende de opleiding. De toets gaat over het toepassen van parate kennis. In het afgelopen collegejaar werd de toets voor het laatst op een traditionele manier afgenomen: op papier of digitaal maakten alle studenten tegelijk de toets met dezelfde 200 meerkeuzevragen.

Wat is adaptief toetsen?

Met ingang van het studiejaar 2022-2023 maakt de interuniversitaire voortgangstoets geneeskunde gebruik van CAT, computer adaptief toetsen. Bij een adaptieve toets krijgt de student een reeks vragen voorgelegd. Naarmate de reeks vordert selecteert de computer vragen uit een vragenbank die steeds beter passen bij het kennisniveau van de student. Omdat de moeilijkheid van die vragen bekend is, krijgt iedere student een toets op zijn eigen niveau voorgeschoteld. Zo’n geïndividualiseerde, automatisch samengestelde toets hoeft niet bij alle studenten tegelijk te worden afgenomen.

Hoe werkt het systeem van computer-adaptief toetsen?

In computer adaptief toetsen selecteert de computer vragen uit een grote vragenbank. Elke volgende vraag is gebaseerd op de prestatie op de voorgaande vragen. Stel, je beantwoordt een vraag goed, dan selecteert het algoritme een net iets moeilijkere vraag uit de bank. Dat blijft zo doorgaan tot je vragen fout gaat antwoorden. Dan selecteert het algoritme weer een makkelijkere vraag. Dit gaat door tot we grote zekerheid hebben van je kennis op een bepaald gebied. De blauwdruk (de inhoudelijke specificaties) van de toets verandert niet. Het algoritme dekt alle gebieden van de blauwdruk.

In de figuur hieronder wordt het principe van adaptieve toetsing schematisch weergegeven:

FAQ1

Omdat een student niet op alle terreinen precies even goed presteert ziet een praktijkvoorbeeld er als volgt uit:

Figuur1

De horizontaal getrokken doorlopende lijn is hierin het geschatte niveau van de student aan het einde van de toets, de hakkelende lijn tussen de punten door laat zien wat de computer op dat moment in de toets afname als geschat niveau hanteerde om de volgende vraag te kiezen.

 Wat zijn de voordelen van adaptief toetsen?

Computer-adaptief toetsen zorgt voor een geïndividualiseerde toets. De toets is dus voor elke student anders. Computer adaptief toetsen is een moderne technologie waardoor het mogelijk is om nog preciezer je kennis in te schatten in een kortere tijd, met minder vragen. Het totale aantal vragen in de toets is 135.

Omdat iedereen een individuele toets maakt is gelijktijdige afname door alle studenten niet nodig te gebeuren; daarom hoeft ook niet alle onderwijs en klinische activiteit te worden stilgelegd.

De afname via de computer maakt het in de toekomst ook mogelijk andere media te gebruiken zoals grafische plaatjes, foto’s, geluid of video.

De belangrijkste voordelen zijn dus, dat we veel flexibeler kunnen toetsen, met veel meer precisie kunnen meten en met minder belasting voor de student.

Kijk naar dit filmpje voor een korte video over deze technologie: https://www.youtube.com/watch?v=ZvFNwR8ABo4&t=65s

Wat verandert er aan de vragen?

De vragen zijn niet anders dan tot nu toe gebruikelijk in de voortgangstoets. Er waren wel enkele aanpassingen noodzakelijk in de omgang met de vragen. Zo kunnen de vragen niet meer worden meegegeven in de vorm van een toetsboekje. De vragen blijven in de bank. Om te zorgen dat je toch weet waarover de vraag ging wordt er een beschrijving van de inhoud van de vraag verstrekt en of je die vraag juist beantwoord hebt. Deze informatie is altijd te raadplegen nadat je de toets hebt afgerond en blijft daarna beschikbaar.

In de nieuwe opzet is het belangrijk dat je iedere vraag zo goed mogelijk beantwoordt. Elke voorgelegde vraag moet immers beantwoord worden om de volgende vraag te kunnen selecteren. Daar past de vraagtekenoptie niet bij. Overigens zul je, door het adaptieve aspect, waarschijnlijk minder vragen tegenkomen waar je echt niet mee uit de voeten kunt.

Als je niet verrast wilt worden door het soort vragen dat in de voortgangstoets wordt opgenomen, kijk dan op de site van de voortgangstoetsorganisatie: www.ivtg.nl. Daar is een volledige oude toets van 200 vragen te vinden. Tevens is de vragenbank gelimiteerd toegankelijk gemaakt in samenwerking met Medisch Contact via de site “arts in spe”: www.medischcontact.nl/kennis-carriere/voortgangstoets.htm

Wat verandert er aan de toetsafname?

Met deze nieuwe aanpak hebben we een modernere voortgangstoets die altijd per computer wordt afgenomen. De aanpak is al enkele jaren getest en gebruikt in de internationale geneeskunde-opleiding in Maastricht. In mei 2022 hebben een groot aantal studenten aan verschillende universiteiten de voortgangstoets op de traditionele manier afgelegd en daarnaast ook met CAT. Dit heeft aangetoond dat het systeem dat gebruikt wordt werkt en dat de resultaten van individuele studenten op de beide toetsen in zeer hoge mate overeenkomen. Vanaf september 2022 wordt daarom de voortgangstoets niet meer in de traditionele vorm afgenomen. Net zoals nu maak je op een afgesproken tijd de voortgangstoets, altijd op een computer van de onderwijsinstelling. De afname gebeurt echter niet voor alle studenten op hetzelfde moment. Dat is niet meer nodig omdat iedereen een andere individuele toets maakt.

Omdat de toets nog maar uit 135 vragen bestaat is de toetsduur teruggebracht naar 3 uur. Een toets moet volledig worden afgerond voor een geldig resultaat.

Omdat de moeilijkheid van de vragen wordt aangepast aan je eigen niveau zul je minder vragen tegenkomen die je blindelings kunt beantwoorden of je juist totaal onbekend voorkomen. Daardoor heb je tijdens de toets waarschijnlijk het gevoel dat je moeilijke vragen krijgt. Je zit immers rondom het maximum van je kennis. Omdat je antwoord op eerdere vragen bepaalt hoe de toets verder wordt opgebouwd kun je niet terugbladeren, eerdere vragen niet aanpassen en geen vragen “voorlopig even openlaten”.

Waarom is de voortgangstoets veranderd?

De vroegere Voortgangstoets was erg lang (200 vragen) en duurde tot 4 uur lang. De vragen werden in de loop van de tijd minder “plat”, maar daardoor ook langer en vereisten meer leeswerk. De toets is op het niveau van de basisarts waardoor jongerejaars studenten veel vragen van de standaardtoets nog niet kunnen beantwoorden. Dat maakte de uitslagen aan het begin van de opleiding minder betrouwbaar. Verder maakten alle geneeskundestudenten in Nederland de toets op hetzelfde moment wat, door het toenemend aantal deelnemers een steeds grotere logistieke uitdaging is. De adaptieve toets wordt in principe in het hele land binnen een week afgenomen.

De adaptieve toets is voor alle studenten korter en met vragen op het eigen niveau. De adaptieve toets blijkt veel efficiënter: studenten maken de adaptieve toets een stuk sneller. De score is informatiever en komt ook beter overeen met de verwachting. Er zijn hoge correlaties tussen scores op de adaptieve toets en de langere papieren toets. Hieronder, bij FAQ 7, wordt er dieper op deze vraag ingegaan.

Wat verandert er niet?

Onveranderd blijft dat je 4 toetsen per jaar krijgt. De regels voor de bepaling van een eindresultaat aan het einde van het jaar (het “voortgangstentamen”) worden voorlopig gehandhaafd.

Wat voor vragen zitten er in de adaptieve Voortgangstoets?

Computer adaptieve toetsing is alleen mogelijk als we de moeilijkheid kennen van een vraag. De moeilijkheid van een vraag kunnen we alleen maar inschatten door een eerdere afname van die vraag. Er is een grote voorraad aan vragen die we eerder hebben afgenomen en waarvan we de moeilijkheid kennen. De vragenbank moet echter constant vernieuwd worden. Ook nieuw ontwikkelde vragen zullen in de voortgangstoets komen. Maar omdat we niet de moeilijkheid kennen van deze nieuw ontwikkelde vragen, zullen ze niet meetellen in je eindscore. De resultaten voor de afname worden wel gebruikt om de moeilijkheid van die vraag te berekenen zodat deze aan de bestaande vragenbank kan worden toegevoegd. De toets van 135 vragen bevat, verspreid door de toets, bij iedere student 15 van deze nieuw ontwikkelde vragen.

Voor wie verandert er wat?

In het studiejaar 2022-2023 voeren alle geneeskundefaculteiten in Nederland de CAT-versie van de interuniversitaire voortgangstoets geneeskunde in. In Utrecht betreft dit pilots met ingang van december 2022 en volgt de volledige implementatie in 2023-2024.

Hoe zijn de score en de feedback?

Als de toets is afgenomen, krijg je een uitslag in TestVision en tref je later je feedback over je voortgang aan in het ProF-systeem. Daar verandert niets aan. Je zult dezelfde grafische informatie aantreffen. Omdat de moeilijkheid van de vragen eerder vastgesteld is, wordt de norm uiteindelijk niet meer aangepast op het resultaat van de toets. Met andere woorden, er wordt dan voortaan geen relatieve maar een absolute cesuur gehanteerd. Zie verderop in de FAQ’s, de laatste alinea van punt 10. Hier wordt aangegeven hoe we in de overgangsperiode hiermee om zullen gaan.

Wel zijn twee zaken anders:

  • Je krijgt een score op een andere schaal. Omdat iedereen een andere toets maakt is het nodig je score uit te drukken op een gestandaardiseerde schaal.

Voor een verdere uitleg over een gestandaardiseerde schaal kijk naar: https://www.youtube.com/watch?v=2JjaWQZChqs

De schaal wordt zo opgesteld dat deze zo goed mogelijk aansluit bij de uitslagen die je tot dan toe gewend bent. In het Prof systeem krijg je grafische informatie over jouw prestatie relatief ten opzichte van de gehele groep.

 

  • Je krijgt een rapportage in TestVision van welke vragen je goed of fout hebt beantwoord. Alle vragen in de bank krijgen een kort vraagonderwerp, vraagomschrijving. Deze komt overeen met de “feedbackprompt” zoals die sinds 2019 ook al beschikbaar werd gesteld bij de papieren toetsen. Dat kan gebruikt worden als indicatie voor studie van het onderwerp van de vraag. Deze informatie blijft steeds beschikbaar.

Commentaar en inzage

Omdat in principe commentaar zou kunnen komen op duizenden vragen per toets zal het commentaar geleverd in TestVision vooral nauwgezet worden geanalyseerd op de nieuw ontwikkelde vragen die niet meetellen. Nog meer dan voorheen zal voor de andere vragen vooral gelet worden op veranderingen van de psychometrische eigenschappen die wijzen op verandering in de inhoudelijke juistheid.

Studenten die gebruik willen maken van het wettelijk recht op inzage (de “juridische inzage”) in hun eigen afgelegde toets worden daartoe door de faculteiten in de gelegenheid gesteld. Studenten kunnen hiervoor intekenen en krijgen dan een tijdslot van 45 minuten toegewezen waarbij de veiligheidsmaatregelen overeenkomstig examenomstandigheden zijn.

 

FAQ’s

Hoe wordt de moeilijkheid van een nieuwe vraag bepaald?

Dit wordt gedaan aan de hand van het zg. Rasch model volgens de item response theorie. Dit betekent dat de kans van een student om deze ene vraag goed te maken vergeleken wordt met de kans van die student om vragen in de rest van de toets goed te maken (het ‘niveau’ van de student). Die twee kun je tegen elkaar uitzetten in een grafiek en daaruit de moeilijkheid van deze vraag ten opzichte van “de gemiddelde vraag” bepalen. Ter illustratie hieronder zo’n grafiek. De verticale zwarte lijn komt uit net rechts van de “0”, deze vraag is dus iets moeilijker dan gemiddeld.

Klopt het dat 80% van de vragen van de adaptieve IVTG dan ook echt ‘oude’ vragen zijn?

Het betekent dat 100% van de vragen waarop de uitslag is gebaseerd “oude” vragen zijn.

Uit hoeveel vragen bestaat de vragenbank momenteel?

Ongeveer 7800.

Hoe zijn de kalibratiegegevens verzameld?

De kalibratiegegevens zijn gebaseerd op alle deelnemende studenten, dus niet van één faculteit. Het aantal is de laatste jaren rond de 10.000 geweest. Vragen vanaf 2007 zijn gekalibreerd maar vervolgens vraag voor vraag beoordeeld of deze nog bruikbaar/wenselijk waren. Dit beoordelen is voor iedere vraag gebeurd door 2 faculteiten; indien er geen eensluidend oordeel was zijn de vragen (voor de derde keer) besproken in een vergadering waarin alle faculteiten vertegenwoordigd waren.

Hoe vaak wordt er bij het foutief antwoorden van een vraag door getoetst binnen hetzelfde domein?

De uitkomst op een individuele vraag heeft geen invloed op de keuze van het domein van de volgende vraag.

In mijn toets zitten meerdere vragen over hetzelfde onderwerp, is dat de bedoeling?

Als deze vragen gaan over een onderwerp waar je toevallig niet zo goed inzit, overvalt het je misschien als er meer vragen over gaan. Waarschijnlijk is het gevolg veel minder groot dan je op het eerste gezicht zou denken. Bedenk, dat de tweede vraag over hetzelfde onderwerp heel weinig effect heeft op je eindresultaat.

Er zijn twee verklaringen voor een tweede of soms derde vraag over hetzelfde onderwerp.

1. In een bepaald vakje van de vragenbank zitten soms vragen die heel erg op elkaar lijken en toevallig worden die samen in jouw toets voorgelegd. Het niveau van de vragen die je krijgt, wordt in de loop van de toets aangepast aan je score op alle voorgaande vragen. Als je dus in het begin van de toets een vraag over een onderwerp kreeg die je fout beantwoord hebt, kan de vraag die je later in de toets tegenkomt gemakkelijker en best goed te beantwoorden zijn.
2. De eerste vraag is een vraag die meetelt voor je resultaat en de volgende vraag over datzelfde onderwerp is een pretest item (of andersom) en telt niet mee. Hoe zit dat? Niet alle vragen die je voorgelegd krijgt, tellen mee voor het eindresultaat. Verspreid door de toets zit een 15-tal vragen (pretest items) die niet meetellen maar die alleen in de toets zitten om de precieze moeilijkheidsgraad te bepalen, voor toekomstige toetsen dus. Bij de keuze van deze vragen wordt geen rekening gehouden met de vragen die je verder in je toets krijgt.

Hoewel het dus niet zoveel gevolg heeft en dubbele vragen het al te selectief studeren misschien helpen ontmoedigen, is het toch niet de bedoeling van de voortgangstoetscommissie om meerdere vragen over hetzelfde onderwerp te stellen. Om die reden worden alle (ca. 7000) vragen in toetsbank èn iedere nieuwe vraag die wordt toegevoegd nu nog eens extra gecontroleerd op onderlinge tekstovereenkomsten en vervolgens handmatig met elkaar vergeleken op strekking van de vraag. Vragen die teveel overeenkomst vertonen worden gemarkeerd als zg. ‘enemy items’; TestVision voorkomt vervolgens automatisch dat deze vragen samen in de toets van een student terecht komen.

Om deze enemy items te identificeren kunnen we ook jullie hulp gebruiken. Als je twee of meer (bijna) dezelfde vragen in je toets aantreft, kun je dit melden. Je kunt dan tijdens of direct na de toets of naderhand bij de inzage, in het commentaarvak van TestVision aangeven welke vragen sterk op elkaar lijken. We vragen je om daar de vraagnummers en het onderwerp te vermelden, zodat we je melding goed kunnen verwerken.

Welke mogelijkheden zijn er voor mensen met een functiebeperking (die bijvoorbeeld moeite hebben met een toets via een beeldscherm maken)?

Dit is aan de lokale examencommissie/examinator.

Waarom wordt de manier van het afnemen van de voortgangstoets aangepast?

Er zijn diverse redenen:

-De overgang van platte kennisvragen naar contextrijke relevante vragen heeft gezorgd voor veel meer tekst. De laatste toets was een boek van 42 pagina’s! De bedoeling is om kennis en toepassing ervan te toetsen, niet uithoudings- en concentratievermogen.

-Met name in de eerste jaren van de studie is een groot deel van de vragen ver boven het niveau van de student. De student wordt dan dus eigenlijk getest op slechts een klein aantal vragen dat hij potentieel zou kunnen beantwoorden. Dat leidt tot een ongunstige signaal-ruis verhouding, is ongunstig voor een nauwkeurige beoordeling en sterk wisselende feedback voor de student.

-De afname van één identieke toets voor zoveel (en steeds meer) studenten maakt de beveiliging zeer veeleisend en vergroot het risico op (grootschalige) fraude.

-De identieke toets vereist gelijktijdige afname. Niet iedere faculteit kan hier in voldoende mate over beschikken en het is zeer kostbaar om te realiseren. Met de toename van het aantal deelnemende faculteiten is het ook steeds moeilijker geworden om geschikte momenten en locaties te vinden om de toetsafname aan alle faculteiten tegelijk te realiseren. Dat schuurt met de gewenste gelijkmatige spreiding over het studiejaar en afstand tot lokale tentamenperiodes.

Krijg je een meetmoment? Is deze uitslag vergelijkbaar met de vorige uitslagen?

De toets wordt 4x per jaar afgenomen, er zijn dus 24 meetmomenten. De indeling verandert niet door de invoering van CAT: de indeling loopt met je studieduur mee tot meetmoment 12. Wanneer je je bachelorexamen hebt behaald loopt de indeling weer door met de studieduur tot meetmoment 24 is bereikt. De schaal waarop het resultaat wordt uitgedrukt is zo geconstrueerd dat die optimaal aansluit bij je oude resultaten.

Op welke termijn kunnen studenten uitslag verwachten?

De termijn van de uitslag zal afhangen van het moment waarop je de toets aflegt en wanneer de laatste toetsen die week worden afgenomen. In principe ligt de maximale uitslagtermijn vast in het lokale opleiding- en examenreglement (OER).

Hoe wordt de score op de toets vastgesteld en hoe verhoudt zich dat tot de uitslagen op de papieren toets?

De score van een student op de voortgangstoets wordt berekend volgens de “Weighted Likelihood Estimation” (WLE) methode van Thomas A. Warm (1989). Deze score wordt vergeleken met het gemiddelde van de totale studentenpopulatie en uitgedrukt in een Z-score. Die wordt vervolgens naar een standaardschaal getransformeerd, met een gemiddelde = 35 en een standaarddeviatie = 15. Dit gemiddelde en de standaarddeviatie zijn gebaseerd op de gemiddelde iVTG-scores van de afgelopen jaren en hebben als doel de uitslagen van de nieuwe iVTG zo goed mogelijk te laten aansluiten bij de uitslagen zoals die uitzagen bij de papieren toets. Dit geeft wel een indicatie maar omdat het principe van de adaptieve toets toch heel anders is dan de oude iVTG gedraagt de uitslagberekening zich in sommige opzichten iets anders. Er kunnen negatieve scores optreden. Die zijn te verklaren door het feit dat een Z-score ook negatief kan zijn (het gemiddelde van een Z-score wordt uitgedrukt als 0, een standaarddeviatie -1 of +1). Als voorbeeld: door de transformatie naar de standaardschaal kan b.v. een student die 3 SD onder het gemiddelde van de totale populatie (van alle jaargroepen) ligt bv een score -10 halen. In de oude papieren toets was een negatieve score overigens theoretisch wel mogelijk door ‘correction for guessing’.

Bij de adaptieve toets wordt gebruik gemaakt van vragen waarvan de moeilijkheid exact bekend is. Daarom is een relatieve norm niet langer nodig voor een eerlijke beoordeling. Bij de eerste afnames wordt nog wel zorgvuldig gecontroleerd dat de uitslagen, met name de onvoldoende-voldoende cesuur, niet verandert ten opzichte van de oude situatie.