Vurdering af reliabiliteten i de nationale tests

Debatten om de nationale tests blussede igen op i medierne efter at Georg Breddam bemærkede, at de nationale tests gav et skævt billede af nogle af hans elever. Da Jeppe Bundsgaard og Svend Kreiner i en grundig rapport fra marts i år tilmed kunne dokumentere, at de nationale tests ikke bare målte forkert, men også give et bud på årsagen, udsendte Undervisningsministeriet en pressemeddelelse, hvor de understregede, at der var tilfredsstillende høje korrelationer og positiv statistisk signifikans mellem gentagne målinger af en elevs niveau. Problemet med ministeriets argumentation er, at korrelationer ikke giver nogen reel information om, hvorvidt gentagne målinger på samme elev viser det samme.

De nationale tests har været under kritik i mange år, og i 2016 udsendte Ministeriet for Børn, Unge og Ligestilling et notat, hvor de undersøgte de nationale tests reliabilitet.1 En metodes reliabilitet siger noget om, hvorvidt metoden kan producere stabile og konsistente resultater. Hvis man måler den samme ting flere gange forventer man at få nogenlunde det samme resultat. Høj reliabilitet er et nødvendigt, men ikke tilstrækkkeligt krav for at en metode er valid - det vil sige, at den måler det, som den faktisk påstår, at den måler. Hvis ikke man ikke engang kan måle den samme ting to gange og få nogenlunde samme resultat, så kan man selvfølgelig heller ikke forvente, at man rent faktisk måler det, man tror man måler. Her konkluderede ministeriet, at

I alle profilområder er der en statistisk signifikant positiv sammenhæng mellem elevdygtigheden bestemt ved første og ved andet forsøg i de frivillige test. Specielt i afkodning og tekstforståelse i dansk læsning samt i engelsk er der en høj korrelation mellem to gentagne test. Generelt er korrelationen mellem elevens samlede vurdering i forsøg 1 og forsøg 2 på 0,79.

Det er samme notat, der ligger til grund for Undervisningsministeriets svar på Bundsgaards og Kreiners rapport, og i svaret fra ministeriet hedder det blandt andet, at

Et centralt kritikpunkt er en tabel i notatet, som viser sammenhængen mellem to resultater i to nationale test, som en elev har taget med relativt kort mellemrum.

Hovedresultaterne i tabellen er nævnt i rapportens sammenfatning, men ikke i alle detaljer. Notatet viser samlet set, at korrelationen totalt set er ”acceptabel” mellem elevens samlede vurdering i forsøg 1 og forsøg 2. Der er samtidig en række faglige forklaringer på, hvorfor resultatet er, som det er, og hvorfor den omtalte tabel ikke er uddybet i sammenfatningen.

Tabellen viser ganske rigtigt, at der på 19 ud af 30 profilområder er en relativt lav sammenhæng (korrelationskoefficient) mellem 1. og 2. testresultat. Alle sammenhængene er dog statistisk signifikante. Det betyder, at de elever, der får de bedste resultater i 1. test, også er blandt de bedste i 2. test.

Bundsgaards og Kreiners rapport indeholder en fin besrkivelse af de nationale tests og af Rasch-modellen, der bruges til at analysere data fra de nationale tests. Her vil vi koncentrere os om sammenligning af måleresultater, som ministeriet skriver om.

Hvordan fungerer de nationale tests og hvad er problemet?

For at finde en elevs niveau bruges adaptive spørgsmål i de nationale tests. Først får eleven nogle opgaver for at skyde sig ind på elevens niveau. Efterfølgende vælges en opgave med en sværhedsgrad, der er tæt på estimatet af elevens niveau, og hvis eleven svarer rigtig bliver estimatet justeret lidt op, hvorimod det nedjusteres lidt, hvis der svares forkert. Så får eleven et nyt spørgsmål tæt på det opdaterede niveau og så frem deles indtil tiden er gået eller estimatet af elevens niveau er tilstrækkelig præcist.

Den kritik, som er rejst af Bundsgaard og Kreiners rapport er, at de nationale tests ikke benytter spørgsmålenes faktiske sværhedsgrad, når elevernes niveau estimeres. Det adaptive element gør dette til et stort problem: hvis alle elever besvarer præcis de samme spørgsmål kan man optælle antal korrekte svar og bruge dette til at vurdere en elevs niveau. I en adaptiv test kan man ikke gøre dette, og det er nødvendigt at kende den enkelte spørgsmåls sværhedsgrad for at estimere elevens dygtighed korrekt. Nedenstående eksempel viser to elevers svar på matematikopgaver.

Tabel 1: Den dygtige elev svarer rigtigt på første opgave (9+(7-1)) og får derefter en sværere opgave (4+(21-3)) som også besvares korrekt, herefter stilles en endnu sværere opgave (11+(7-3)/2), som ikke besvares korrekt. Den mindre dygtige elev svarer forkert på første opgave (9+(7-1)) og får derefter en lettere opgave (4+5) som besvares korrekt, herefter stilles den lidt sværere opgave (2+(8+2)), som besvares korrekt.

2+(8+2) 4+5 9+(7-1) 4+(21-3) 11+(7-3)/2
Dygtig elev Korrekt Korrekt Forkert
Mindre dygtig elev Korrekt Korrekt Forkert

Det adaptive test-design tildeler de to elever forskelligt niveau selv om de begge har to rigtige ud af tre. Dette kan kun lade sig gøre ved at bruge spørgsmålenes sværhedsgrad, og hvis den sværhedsgrad som benyttes ikke er korrekt vil det have to konsekvenser: 1) en elev som tager testen to gange kan få vidt forskellige resultater, og 2) når elever tager testen kan de blive udsat for “mærkelige” forløb. Det første af disse resultater blev dokumenteret i notatet fra 2016, mens det var det sidste af disse punkter som Georg Breddam observerede.

Hvad siger ministeriets notat?

Figur 1: Et eksempel om sprogforståelse i 8. klasse fra ministeriets notat. På figuren er indtegnet hver elevs estimerede dygtighed ved første forsøg på x-aksen og ved 2. forsøg på y-aksen. Den sorte linje