AIsophia logoAIsophia
·AI & Onderwijs

AI leert visueel uitleggen: wat betekent dit voor het onderwijs?

AI gaat verder dan tekst

We kennen AI vooral als hulpmiddel dat tekst genereert: brieven, samenvattingen, antwoorden op vragen. Maar een nieuw onderzoek van onderzoekers uit Shanghai en Beijing laat zien dat AI een volgende stap zet: modellen leren nu ook visueel uitleggen. Denk aan wiskundeproblemen die stap voor stap worden uitgelegd met bijpassende diagrammen, of natuurkundige concepten die visueel worden ondersteund.

EduIllustrate: een nieuwe maatstaf

Onderzoekers van het Shanghai Innovation Institute, de University of Science and Technology of China en East China Normal University hebben de benchmark EduIllustrate ontwikkeld (arXiv:2604.05005). Deze test beoordeelt niet alleen of AI correcte antwoorden geeft, maar ook of de visuele uitleg begrijpelijk en consistent is. De benchmark bevat:

  • 230 STEM-opgaven voor basisschool, middelbare school en bovenbouw
  • Vijf vakgebieden: wiskunde (80 opgaven), natuurkunde (60), scheikunde (30), biologie (30) en aardrijkskunde (30)
  • Een beoordelingsmodel met acht dimensies, verdeeld over tekstkwaliteit (correctheid, logica, didactiek, typografie) en visuele kwaliteit (uitlijning, layout, consistentie, tekst-diagram coördinatie)

Tien modellen getest: grote verschillen

De onderzoekers testten tien AI-modellen. De resultaten laten een enorm verschil zien — maar liefst 46 procentpunten tussen de beste en slechtste:

ModelScoreKosten per opgave
Gemini 3.0 Pro Preview87,8%$0,49
Kimi-K2.580,8%$0,12
Qwen3.5-397B72,0%
GPT-558,0%
Claude Sonnet 4.557,8%$0,41
Mistral-Large-343,0%$0,04

Opvallend: Kimi-K2.5 presteert slechts 8% minder dan het beste model, maar kost vier keer minder. Dat maakt het interessant voor grootschalige inzet in het onderwijs.

Een slimme techniek genaamd "sequential anchoring" helpt bij de visuele kwaliteit: door het eerste diagram als visueel anker te gebruiken voor alle volgende, verbetert de consistentie met 13% — tegen 94% lagere kosten.

Sterke en zwakke punten

Een opvallende bevinding: pedagogische effectiviteit is bij alle modellen het zwakste punt, met scores van 30% tot 78%. AI kan technisch correcte uitleg geven, maar de didactische kwaliteit — hoe goed helpt het een leerling om iets te begrijpen? — blijft achter. Daarnaast scoren modellen op basisschoolniveau zo'n 10% hoger dan op bovenbouwniveau.

Kan AI zichzelf beoordelen?

De onderzoekers lieten ook 20 menselijke experts 4.200 beoordelingen doen en vergeleken die met AI-beoordelingen. De resultaten zijn genuanceerd:

  • Objectieve criteria zoals logische correctheid: sterke correlatie (0,89)
  • Subjectieve criteria zoals visuele kwaliteit en layout: zwakke correlatie (0,39-0,47)

Bovendien blijken modellen hun eigen output te overschatten: GPT-5 geeft zichzelf 20% hogere scores dan een onafhankelijk model. Menselijke beoordeling blijft dus essentieel.

Wat betekent dit voor schoolleiders?

Digitale leermiddelen worden rijker. AI kan straks niet alleen tekst genereren, maar ook visuele uitleg maken. Dat maakt het een krachtiger hulpmiddel voor lesvoorbereiding en differentiatie.

Kosten dalen snel. De grote prijsverschillen tussen modellen betekenen dat goede AI-ondersteuning steeds betaalbaarder wordt voor scholen. Een model als Kimi-K2.5 kost 12 cent per opgave bij een score van ruim 80%.

Didactiek blijft mensenwerk. Zelfs de beste modellen scoren matig op pedagogische effectiviteit. Docenten blijven onmisbaar — niet alleen voor kwaliteitscontrole, maar juist voor het didactische ontwerp.

AI beoordeelt zichzelf niet betrouwbaar. Modellen overschatten hun eigen kwaliteit. Bij de inzet van AI in het onderwijs is onafhankelijke evaluatie cruciaal.

Beleid moet meegroeien. Welke AI-tools zijn toegestaan? Hoe controleer je de kwaliteit? Dit zijn vragen die nu al op tafel moeten.

De verschuiving van tekst-AI naar multimodale AI — die tekst, beeld en straks misschien video combineert — is een trend die het onderwijs de komende jaren flink gaat beïnvloeden. Klein beginnen en ervaring opdoen is het beste wat je nu kunt doen.


Bron: Bi, S. et al. "EduIllustrate: Towards Scalable Automated Generation Of Multimodal Educational Content." arXiv:2604.05005, april 2026.