Bram De Ridder

‘In de humane wetenschappen is AI hetzelfde als mechanische doping’

Bram De Ridder Postdoctoraal onderzoeker KU Leuven

Het debat over artificiële intelligentie aan de universiteiten spitst zich momenteel toe op hoe les- en evaluatiepraktijken zullen veranderen, schrijft Bram De Ridder. ‘Veel minder aandacht gaat naar de logische vervolgvraag: hoe zal AI de wetenschappelijke praktijk als geheel beïnvloeden?’

Dat het razendsnel gaat met artificiële intelligentie in het hoger onderwijs verbaast intussen niemand meer. Als lesgever geschiedenis aan de KU Leuven was dit academiejaar ook voor mij doorspekt met AI. Meerdere eerstejaars bevestigden dat AI hen helpt bij het schrijven van hun jaartaak (hun eerste kennismaking met wetenschappelijk schrijven), terwijl een masterstudent AI-afbeeldingen gebruikte in zijn presentatie over 20ste-eeuwse revoluties (zijn finale mondelinge ‘proeve van wetenschappelijke kunde’). Zelfs de praktijkassistenten fleuren de lessen intussen op met AI-gegenereerde slides.

Gezien die snelheid is het logisch dat zowel filosofen als AI-specialisten suggereren dat het hoger onderwijs grondig herdacht moet worden, tot aan het opgeven van de masterproef toe. Dat lijkt een radicale stap, maar zeker in de humane wetenschappen is het een bijna onvermijdelijke keuze.

De masterproef opgeven is, zeker in de humane wetenschappen, bijna onvermijdelijk.

In deze disciplines is tekst namelijk het essentiële middel waarmee wetenschappelijke ideeën uitgedrukt worden. Als de tekst van een masterproef dan (deels) automatisch gegeneerd werd, had de student dan wel voldoende eigen, oorspronkelijke ideeën? En de taalkundige nuances, oh zo belangrijk voor humane wetenschappers, wat als die pas aangebracht werden na een correctie door AI? Hebben die masterstudenten dan zelf creatief en genuanceerd leren denken, of vooral creatieve en genuanceerde redeneringen leren herkennen?

Net zoals bij plagiaatcontrole zullen de duidelijkste voorbeelden van problematisch AI-gebruik wel opgespoord kunnen worden. Maar evengoed zullen er altijd achterpoortjes blijven. Vergelijk het met dopinggebruik in de sport. Flagrant dopinggebruik, zoals bij het Russische team op de Winterspelen, valt meteen op. Maar het slim inzetten van snufjes en bluf om schijnbaar binnen de limieten te blijven, zoals bij het wielerteam van Lance Armstrong, komt pas veel later of zelfs nooit bovendrijven.

Voor problematisch AI-gebruik zullen er altijd achterpoortjes blijven.

Die vergelijking geldt eigenlijk voor de hele wetenschappelijke praktijk. In 2021 vergeleek Marcel Levi, de voorzitter van de Nederlandse Organisatie voor het Wetenschappelijk Onderzoek, wetenschap met topsport. Daar kwam kritiek op, maar de analogie lijkt juist. In de positieve zin wat betreft het streven naar excellentie, het telkens de lat hoger willen leggen, en het zoeken van nieuwe uitdagingen. Maar ook in de negatieve zin, zoals het persoonlijk leven dat moet wijken, de mentale druk om altijd maar uitmuntend te moeten zijn, en de competitiesfeer die soms fraude en grensoverschrijdend gedrag aanmoedigt.

En net zoals er kritiek volgt wanneer sporters niet naar verwachting presteren (x aantal goals minder, geen voorjaarsklassieker gewonnen, te veel geblesseerd…), komt er evenzeer kritiek wanneer wetenschappers mindere resultaten voorleggen (x aantal publicaties minder, geen projectbeurs binnengehaald, te weinig bereid extra taken op te nemen…).

AI-peers

Binnen die topsportsfeer is AI momenteel het equivalent van onopspoorbare, slecht gereglementeerde mechanische doping. Neem de peerreview, waarbij elke wetenschappelijke tekst eerst door meerdere wetenschappers (peers) wordt gecontroleerd voor publicatie.

Voor wetenschappelijke topsporters is het uitvoeren van een grondige peerreview vaak vervelend extra werk, maar wat als je die recensies nu eens veel sneller zou kunnen schrijven? Bijvoorbeeld door even een prompt met je basiskritieken door een AI-programma te jagen, en het resultaat dan gewoon hier en daar te corrigeren? Tijd gespaard voor ander werk, werk dat wel meetelt als prestatie, toch?

Richard Evans, een vooraanstaande Britse historicus, stelde deze zomer al dat dergelijke praktijken steeds meer ingang vinden, ook onder humane wetenschappers. Maar voor die AI-gegenereerde peerreviews stellen zich dezelfde vragen als bij de papers van studenten. De inhoud van de review, in welke mate is die afkomstig van de ‘peer’ en in welke mate van een AI-programma? Wie brengt de taalkundige nuances aan bij de kritieken, nuances die voor redacties vaak het verschil betekenen tussen wel of niet publiceren? Zijn er regels, of tenminste richtlijnen, en worden die uniform toegepast?

AI-projectvoorstellen

Ook projectteksten voor toekomstig onderzoek worden intussen met de hulp van AI opgesteld, zoals in het geval van twee Vlaamse collega-historici. In beide gevallen werd daar snel aan toegevoegd dat het ‘enkel gaat om het scherpstellen’ van de projecttekst, bijvoorbeeld om een Engelstalige beursaanvraag vlotter en accurater te maken. Maar dat verandert opnieuw niets aan de achterliggende vragen: in welke mate zijn de ideeën ontsproten aan het ‘brein’ van het AI-programma, en wie kan er zich beroepen op de taalkundige finesse waarmee die ideeën worden uitgedrukt? Humane wetenschappers beweren vaak dat elk woord telt, net zoals bij hun studenten is het dus belangrijk om te weten waar hun woorden precies vandaan komen.

Deze nieuwe praktijken stellen alvast onderzoeksfinanciers voor een grote uitdaging. Stel, een onderzoeksteam komt met een uitdagend, genuanceerd en zeer vlot geschreven historisch onderzoeksvoorstel. Maakt het dan een verschil of AI hen daarbij heeft geholpen of niet? Hoe ga je het topvoorstel, dat veel AI gebruikte, vergelijken met een iets minder goed voorstel dat minder op AI vertrouwde? En hoe staan deze twee voorstellen tegenover een derde project dat helemaal geen AI gebruikte, of dat tenminste beweert? En welke richtlijnen hadden de reviewers zelf rond het gebruik van AI bij het schrijven van de projectrecensies?

De antwoorden op die vragen bepalen nu al welke beurzen worden toegewezen en wie er dus komt bovendrijven als ‘wetenschappelijk toptalent’. Helaas bestaat er daarbij geen WADA, een Wereldantidopingagentschap dat probeert fairplay af te dwingen. Als onderzoeker moet je er voorlopig op vertrouwen dat je concurrenten even transparant is geweest in het vermelden van AI-gebruik bij projectaanvragen en publicaties; dat hun instelling geen laksere gebruiksstandaarden hanteert dan jouw universiteit; dat zij geen (institutionele) toegang had tot duurdere en betere AI-tools; en dat peerreviewers hun gebruik van AI op eenzelfde manier evalueren als het jouwe.

Helaas bestaat er voor de wetenschap geen Wereldantidopingagentschap dat probeert fair-play af te dwingen.

Kortom, de vraagtekens bij de AI-toekomst van het hoger onderwijs zijn absoluut terecht, zeker in de tekstgeoriënteerde humane wetenschappen. Maar de essentie van het schrijven van een masterproef is eigenlijk dezelfde als die van alle daarop voortbouwende wetenschappelijke praktijken. Als de masterproef dus dringend herdacht moet worden, waarom dan niet meteen alle wetenschappelijke activiteiten waar AI nu al gebruikt wordt?

Bram De Ridder is onafhankelijk onderzoeker toegepaste geschiedenis. Hij gebruikte geen AI bij het schrijven van deze opinie.


Fout opgemerkt of meer nieuws? Meld het hier

Partner Content