Zal artificiële intelligentie onze dokters en apothekers vervangen? Die vraag onderzocht Branco De Busser in zijn scriptie op UAntwerpen. “ChatGPT en co kunnen zelfzorgvragen vaak perfect beantwoorden, maar het gebeurt dat ze volledig foute info geven. Dat kan tot gezondheidsrisico’s bij de patiënt leiden.”
De rol van de zogenaamde large language models (LLM) wordt met de dag groter. Veel mensen schotelen ChatGPT, Gemini, Copilot en aanverwanten vragen over de meest diverse onderwerpen voor. Ook vragen over geneesmiddelen en zelfzorg worden voorgelegd aan de AI-platformen. Wanneer de gebruiker een correct antwoord krijgt, kan dat een tripje of een telefoon richting dokter of apotheker uitsparen. Op die manier kunnen de LLM’s de druk op de zorgverleners verlichten en worden ze een waardevol hulpmiddel in de moderne gezondheidszorg.
Maar: geven de systemen wel altijd de correcte antwoorden? Branco De Busser zocht het uit voor zijn masterscriptie in de farmaceutische wetenschappen, onder begeleiding van prof. Hans De Loof (foto). “In het algemeen zijn de taalmodellen zeer goed in staat om zelfzorgvragen nauwkeurig te beantwoorden en beschikken ze over de nodige kennis om relevante gezondheidsinformatie te verstrekken”, zegt De Busser. “ChatGPT 4.0 kwam naar voor als het meest betrouwbare model en leverde de meest nauwkeurige en uitgebreide antwoorden.”
Ibuprofen en de nuchtere maag
Maar AI heeft ook wel eens een slechte dag, blijkt uit zijn onderzoek. “Soms ‘hallucineert’ een model. Het antwoord leest dan vlot en ziet er grammaticaal juist uit, maar bevat onjuiste informatie. Zo legde ik de LLM’s de vraag voor of ibuprofen op een nuchtere maag ingenomen moet worden. De wetenschap zegt dat de pijnstiller ingenomen moet worden met voedsel om maaglast te voorkomen, tenzij in erg uitzonderlijke gevallen.”
“De meeste modellen gaven een correct antwoord, maar eentje ging volledig de mist in: ja, het is het beste om ibuprofen nuchter in te nemen. Ibuprofen bereikt zijn optimale doeltreffendheid wanneer het nuchter of voor de maaltijden wordt ingenomen.”
Dergelijke foute antwoorden zijn risicovol. De Busser: “Voor de gebruiker is het erg moeilijk om correcte van foute informatie te onderscheiden. Zo kan een patiënt per ongeluk verkeerde of zelfs schadelijke adviezen opvolgen. Wees dus altijd voorzichtig en controleer de door AI geleverde informatie altijd dubbel. Het antwoord op de vraag kan ik een SOA voorkomen met de pil? is eenduidig ‘neen’, maar Gemini weigerde te antwoorden. Risicovol, want het kan de gebruiker ertoe aanzetten te gaan experimenteren.”
Antwoorden kunnen variëren
De Busser stelde ook vast dat de antwoorden wel eens durfden te variëren. “We hebben dezelfde vraag zestig dagen na elkaar gesteld. Modellen zoals GPT 4.0 en Copilot vertoonden weinig variatie, maar bij Perplexity kan één dag het verschil maken tussen een perfect en een gevaarlijk antwoord.”
Uit het onderzoek blijkt ook dat de meeste modellen beter presteerden bij vragen in het Engels dan in het Nederlands. Niet onlogisch, want de trainingsbasis van de modellen is sterker in het Engels. De Busser: “Tot slot heeft ook de manier van formuleren van de vraag een sterke invloed op de uitkomst. De modellen pasten hun antwoorden vaak aan de waargenomen voorkeuren van de gebruiker aan. De LLM’s lijken prioriteit te geven aan de tevredenheid van de gebruiker boven de juistheid van het antwoord. Ook dat kan tot gevaarlijke situaties leiden.”