Is ChatGPT te betrouwen voor medisch advies? (dr. Theo Compernolle)

Een huisarts zei me onlangs dat hij een therapie met ChatGPT had opgezocht. Ook een specialist vertelde trots op een receptie dat hij ChatGPT gebruikte om snel antwoord te krijgen op diagnostische en therapeutische vragen. Maar is deze werkwijze wel te vertrouwen? Sommige antwoorden "leken nog het meeste op de verhalen die ik meemaakte bij intelligente psychotische patiënten."

Even testen.

“Hallo ChatGPT, geef een anekdote over een arts die enthousiast is over ChatGPT.”
Dr. Stevens, een toegewijde huisarts, ontdekte de kracht van ChatGPT en nam het enthousiast op in zijn praktijk. Hij maakte gebruik van de AI-ondersteunde assistent voor diagnostische en therapeutische inspiratie en vond het waardevol om complexe gevallen te onderzoeken en medisch advies te geven. 

“Hallo ChatGPT, geef een anekdote van een arts die ontdekt dat ChatGPT inhoudelijk onbetrouwbaar is.”
Dr. Michaels begon ChatGPT te gebruiken in haar praktijk, maar ontdekte al snel dat, hoewel de antwoorden rationeel klonken, ze vaak onbetrouwbaar of totaal verzonnen waren en zeker niet moesten worden vertrouwd voor medische besluitvorming. Met haar eigen ervaring als illustratie informeerde zij haar patiënten om ChatGPT en dat soort programma’s niet te vertrouwen.

Reusachtige rekenkracht
ChatGPT produceert mooie betekenisvolle zinnen op basis van een statistische analyse die het systeem vanuit vele miljarden teksten op het internet (tot 2020) maakt om zo te voorspellen wat voor elk woord – statistisch gezien – de meest waarschijnlijke volgende woorden zijn. Daarom heet deze categorie van zogenaamde artificiële intelligentie: Large Language Models (LLM’s). Dankzij reusachtige energieverslindende computersystemen doen ze dit op een verbluffende manier en onwaarschijnlijk snel. 
AI-systemen zoals ChatGPT leren met algoritmes die ‘neurale systemen’ genoemd worden, niettegenstaande ze een extreme statistische simplificatie zijn van de manier waarop neuronen werken. De enorme rekenkracht laat toe om informatieverwerking die tot statistische formules herleid kan worden, veel beter en sneller te doen dan mensen. 
Een artificieel intelligent systeem dat vele duizenden röntgenfoto’s, ecg’s of foto’s van pigmentvlekken aangeboden krijgt, met de daarbij horende diagnose, kan leren om longtumoren, hartlijden of melanomen betrouwbaar en razendsnel te herkennen, en dit zonder te weten wat een tumor is. Net zo maakt ChatGPT overtuigende zinnen, zonder enig begrip van wat ze betekenen en kan dus ook de grootste onzin op een overtuigende manier presenteren.
 
Geen ijsbeer zonder sneeuw
Enkele jaren geleden werd zo’n neuraal AI-systeem getraind om ijsberen te herkennen. Het deed dit perfect, tot men ontdekte dat het systeem een ijsbeer in de zoo niet herkende omdat het niet weet wat een ijsbeer is en getraind was op foto’s van ijsberen in de sneeuw. Een zelfrijdende Tesla die getraind is op het herkennen van vrachtwagens, herkent geen vrachtwagen die op zijn kant ligt en rijdt er frontaal tegen. 
We weten dus niet waarop het AI-systeem zich precies baseert om de diagnose te stellen. We weten wel dat deze systemen alleen reageren op zaken die ze geleerd hebben en niet, zoals mensen, kunnen omgaan met situaties die uniek of nieuw zijn. 
AI-professionals hebben het over de paradox van Moravec: “Wat mensen uitermate moeilijk vinden, is gemakkelijk voor computers, en wat mensen met zo’n vanzelfsprekend gemak doen dat ze er zich zelfs niet meer bewust van zijn, is onmogelijk voor computers.”
LLM’s hebben geen enkel begrip van de betekenis van de woorden en zinnen die ze produceren. Ze zijn dus slechts ‘intelligent’ in die mate dat we alles ‘wat kan leren’ intelligent noemen. Dieren, planten, schimmels en eencelligen worden zo ook dikwijls intelligent genoemd. Dat is echter een totaal ander soort intelligentie dan die van mensen. Ons denk-brein is in staat om abstracte betekenissen te creëren, te verwerken en eindeloos te combineren, zodat alsmaar nieuwe betekenissen ontstaan.
Een artificieel intelligent systeem moet tienduizenden foto’s van katten gezien hebben om het woord poes op een betrouwbare manier te kunnen verbinden met het dier. Een peuter die één keer een poes gezien heeft, waarbij een ouder ‘kijk poessie’ zegt, weet wat de betekenis is van het woord ‘poes’ en zal de poes herkennen, ook als alleen zijn staart vanonder de kast zichtbaar is. 
 
Artificiële intelligentie…
Een ander voorbeeld: de kanker van een kennis zou met ‘DNA Origami Nanostructuren’ behandeld worden. Hij had de uitleg van zijn arts niet goed begrepen. Ik las daarom recente onderzoekpublicaties hierover, vatte samen wat ik eruit leerde, maar moest dat nog omzetten in gewone mensentaal. 
Ik vroeg aan ChatGPT om dat te doen:

"Leg in eenvoudige taal uit wat DNA Origami Nanostructuren zijn."
Het resultaat was gewoon verbluffend. In drie pogingen, in minder dan vijf minuten, had ik volgend, uitstekend, antwoord op mijn vraag:

DNA origami is een methode waarmee wetenschappers DNA in specifieke vormen en patronen kunnen vouwen met behulp van specifieke sequenties van DNA-basenparen. Deze methode kan worden gebruikt om minuscule structuren en apparaten te maken, zoals dragers van geneesmiddelen.
In de context van de toediening van geneesmiddelen kan DNA origami worden gebruikt om structuren op nanoschaal te creëren die geneesmiddelen op gecontroleerde wijze kunnen vervoeren en afgeven. Deze structuren kunnen zo worden ontworpen dat ze gericht zijn op specifieke cellen of weefsels in het lichaam, zodat geneesmiddelen rechtstreeks op de plaats van werking worden toegediend, wat de werkzaamheid ervan kan vergroten en bijwerkingen kan verminderen.
Om DNA origamistructuren te maken, ontwerpen wetenschappers eerst een computermodel van de gewenste vorm en het gewenste patroon. Vervolgens synthetiseren zij een lange streng DNA met specifieke sequenties waardoor deze in de gewenste vorm kan worden gevouwen. Het DNA wordt vervolgens gemengd met andere korte DNA-strengen, ‘nietjes’ genaamd, die helpen de structuur op zijn plaats te houden.
Zodra de DNA origamistructuur is gemaakt, kan deze worden geladen met geneesmiddelen door de geneesmiddelen aan specifieke delen van de structuur te hechten. De structuur kan dan in het lichaam worden gebracht, waar het de geneesmiddelen op gecontroleerde wijze kan afgeven.
Een DNA origamidrager kan bijvoorbeeld zo worden ontworpen dat een geneesmiddel alleen vrijkomt wanneer het een kankertumor bereikt, waardoor de invloed van het geneesmiddel op gezond weefsel wordt geminimaliseerd. Een andere mogelijkheid is dat een DNA origamidrager zo wordt ontworpen dat een geneesmiddel over een bepaalde periode vrijkomt, waardoor een langdurige afgifte van het geneesmiddel mogelijk wordt in plaats van een eenmalige, grote dosis.
Al met al is DNA origami drug delivery een veelbelovende benadering die in de toekomst meer gerichte en effectieve medicijnafgifte mogelijk zou kunnen maken.

Gelukkig wist ikzelf waarover het ging en kon ik het werk van ChatGPT beoordelen. Dat dit noodzakelijk is, bleek twee dagen later toen ik een nieuwe vraag stelde. 
 
...of artificiële fantasie?
Zo deed ik voor een andere kennis een literatuuronderzoek over het effect van de toediening van zuivere zuurstof in overdrukkamers (Hyperbaric Oxygen Therapy) op patiënten die lijden aan long covid. Omdat er zo weinig van die drukkamers zijn en omdat er heel veel onderzoek is over het nasaal toedienen van zuurstof bij mensen met een ernstige acute covidinfectie, vroeg ik me af of dat misschien ook helpt bij chronische covid. Tot mijn verrassing vond ik daar in de wetenschappelijke databases geen onderzoek over. Ik vroeg me af of ik op een verkeerd spoor zat en of ChatGPT me op het juiste spoor kon zetten. Ik vroeg:

"Schrijf een samenvatting van het recente onderzoek over zuurstof met hoog debiet toegediend via de neus voor de behandeling van ‘PACS’ OF ‘long covid’ OF ‘Long haulers’, met de referenties erbij." 
High Flow Nasal Oxygen Therapy (HFNO) is een behandeling die warme, bevochtigde zuurstof via neuscanules toedient om patiënten met ademhalingsproblemen gemakkelijker te laten ademen. 
Recente onderzoeken suggereren dat HFNO een effectieve behandeling kan zijn voor patiënten met ‘PACS’ of ‘long COVID’.
Een studie gepubliceerd in het International Journal of Infectious Diseases in 2020 toonde aan dat HFNO effectief was in het verminderen van symptomen en het verbeteren van de kwaliteit van leven bij patiënten met PACS. De studie omvatte 60 patiënten met PACS die gemiddeld 14 dagen HFNO kregen. De patiënten meldden aanzienlijke verbeteringen in symptomen zoals kortademigheid, vermoeidheid en angst.
Een andere studie gepubliceerd in het Journal of Hospital Medicine in 2020 toonde aan dat HFNO effectief was in het verminderen van de behoefte aan ziekenhuisopname bij patiënten met PACS. De studie omvatte 50 patiënten met PACS die gemiddeld 7 dagen HFNO kregen. De patiënten hadden een significante vermindering van het aantal ziekenhuisopnames en verbeterden hun longfunctie.
Een recentere studie uit 2021 in het American Journal of Respiratory and Critical Care Medicine toonde aan dat bij patiënten met langdurige symptomen gerelateerd aan COVID-19, degenen die behandeld werden met hoogdebiet-neuszuurstof significant sneller herstelden van symptomen en minder ziekenhuisopnames hadden dan degenen die behandeld werden met standaard zuurstoftherapie.
Over het algemeen suggereren de huidige onderzoeken dat HFNO een effectieve behandeling kan zijn voor patiënten met PACS, waarbij het symptomen kan verminderen en de longfunctie kan verbeteren, evenals ziekenhuisopnames kan voorkomen.

High flow nasal oxygen therapy in post-acute sequelae of SARS-CoV-2 infection: a retrospective case series. by T. Y. Lin, Y. L. Chen, Y. H. Chen, et al. Int J Infect Dis. 2020 Sep; 96: 216–220.
High-Flow Nasal Oxygen Therapy in the Management of Post-Acute Sequelae of SARS-CoV-2 Infection: A Prospective Observational Study. by A. Jain, A. Chaudhary, P. Gupta, et al. J Hosp Med. 2020 Sep; 15(9): E23–E28.
High-flow nasal oxygen vs standard oxygen for prolonged symptoms related to COVID-19." by H. B. B. van der Meer, R. J. B. van der Heijden, J. J. G. van der Kallen, et al. American Journal of Respiratory and Critical Care Medicine. Vol 203, Issue 4, April 2021, Pages 517-528.

ChatGPT concludeert op overtuigende, zelfzekere wijze dat recent onderzoek aantoont dat nasaal toedienen van zuurstof aan een hoog debiet een goed onderzochte en effectieve therapie is voor long covid. Hoe heb ik dat onderzoek in die uitstekende tijdschriften toch kunnen missen?

Toen ik echter het in de tekst beschreven onderzoek opzocht bleek, behalve de inleidende definitie van de therapie, alles totaal vals: 100% verzinsels. Ook de referenties waren totaal verzonnen. De tekst leek nog het meeste op de verhalen die ik meemaakte bij intelligente psychotische patiënten die op overtuigende, quasi-logische, quasi-rationele wijze je bijvoorbeeld kunnen vertellen dat ze continu bespioneerd of bestraald worden, door wie en waarom.
Daarom vroeg ik het ChatGPT zelf wat er fout ging:

“Heb je deze referenties verzonnen? Ik kan ze niet vinden.”
Het spijt me als de referenties die ik heb gegeven niet accuraat zijn. Als taalmodel doe ik mijn best om nauwkeurige informatie te verstrekken op basis van de kennis waarop ik ben getraind, maar het is mogelijk dat mijn informatie verouderd is of dat ik een fout heb gemaakt.

... of zelfs artificiële domheid?
'Niet accuraat' vind ik te zacht uitgedrukt voor iets dat totaal verzonnen en fout is. Het is ook niet echt intelligent. Het systeem kan namelijk niet antwoorden 'ik weet het antwoord niet' om de eenvoudige reden dat het niets weet, niets begrijpt, maar slechts zeer gevorderde statistiek toepast met bijzonder snelle computersystemen. Dat kan het beter en sneller dan een menselijk brein. 
Je kunt je zelfs afvragen of 'Language model' wel een juiste omschrijving is voor een systeem dat alleen razendsnel reeksen als 010001001110110101 op een louter statistische basis in verband brengt met een database met vele miljarden reeksen als 101000100111011010 die de digitale vertaling zijn van woorden en zinnen op het internet. Voor mensen gaat taal juist over betekenis geven. Het unieke van ons denkbrein is juist dat we in staat zijn om met abstracte begrippen, woorden en betekenissen te werken en die te koppelen aan de werkelijkheid om ons heen. We zijn in staat om inzicht te verwerven, om te begrijpen en om die inzichten toe te passen op totaal nieuwe situaties die we nooit eerder meemaakten. We kunnen daardoor beseffen dat we iets niet weten.

Niet geschikt voor medisch advies
Kortom, ChatGPT is een verbluffend en nuttig computersysteem, maar het is duidelijk niet alleen artificiële intelligentie, maar ook artificiële fantasie en artificiële domheid. Het weet zelf niet wanneer het domme of gevaarlijke teksten produceert omdat het geen enkel begrip heeft van de betekenis van de woorden en zinnen die het produceert. Het is niet geschikt voor gebruik in de medische praktijk, tenzij je elke suggestie zorgvuldig toetst aan wetenschappelijke bronnen.

Hier vindt u de volledige conversatie van de auteur met ChatGPT. Hierin laat Theo Compernolle ChatGPT zelf uitleggen waarom het onbetrouwbaar is.

Dit opiniestuk verscheen ook in Huisarts Nu, 2023 (4). Theo Compernolle is neuropsychiater en voormalig hoogleraar, en auteur van diverse boeken.

  • •    Vanwijnsberghe Peter. ChatGPT is mijn beste vriend. Diepmenselijke gesprekken met een chatbot. EOS 2023;7/8:17-9.
    •    Zuidema Teake. Kan AI kunstwerken maken? Kunst, kitsch, bedrog of plagiaat? EOS 2023;7/8:20-3.
    •    Biesemans Jamie. AI-muziek gaat viraal. De volgende strijd van de muziekindustrie. EOS 2023:7/8:24-5.
    •    Cassauwers T. Weg met het kortetermijndenken. Filosofen en computerwetenschappers over de mogelijke gevaren van AI. EOS 2023;7/8:26-8.
    •    Schuurman AR, Schinkel M, De Kreij S, Wiersinga WJ. Kan AI een NTvG-artikel schrijven? Een proef op de som. NTvG 2023;167:8-13. 
    •    Jongsma KR, Van Solinge WW, Haitjema S. Acht misvattingen over AI in de zorg. NTvG 2023;167:14-9. 
    •    Rikkert MO. Matige intelligentie (redactioneel). NTvG 2023;167:1.
    •    Universiteit Vlaanderen. https://www.universiteitvanvlaanderen.be/podcast/hoe-kan-het-ijskarretje-altijd-op-het-juiste-moment-voorbij-jouw-huis-komen
    •    Compernolle T. Zo haal je meer uit je brein. Efficiënter en creatiever werken in een hyperverbonden multitaskende wereld. Tielt: Lannoo; 2018.
    •    Compernolle T. 3 Myths about artificial intelligence, the human brain and autonomous cars: Why we will not see a real autonomous car in the foreseeable future. https://amzn.to/3B2lVjg

U wil op dit artikel reageren ?

Toegang tot alle functionaliteiten is gereserveerd voor professionele zorgverleners.

Indien u een professionele zorgverlener bent, dient u zich aan te melden of u gratis te registreren om volledige toegang te krijgen tot deze inhoud.
Bent u journalist of wenst u ons te informeren, schrijf ons dan op redactie@rmnet.be.

Laatste reacties

  • Dirk AVONTS

    16 augustus 2023

    De artikels in Huisarts Nu komen allemaal van 'echte' auteurs die expertise, innovatie en creativiteit bundelen om aan de lezers nieuwe inzichten aan te reiken over relevante thema's in de eerstelijn. Neem een kijkje: https://www.huisartsnu.be/

  • Marc DE MEULEMEESTER

    04 augustus 2023

    Ik doe een studie met ChatGPT op Tindr en bereik eindelijk fantastische resultaten !

  • Dirk Van Renterghem

    04 augustus 2023

    Dank je Theo, goed gedaan.
    Het is dus nog veel erger dan ik vreesde.
    Chat GPT is natuurlijk niet in staat te doen wat nodig is: een meta-analyse maken van beschikbare studies en gegevens. Laat staan toe te geven: "ik weet het niet, onvoldoende data". Het lijkt hier en daar wat zinnetjes bijeen te smokkelen die lijken te passen. Een soort roddel dus. Die referenties zijn misschien ook samengesteld uit meerdere andere refs, als een soort logica bijeengesmokkeld?