Diagnostische fouten in radiologie: GPT-4 toont zijn mogelijkheden

Een recent onderzoek toont aan dat artificiële intelligentie, via GPT-4, fouten in radiologierapporten kan detecteren met een nauwkeurigheid die dicht in de buurt komt van die van ervaren radiologen. Van de 200 geanalyseerde rapporten liet GPT-4 vergelijkbare prestaties zien, terwijl het sneller en zuiniger was.

In een onderzoek dat tussen juni en december 2023 werd uitgevoerd in een Amerikaanse instelling, werden 200 rapporten van verschillende radiologische onderzoeken (röntgenfoto's, scans en MRI's) verzameld. Hiervan werden er 100 opzettelijk voorzien van 150 veelvoorkomende fouten (weglatingen, invoegingen, syntaxisfouten, rechts/links verwarring, enz.)

Zes radiologen (twee seniors, twee assistenten en twee co-assistenten) en ChatGPT-4 werd gevraagd om deze rapporten na te lezen. Het doel was om het vermogen om fouten te detecteren te vergelijken tussen mensen en artificiële intelligentie, met behulp van de χ2-test en Student's t-test voor statistische analyse, waarbij rekening werd gehouden met de tijd die werd besteed aan het nalezen.

Vergelijkende prestaties van ChatGPT-4 en radiologen
De resultaten laten zien dat de prestaties van ChatGPT-4 vergelijkbaar zijn met die van radiologen. Het detectiepercentage van fouten door artificiële intelligentie werd geschat op 82,7% (124/150; 95% CI 75-87,9), vergeleken met:

  • Senior radiologen: 89,3% (134/150; 95% CI 83,4-93,3)
  • Assistenten: 80,0% (120/150; 95% CI 72,9-85,6)
  • Co-assistenten: 80,0% (120/150; 95% CI 72,9-85,6)

Het verschil tussen de groepen was niet statistisch significant. Eén van de senior radiologen viel echter op met een detectiepercentage van 94,7% (142/150; 95% CI 89,8-97,3; p=0,006).

Tijd- en kostenefficiëntie
In termen van snelheid presteerde ChatGPT-4 significant beter dan radiologen, met een gemiddelde tijd per rapport van 3,5 ± 0,5 seconden, vergeleken met 25,1 ± 20,1 seconden voor radiologen (p < 0,001). In financiële termen waren de kosten voor het corrigeren van een rapport ook lager met GPT-4, geschat op $0,03 ± $0,01 vergeleken met $0,42 ± $0,41 voor radiologen (p < 0,001).

Conclusies en vooruitzichten
Deze retrospectieve studie suggereert dat GPT-4 radiologen effectief kan helpen bij het beoordelen van rapporten, waarbij de meest voorkomende fouten worden gedetecteerd met een prestatie die dicht in de buurt komt van die van ervaren professionals. Er is echter prospectief onderzoek nodig om deze resultaten te bevestigen voordat deze methode op grote schaal wordt toegepast. Bovendien blijft het trainen van de converserende agent om fouten te detecteren een uitdaging, aangezien deze nog niet toegankelijk is voor alle beeldvormingsafdelingen.

De integratie van artificiële intelligentie in de radiologie, zoals aangetoond in deze studie, zou een potentiële oplossing kunnen zijn voor het verminderen van diagnostische fouten en het vermijden van kritieke situaties zoals die onlangs in het nieuws zijn geweest.

    • Gertz RJ, Dratsch T, Bunck AC, et al. Potential of GPT-4 for Detecting Errors in Radiology Reports: Implications for Reporting Accuracy. Radiology. 2024 Apr;311(1):e232714. doi: 10.1148/radiol.232714.

U wil op dit artikel reageren ?

Toegang tot alle functionaliteiten is gereserveerd voor professionele zorgverleners.

Indien u een professionele zorgverlener bent, dient u zich aan te melden of u gratis te registreren om volledige toegang te krijgen tot deze inhoud.
Bent u journalist of wenst u ons te informeren, schrijf ons dan op redactie@rmnet.be.

Laatste reacties

  • Valérie Verstraeten

    12 juni 2024

    Wat hebben fouten zoals weglatingen, invoegingen, syntaxisfouten, rechts/links verwarring, enz. te maken met diagnostiek?