In een uitvoerig rapport waarover momenteel gedebatteerd wordt, onderzoekt het Europees Parlement de kwaliteit van databanken die gebruikt worden voor algoritmes. Voor Europa is er een risico op bias op elk gebied, geneesmiddelen incluis. Het doel is manieren te vinden om de vertekeningen te vermijden.
Het is bekend dat het basismateriaal van algoritmen bestaat uit enorme databanken die 'intelligente systemen' in staat stellen te leren. Het is dan ook bij deze bron dat heel wat risico's van vertekening bij machine learning kunnen worden gevonden.
Een kwestie van representatie
Dit is wat in het verslag de "vertekende voorstelling van kennis" wordt genoemd. Die notie doet de vraag rijzen naar de inhoud van databanken en de geschiktheid van de verzamelde informatie voor de verschillende doeleinden. Naast betrouwbaarheid, veiligheid en geldigheid is er ook een sociale dimensie, aldus het verslag.
Wanneer de kennisrepresentatie (d.w.z. de inhoud van de databank) vertekend is, zal het redeneerproces van het kunstmatige-intelligentiesysteem ook vertekend zijn en zullen de conclusies ontoereikend zijn. Deze overwegingen onderstrepen het belang van gegevensverzameling en -beheer. In het verslag wordt onderscheid gemaakt tussen twee soorten gegevens: gestructureerde en ongestructureerde. Gestructureerde gegevens volgen een vooraf bepaald patroon en zijn meestal in de vorm van tekst. Zij hebben betrekking op data, kenmerken van het contact, oorsprong van de gegevens, laboratoriumgegevens en andere meetbare waarden, demografische gegevens, enz. En hier is de ondervertegenwoordiging van bepaalde groepen een echt probleem. In het verslag wordt duidelijk verwezen naar het geval van LGTBIQ+-gemeenschappen of mensen met een handicap. Men zou ook het voorbeeld kunnen nemen van patiënten met weesziekten.
Seksisme, racisme en extremisme
Ongestructureerde gegevens bestaan uit diverse documenten, zoals beelden, video's en andere soorten opnamen, afkomstig van websites, media, camera's of kunnen zelfs door machines zijn geproduceerd (computergraphics, animaties, enz.). Het is in zekere zin ‘any old thing’ dat meer menselijke tussenkomst vereist voor de integratie ervan in de databanken. Het menselijk oordeel, dat wordt beïnvloed door de persoonlijke geschiedenis en de sociale positie van de exploitant(en), houdt een hoog risico op bias in. Denk aan een mysogynist, een moralist, een rechtse, een racist of een ander. Het is gemakkelijk voor te stellen wat dit betekent voor menselijke groepen die in de minderheid zijn of beschouwd worden als aan de rand van de norm. Het is bijvoorbeeld duidelijk dat in sommige databanken informatie over gekleurde mensen en hun ziektebeelden ontbreekt. Er zijn gevallen geweest waarin een thermometer die door een blanke hand wordt vastgehouden, door de algoritmen wordt aangemerkt als een "elektronisch apparaat", terwijl een thermometer die door een zwarte hand wordt vastgehouden, als een "wapen" wordt beschouwd.
Hij, zijn of hen?
Er is nog een risico, zegt het rapport. Dit risico vloeit voort uit de vertaling van de ene taal naar de andere, vooral als de vertaling automatisch gebeurt. Zo kan bijvoorbeeld het systematisch toeschrijven van een beroep aan een geslacht (arts = man; verpleegster = vrouw) ook de interpretatie van de gegevens vertekenen. Om nog maar te zwijgen over foute vertalingen in de nomenclatuur van ziekten, besmettelijke agentia, geneesmiddelen enz. Dezelfde naam voor een ziekte - vooral geestelijke stoornissen - heeft niet in alle culturen dezelfde betekenis. Denk maar aan het bekende voorbeeld van het begrip depressie of zelfs pijn.
Kortom, kunstmatige intelligentie is zeker een stap vooruit in de geneeskunde, maar het kan allemaal nog wel 'intelligenter'.
> Het volledige rapport