Sommige door de FDA goedgekeurde medische AI-apparaten worden niet ‘adequaat’ geëvalueerd, zegt het Stanford-onderzoek

Bronknooppunt: 808637

Sluit je aan bij Transform 2021 van 12-16 juli. Registreer voorr het AI-evenement van het jaar.


Sommige door AI aangedreven medische apparaten die zijn goedgekeurd door de Amerikaanse Food and Drug Administration (FDA) zijn kwetsbaar voor gegevensverschuivingen en vooroordelen tegen ondervertegenwoordigde patiënten. Dat zegt een Stanford studies gepubliceerd Nature Medicine Uit de studie van vorige week bleek dat zelfs nu AI in steeds meer medische apparaten wordt ingebed (de FDA heeft vorig jaar meer dan 65 AI-apparaten goedgekeurd) de nauwkeurigheid van deze algoritmen niet noodzakelijkerwijs rigoureus wordt bestudeerd.

Hoewel de academische gemeenschap is begonnen met het ontwikkelen van richtlijnen voor klinische tests met AI, bestaan ​​er nog geen gevestigde praktijken voor het evalueren van commerciële algoritmen. In de VS is de FDA verantwoordelijk voor het goedkeuren van door AI aangedreven medische apparaten, en de instantie geeft regelmatig informatie over deze apparaten vrij, inclusief prestatiegegevens.

De coauteurs van het Stanford-onderzoek creëerden een database met door de FDA goedgekeurde medische AI-apparaten en analyseerden hoe elk ervan werd getest voordat het goedkeuring kreeg. Bijna alle door AI aangedreven apparaten – 126 van de 130 – die tussen januari 2015 en december 2020 door de FDA zijn goedgekeurd, ondergingen bij indiening alleen retrospectieve studies, aldus de onderzoekers. En geen van de 54 goedgekeurde apparaten met een hoog risico werd geëvalueerd door prospectieve onderzoeken, wat betekent dat testgegevens werden verzameld voordat de apparaten werden goedgekeurd, in plaats van gelijktijdig met de implementatie ervan.

De coauteurs stellen dat prospectieve studies noodzakelijk zijn, vooral voor medische hulpmiddelen met AI, omdat gebruik in het veld kan afwijken van het beoogde gebruik. De meeste computerondersteunde diagnostische apparaten zijn bijvoorbeeld ontworpen als beslissingsondersteunende hulpmiddelen in plaats van als primaire diagnostische hulpmiddelen. Uit een prospectief onderzoek zou kunnen blijken dat artsen een apparaat voor diagnose misbruiken, wat tot uitkomsten kan leiden die verschillen van wat zou worden verwacht.

Er zijn aanwijzingen dat deze afwijkingen tot fouten kunnen leiden. Uit onderzoek door de Pennsylvania Patient Safety Authority in Harrisburg bleek dat EPD-systemen tussen januari 2016 en december 2017 verantwoordelijk waren voor 775 problemen tijdens laboratoriumtests in de staat, waarbij mens-computer-interacties verantwoordelijk waren voor 54.7% van de gebeurtenissen en de resterende 45.3% werd veroorzaakt door een computer. Bovendien bleek uit een conceptrapport van de Amerikaanse overheid uit 2018 dat artsen niet zelden waarschuwingen missen – waarvan sommige op basis van AI zijn geïnformeerd – variërend van kleine kwesties over interacties tussen geneesmiddelen tot kwesties die aanzienlijke risico’s met zich meebrengen.

De Stanford-onderzoekers ontdekten ook een gebrek aan patiëntendiversiteit in de tests die werden uitgevoerd op door de FDA goedgekeurde apparaten. Van de 130 apparaten ondergingen er 93 geen beoordeling op meerdere locaties, terwijl er 4 op slechts één locatie werden getest en 8 apparaten op slechts twee locaties. En in de rapporten voor 59 apparaten werd de steekproefomvang van de onderzoeken niet vermeld. Van de 71 onderzoeken met apparaten die over deze informatie beschikten, was de gemiddelde omvang 300, en slechts 17 onderzoeken met apparaten gingen na hoe het algoritme zou kunnen presteren bij verschillende patiëntengroepen.

Deels vanwege de terughoudendheid om code, datasets en technieken vrij te geven, kunnen veel van de gegevens die tegenwoordig worden gebruikt om AI-algoritmen te trainen voor het diagnosticeren van ziekten ongelijkheden in stand houden, zo hebben eerdere onderzoeken aangetoond. Een team van Britse wetenschappers gevonden dat bijna alle datasets van oogziekten afkomstig zijn van patiënten in Noord-Amerika, Europa en China, wat betekent dat algoritmen voor het diagnosticeren van oogziekten minder zeker zullen werken voor raciale groepen uit ondervertegenwoordigde landen. In een andere studiesOnderzoekers van de Universiteit van Toronto, het Vector Institute en MIT hebben aangetoond dat veelgebruikte röntgenfoto's van de borstkas gebruikt worden coderen raciale, gender- en sociaal-economische vooroordelen.

Naast fundamentele uitdagingen op het gebied van datasets kunnen modellen zonder voldoende peer review op onvoorziene obstakels stuiten wanneer ze in de echte wereld worden ingezet. Wetenschappers van Harvard gevonden dat algoritmen die zijn getraind in het herkennen en classificeren van CT-scans een voorkeur kunnen krijgen voor scanformaten van bepaalde fabrikanten van CT-machines. Ondertussen is er een Google-gepubliceerd whitepaper bracht uitdagingen aan het licht bij de implementatie van een systeem voor het voorspellen van oogziekten in ziekenhuizen in Thailand, waaronder problemen met de nauwkeurigheid van de scan. En onderzoeken uitgevoerd door bedrijven zoals Babylon Gezondheid, een goed gefinancierde telegeneeskunde-startup die beweert een reeks ziekten uit sms-berichten te kunnen beoordelen, zijn herhaaldelijk in twijfel getrokken.

De coauteurs van de Stanford-studie beweren dat informatie over het aantal locaties in een evaluatie “consistent gerapporteerd” moet worden, zodat artsen, onderzoekers en patiënten weloverwogen oordelen kunnen vellen over de betrouwbaarheid van een bepaald medisch AI-apparaat. Evaluaties op meerdere locaties zijn belangrijk voor het begrijpen van algoritmische bias en betrouwbaarheid, zeggen ze, en kunnen helpen bij het rekening houden met variaties in apparatuur, standaarden van technici, formaten voor beeldopslag, demografische samenstelling en ziekteprevalentie.

“Het evalueren van de prestaties van AI-apparaten op meerdere klinische locaties is belangrijk om ervoor te zorgen dat de algoritmen goed presteren in representatieve populaties”, schreven de coauteurs. “Het aanmoedigen van prospectieve onderzoeken in vergelijking met de standaardzorg vermindert het risico op schadelijke overfitting en geeft nauwkeuriger de werkelijke klinische resultaten weer. Post-market surveillance van AI-apparaten is ook nodig voor het begrijpen en meten van onbedoelde uitkomsten en vooroordelen die niet worden ontdekt in prospectieve, multicentrische onderzoeken.”

VentureBeat

De missie van VentureBeat is om een ​​digitaal stadsplein te zijn voor technische besluitvormers om kennis op te doen over transformatieve technologie en transacties. Onze site biedt essentiële informatie over datatechnologieën en strategieën om u te begeleiden bij het leiden van uw organisaties. We nodigen u uit om lid te worden van onze community, om toegang te krijgen tot:

  • up-to-date informatie over de onderwerpen die u interesseren
  • onze nieuwsbrieven
  • gated thought-leader content en toegang met korting tot onze gewaardeerde evenementen, zoals Transformeer 2021: Kom meer te weten
  • netwerkfuncties en meer

Word lid

Bron: https://venturebeat.com/2021/04/12/some-fda-approved-ai-medical-devices-are-not-adequately-evaluated-stanford-study-says/

Tijdstempel:

Meer van VentureBeat