Noen FDA-godkjente medisinske apparater for AI blir ikke 'tilstrekkelig' evaluert, sier Stanford-studien

Kilde node: 808637

Bli med på Transform 2021 12. - 16. juli. Registrer for årets AI-begivenhet.


Noen AI-drevne medisinske enheter godkjent av U.S. Food and Drug Administration (FDA) er sårbare for dataskift og skjevhet mot underrepresenterte pasienter. Det er ifølge en Stanford studere publisert i Nature Medicine forrige uke, som fant ut at selv ettersom AI blir innebygd i mer medisinsk utstyr - FDA godkjente over 65 AI-enheter i fjor - blir nøyaktigheten til disse algoritmene ikke nødvendigvis studert grundig.

Selv om det akademiske miljøet har begynt å utvikle retningslinjer for kliniske studier med kunstig intelligens, er det ikke etablert praksis for å evaluere kommersielle algoritmer. I USA er FDA ansvarlig for å godkjenne AI-drevet medisinsk utstyr, og byrået utgir regelmessig informasjon om disse enhetene, inkludert ytelsesdata.

Medforfatterne av Stanford-forskningen opprettet en database med FDA-godkjente medisinske AI-enheter og analyserte hvordan hver ble testet før den fikk godkjenning. Nesten alle de AI-drevne enhetene – 126 av 130 – godkjent av FDA mellom januar 2015 og desember 2020 gjennomgikk kun retrospektive studier ved innleveringen, ifølge forskerne. Og ingen av de 54 godkjente høyrisiko-enhetene ble evaluert av prospektive studier, noe som betyr at testdata ble samlet inn før enhetene ble godkjent i stedet for samtidig med utplasseringen.

Medforfatterne hevder at prospektive studier er nødvendige, spesielt for AI medisinsk utstyr, fordi bruk i felt kan avvike fra den tiltenkte bruken. For eksempel er de fleste datastøttede diagnostiske enheter designet for å være beslutningsstøtteverktøy i stedet for primære diagnoseverktøy. En prospektiv studie kan avsløre at klinikere misbruker en enhet for diagnose, noe som fører til utfall som avviker fra det som kunne forventes.

Det er bevis som tyder på at disse avvikene kan føre til feil. Sporing av Pennsylvania Patient Safety Authority i Harrisburg fant at fra januar 2016 til desember 2017 var EPJ-systemer ansvarlige for 775 problemer under laboratorietester i staten, med interaksjoner mellom mennesker og datamaskiner ansvarlige for 54.7 % av hendelsene og de resterende 45.3 % forårsaket av en datamaskin. Videre fant et utkast til amerikansk regjeringsrapport utstedt i 2018 at klinikere ikke uvanlig går glipp av varsler – noen AI-informerte – alt fra mindre problemer om legemiddelinteraksjoner til de som utgjør betydelig risiko.

Stanford-forskerne fant også mangel på pasientmangfold i testene utført på FDA-godkjente enheter. Blant de 130 enhetene gjennomgikk ikke 93 en multisite-vurdering, mens 4 ble testet på bare ett sted og 8 enheter på bare to steder. Og rapportene for 59 enheter nevnte ikke prøvestørrelsen på studiene. Av de 71 enhetsstudiene som hadde denne informasjonen, var medianstørrelsen 300, og bare 17 enhetsstudier vurderte hvordan algoritmen kan fungere på forskjellige pasientgrupper.

Delvis på grunn av tilbakeholdenhet med å frigi kode, datasett og teknikker, kan mye av dataene som brukes i dag for å trene AI-algoritmer for å diagnostisere sykdommer opprettholde ulikheter, har tidligere studier vist. Et team av britiske forskere funnet at nesten alle datasett for øyesykdommer kommer fra pasienter i Nord-Amerika, Europa og Kina, noe som betyr at øyesykdomsdiagnostiserende algoritmer er mindre sikre på å fungere bra for rasegrupper fra underrepresenterte land. I en annen studere, viste forskere fra University of Toronto, Vector Institute og MIT at mye brukte thorax røntgendatasett kode rasemessige, kjønnsmessige og sosioøkonomiske skjevheter.

Utover grunnleggende datasettutfordringer, kan modeller som mangler tilstrekkelig fagfellevurdering støte på uforutsette veisperringer når de distribueres i den virkelige verden. Forskere ved Harvard funnet at algoritmer som er opplært til å gjenkjenne og klassifisere CT-skanninger kan bli partiske mot skanneformater fra visse produsenter av CT-maskiner. I mellomtiden har en Google-publisert whitepaper avdekket utfordringer med å implementere et øyesykdomsforutsigende system på sykehus i Thailand, inkludert problemer med skanningsnøyaktighet. Og studier utført av selskaper som Babylon helse, en velfinansiert telemedisinsk oppstart som hevder å kunne triagere en rekke sykdommer fra tekstmeldinger, har gjentatte ganger blitt stilt spørsmål ved.

Medforfatterne av Stanford-studien hevder at informasjon om antall steder i en evaluering må være "konsekvent rapportert" for at klinikere, forskere og pasienter skal kunne foreta informerte vurderinger om påliteligheten til et gitt AI-medisinsk utstyr. Multisite-evalueringer er viktige for å forstå algoritmisk skjevhet og pålitelighet, sier de, og kan hjelpe til med å redegjøre for variasjoner i utstyr, teknikerstandarder, bildelagringsformater, demografisk sammensetning og sykdomsprevalens.

"Å evaluere ytelsen til AI-enheter på flere kliniske steder er viktig for å sikre at algoritmene fungerer godt på tvers av representative populasjoner," skrev medforfatterne. "Å oppmuntre til prospektive studier med sammenligning med standardbehandling reduserer risikoen for skadelig overtilpasning og fanger mer nøyaktig opp sanne kliniske utfall. Ettermarkedsovervåking av AI-enheter er også nødvendig for å forstå og måle utilsiktede utfall og skjevheter som ikke oppdages i prospektive, multisenterforsøk.»

VentureBeat

VentureBeats oppdrag er å være et digitalt torg for tekniske beslutningstakere for å få kunnskap om transformativ teknologi og transaksjoner. Nettstedet vårt gir viktig informasjon om datateknologier og strategier for å veilede deg når du leder organisasjonene dine. Vi inviterer deg til å bli medlem av samfunnet vårt, for å få tilgang til:

  • oppdatert informasjon om temaene som er interessante for deg
  • våre nyhetsbrev
  • gated tankelederinnhold og nedsatt tilgang til våre verdsatte arrangementer, som f.eks Transformer 2021: Lære mer
  • nettverksfunksjoner og mer

Bli medlem

Kilde: https://venturebeat.com/2021/04/12/some-fda-approved-ai-medical-devices-are-not-adequately-evaluated-stanford-study-says/

Tidstempel:

Mer fra VentureBeat