Nogle FDA-godkendte AI medicinsk udstyr er ikke 'tilstrækkeligt' evalueret, siger Stanford-undersøgelse

Kildeknude: 808637

Tilmeld dig Transform 2021 den 12.-16. juli. Tilmeld dig fr årets AI-begivenhed.


Nogle AI-drevne medicinske enheder godkendt af US Food and Drug Administration (FDA) er sårbare over for dataskift og skævhed over for underrepræsenterede patienter. Det er ifølge en Stanford studere offentliggjort i Nature Medicine sidste uge, som fandt ud af, at selvom AI bliver indlejret i mere medicinsk udstyr - FDA godkendte over 65 AI-enheder sidste år - bliver nøjagtigheden af ​​disse algoritmer ikke nødvendigvis undersøgt grundigt.

Selvom det akademiske samfund er begyndt at udvikle retningslinjer for kliniske forsøg med kunstig intelligens, er der ikke etableret praksis for evaluering af kommercielle algoritmer. I USA er FDA ansvarlig for at godkende AI-drevet medicinsk udstyr, og agenturet udgiver regelmæssigt oplysninger om disse enheder, herunder ydeevnedata.

Medforfatterne til Stanford-forskningen oprettede en database med FDA-godkendte medicinske AI-enheder og analyserede, hvordan de blev testet, før de opnåede godkendelse. Næsten alle de AI-drevne enheder - 126 ud af 130 - godkendt af FDA mellem januar 2015 og december 2020 gennemgik kun retrospektive undersøgelser ved deres indsendelse, ifølge forskerne. Og ingen af ​​de 54 godkendte højrisiko-enheder blev evalueret af prospektive undersøgelser, hvilket betyder, at testdata blev indsamlet, før enhederne blev godkendt i stedet for samtidig med deres implementering.

Medforfatterne hævder, at prospektive undersøgelser er nødvendige, især for AI-medicinsk udstyr, fordi brug i marken kan afvige fra den tilsigtede brug. For eksempel er de fleste computerstøttede diagnostiske enheder designet til at være beslutningsstøtteværktøjer snarere end primære diagnostiske værktøjer. En prospektiv undersøgelse kan afsløre, at klinikere misbruger en enhed til diagnosticering, hvilket fører til resultater, der afviger fra, hvad man kunne forvente.

Der er beviser for, at disse afvigelser kan føre til fejl. Sporing af Pennsylvania Patient Safety Authority i Harrisburg viste, at fra januar 2016 til december 2017 var EPJ-systemer ansvarlige for 775 problemer under laboratorietests i staten, med menneske-computer-interaktioner ansvarlige for 54.7 % af hændelser og de resterende 45.3 % forårsaget af en computer. Ydermere fandt et udkast til amerikansk regeringsrapport udstedt i 2018, at klinikere ikke ualmindeligt går glip af advarsler - nogle AI-informerede - lige fra mindre spørgsmål om lægemiddelinteraktioner til dem, der udgør betydelige risici.

Stanford-forskerne fandt også en mangel på patientdiversitet i de test, der blev udført på FDA-godkendte enheder. Blandt de 130 enheder gennemgik 93 ikke en multisite-vurdering, mens 4 kun blev testet på ét sted og 8 enheder på kun to steder. Og rapporterne for 59 enheder nævnte ikke undersøgelsernes stikprøvestørrelse. Af de 71 enhedsundersøgelser, der havde denne information, var medianstørrelsen 300, og kun 17 enhedsundersøgelser overvejede, hvordan algoritmen kunne fungere på forskellige patientgrupper.

Til dels på grund af tilbageholdenhed med at frigive kode, datasæt og teknikker, kan meget af de data, der bruges i dag til at træne AI-algoritmer til at diagnosticere sygdomme, opretholde uligheder, har tidligere undersøgelser vist. Et hold britiske videnskabsmænd fundet at næsten alle øjensygdomsdatasæt kommer fra patienter i Nordamerika, Europa og Kina, hvilket betyder, at algoritmer til diagnosticering af øjensygdomme er mindre sikre på at fungere godt for racegrupper fra underrepræsenterede lande. I en anden studere, viste forskere fra University of Toronto, Vector Institute og MIT, at udbredte thorax røntgendatasæt encode racemæssig, køn og socioøkonomisk skævhed.

Ud over grundlæggende datasætudfordringer kan modeller, der mangler tilstrækkelig peer review, støde på uforudsete vejspærringer, når de implementeres i den virkelige verden. Forskere ved Harvard fundet at algoritmer, der er trænet til at genkende og klassificere CT-scanninger, kan blive forudindtaget over for scanningsformater fra visse CT-maskineproducenter. I mellemtiden er en Google-udgivet whitepaper afslørede udfordringer med at implementere et øjensygdomsforudsigende system på hospitaler i Thailand, herunder problemer med scanningsnøjagtighed. Og undersøgelser foretaget af virksomheder som Babylons sundhed, en velfinansieret telemedicinsk startup, der hævder at være i stand til at triagere en række sygdomme fra tekstbeskeder, er gentagne gange blevet sat i tvivl.

Medforfatterne til Stanford-studiet hævder, at oplysninger om antallet af steder i en evaluering skal "konsekvent rapporteres", for at klinikere, forskere og patienter kan foretage informerede domme om pålideligheden af ​​en given AI-medicinsk enhed. Multisite-evalueringer er vigtige for at forstå algoritmisk bias og pålidelighed, siger de, og kan hjælpe med at tage højde for variationer i udstyr, teknikerstandarder, billedlagringsformater, demografisk sammensætning og sygdomsprævalens.

"At evaluere ydeevnen af ​​AI-enheder på flere kliniske steder er vigtigt for at sikre, at algoritmerne fungerer godt på tværs af repræsentative populationer," skrev medforfatterne. "At opmuntre til prospektive undersøgelser med sammenligning med standardbehandling reducerer risikoen for skadelig overfitting og fanger mere præcist sande kliniske resultater. Postmarket-overvågning af AI-enheder er også nødvendig for at forstå og måle utilsigtede resultater og skævheder, der ikke opdages i prospektive, multicenterforsøg."

VentureBeat

VentureBeats mission er at være et digitalt bytorv for tekniske beslutningstagere for at få viden om transformativ teknologi og handle. Vores websted leverer væsentlig information om datateknologier og strategier til at guide dig, mens du leder dine organisationer. Vi inviterer dig til at blive medlem af vores fællesskab for at få adgang til:

  • ajourførte oplysninger om emner, der interesserer dig
  • vores nyhedsbreve
  • gated tankelederindhold og nedsat adgang til vores dyrebare begivenheder, såsom Forvandling 2021: Lær mere
  • netværksfunktioner og mere

Bliv medlem

Kilde: https://venturebeat.com/2021/04/12/some-fda-approved-ai-medical-devices-are-not-adequately-evaluated-stanford-study-says/

Tidsstempel:

Mere fra VentureBeat