Vissa FDA-godkända AI-medicinska apparater är inte "tillräckligt" utvärderade, säger Stanford-studien

Källnod: 808637

Gå med i Transform 2021 12-16 juli. Registrera for årets AI-händelse.


Vissa AI-drivna medicinska apparater som godkänts av US Food and Drug Administration (FDA) är sårbara för dataförskjutningar och partiskhet mot underrepresenterade patienter. Det är enligt en Stanford studera som publicerades i Nature Medicine förra veckan, som fann att även när AI blir inbäddad i fler medicinska apparater – FDA godkände över 65 AI-enheter förra året – så studeras inte noggrannheten hos dessa algoritmer nödvändigtvis noggrant.

Även om det akademiska samfundet har börjat utveckla riktlinjer för kliniska prövningar av AI, finns det ingen etablerad praxis för att utvärdera kommersiella algoritmer. I USA ansvarar FDA för att godkänna AI-drivna medicintekniska produkter, och myndigheten släpper regelbundet information om dessa enheter inklusive prestandadata.

Medförfattarna till Stanford-forskningen skapade en databas med FDA-godkända medicinska AI-enheter och analyserade hur var och en testades innan den fick godkännande. Nästan alla AI-drivna enheter – 126 av 130 – godkända av FDA mellan januari 2015 och december 2020 genomgick endast retrospektiva studier vid inlämnandet, enligt forskarna. Och ingen av de 54 godkända högriskenheterna utvärderades av prospektiva studier, vilket betyder att testdata samlades in innan enheterna godkändes snarare än samtidigt med deras utplacering.

Medförfattarna hävdar att prospektiva studier är nödvändiga, särskilt för AI-medicintekniska produkter, eftersom användning på fältet kan avvika från den avsedda användningen. Till exempel är de flesta datorstödda diagnostiska enheter utformade för att vara beslutsstödjande verktyg snarare än primära diagnostiska verktyg. En prospektiv studie kan avslöja att läkare missbrukar en apparat för diagnos, vilket leder till resultat som skiljer sig från vad som förväntas.

Det finns bevis som tyder på att dessa avvikelser kan leda till fel. Spårning av Pennsylvania Patient Safety Authority i Harrisburg visade att från januari 2016 till december 2017 var EHR-system ansvariga för 775 problem under laboratorietester i delstaten, med interaktioner mellan människa och dator ansvariga för 54.7 % av händelserna och de återstående 45.3 % orsakade av en dator. Dessutom fann ett utkast till amerikansk regeringsrapport utgiven 2018 att kliniker inte ovanligt missar varningar – vissa AI-informerade – allt från mindre frågor om läkemedelsinteraktioner till sådana som utgör avsevärda risker.

Stanford-forskarna fann också brist på mångfald av patienter i testerna som utfördes på FDA-godkända enheter. Av de 130 enheterna genomgick 93 inte en multisite-bedömning, medan 4 testades på endast en plats och 8 enheter på endast två platser. Och rapporterna för 59 enheter nämnde inte provstorleken på studierna. Av de 71 enhetsstudier som hade denna information var medianstorleken 300, och bara 17 enhetsstudier övervägde hur algoritmen skulle kunna fungera på olika patientgrupper.

Delvis på grund av en återhållsamhet att släppa kod, datauppsättningar och tekniker, kan mycket av den data som används idag för att träna AI-algoritmer för att diagnostisera sjukdomar vidmakthålla ojämlikheter, har tidigare studier visat. Ett team av brittiska forskare hittade att nästan alla datasjukdomar för ögonsjukdomar kommer från patienter i Nordamerika, Europa och Kina, vilket betyder att diagnosalgoritmer för ögonsjukdomar är mindre säkra att fungera bra för rasgrupper från underrepresenterade länder. I en annan studera, visade forskare från University of Toronto, Vector Institute och MIT att mycket använda lungröntgendatauppsättningar koda ras, kön och socioekonomisk fördom.

Utöver grundläggande datauppsättningsutmaningar kan modeller som saknar tillräcklig peer review stöta på oförutsedda vägspärrar när de används i den verkliga världen. Forskare vid Harvard hittade att algoritmer som tränats för att känna igen och klassificera CT-skanningar kan bli partiska mot scanningsformat från vissa CT-maskintillverkare. Samtidigt har en Google-publicerad vitt papper avslöjade utmaningar med att implementera ett ögonsjukdomsförutsägande system på sjukhus i Thailand, inklusive problem med skanningsnoggrannhet. Och studier gjorda av företag som Babylon hälsa, en välfinansierad telemedicinsk startup som påstår sig kunna triagera en rad sjukdomar från textmeddelanden, har upprepade gånger ifrågasatts.

Medförfattarna till Stanford-studien hävdar att information om antalet platser i en utvärdering måste "konsekvent rapporteras" för att kliniker, forskare och patienter ska kunna göra välgrundade bedömningar om tillförlitligheten hos en given AI-medicinsk utrustning. Multisite-utvärderingar är viktiga för att förstå algoritmisk fördom och tillförlitlighet, säger de, och kan hjälpa till att redogöra för variationer i utrustning, teknikerstandarder, bildlagringsformat, demografisk sammansättning och sjukdomsprevalens.

"Att utvärdera prestandan hos AI-enheter på flera kliniska platser är viktigt för att säkerställa att algoritmerna fungerar bra över representativa populationer," skrev medförfattarna. "Att uppmuntra prospektiva studier med jämförelse med standardvård minskar risken för skadlig överanpassning och fångar mer exakt verkliga kliniska resultat. Eftermarknadsövervakning av AI-enheter behövs också för att förstå och mäta oavsiktliga utfall och fördomar som inte upptäcks i en prospektiv multicenterprövning.”

VentureBeat

VentureBeats uppdrag är att vara ett digitalt torg för tekniska beslutsfattare för att få kunskap om transformativ teknik och transaktioner. Vår webbplats levererar viktig information om datateknik och strategier för att vägleda dig när du leder dina organisationer. Vi inbjuder dig att bli medlem i vårt samhälle och få tillgång till:

  • uppdaterad information om de ämnen som är intressanta för dig
  • våra nyhetsbrev
  • gated tanke-ledare innehåll och rabatterad tillgång till våra uppskattade evenemang, såsom Transformera 2021: Läs mer
  • nätverksfunktioner och mer

Bli medlem

Källa: https://venturebeat.com/2021/04/12/some-fda-approved-ai-medical-devices-are-not-adequately-evaluated-stanford-study-says/

Tidsstämpel:

Mer från VentureBeat