Z badania Stanford wynika, że ​​niektóre zatwierdzone przez FDA urządzenia medyczne wykorzystujące sztuczną inteligencję nie są „odpowiednio” oceniane

Węzeł źródłowy: 808637

Dołącz do Transform 2021 w dniach 12-16 lipca. Zarejestruj sięr wydarzenie roku związane ze sztuczną inteligencją.


Niektóre urządzenia medyczne wykorzystujące sztuczną inteligencję, zatwierdzone przez amerykańską Agencję ds. Żywności i Leków (FDA), są podatne na zmiany danych i uprzedzenia wobec niedostatecznie reprezentowanych pacjentów. Tak twierdzi Stanford „The Puzzle of Monogamous Marriage” opublikowane w Nature Medicine z zeszłego tygodnia, które wykazało, że nawet w miarę jak sztuczna inteligencja będzie wbudowywana w coraz większą liczbę wyrobów medycznych – w zeszłym roku FDA zatwierdziła ponad 65 urządzeń AI – dokładność tych algorytmów niekoniecznie jest rygorystycznie badana.

Chociaż społeczność akademicka zaczęła opracowywać wytyczne dotyczące badań klinicznych AI, nie ma ustalonych praktyk oceny algorytmów komercyjnych. W USA za zatwierdzanie wyrobów medycznych wykorzystujących sztuczną inteligencję odpowiada FDA, która regularnie publikuje informacje na temat tych urządzeń, w tym dane dotyczące wydajności.

Współautorzy badania ze Stanford stworzyli bazę danych zatwierdzonych przez FDA medycznych urządzeń AI i przeanalizowali, w jaki sposób każdy z nich był testowany przed uzyskaniem zatwierdzenia. Według naukowców prawie wszystkie urządzenia napędzane sztuczną inteligencją – 126 ze 130 – zatwierdzone przez FDA w okresie od stycznia 2015 r. do grudnia 2020 r. przeszły w chwili ich złożenia jedynie badania retrospektywne. Żadne z 54 zatwierdzonych urządzeń wysokiego ryzyka nie zostało poddane ocenie w badaniach prospektywnych, co oznacza, że ​​dane testowe zebrano przed zatwierdzeniem urządzeń, a nie jednocześnie z ich wdrażaniem.

Współautorzy argumentują, że konieczne są badania prospektywne, zwłaszcza w przypadku wyrobów medycznych AI, ponieważ użytkowanie w terenie może odbiegać od zamierzonego. Na przykład większość wspomaganych komputerowo urządzeń diagnostycznych zaprojektowano jako narzędzia wspomagające podejmowanie decyzji, a nie podstawowe narzędzia diagnostyczne. Badanie prospektywne może ujawnić, że lekarze niewłaściwie wykorzystują urządzenie do celów diagnostycznych, co prowadzi do wyników odmiennych od oczekiwanych.

Istnieją dowody sugerujące, że odchylenia te mogą prowadzić do błędów. Śledzenie prowadzone przez Urząd ds. Bezpieczeństwa Pacjentów Pensylwanii w Harrisburgu wykazało, że od stycznia 2016 r. do grudnia 2017 r. systemy EHR były odpowiedzialne za 775 problemów podczas testów laboratoryjnych w stanie, przy czym interakcje człowiek-komputer były odpowiedzialne za 54.7% zdarzeń, a pozostałe 45.3% było spowodowane przez komputer. Co więcej, z projektu raportu rządu USA opublikowanego w 2018 r. wynika, że ​​klinicyści nierzadko przeoczają alerty – niektórzy z nich są informowani przez sztuczną inteligencję – od drobnych problemów dotyczących interakcji leków po te, które stwarzają znaczne ryzyko.

Badacze ze Stanford odkryli również brak różnorodności pacjentów w testach przeprowadzonych na urządzeniach zatwierdzonych przez FDA. Spośród 130 urządzeń 93 nie przeszło oceny w wielu lokalizacjach, 4 zostały przetestowane tylko w jednym ośrodku, a 8 urządzeń tylko w dwóch lokalizacjach. W raportach dotyczących 59 urządzeń nie wspomniano o wielkości próby objętej badaniami. Spośród 71 badań urządzeń, w których znajdowały się te informacje, mediana rozmiaru wyniosła 300, a zaledwie 17 badań urządzeń uwzględniało skuteczność algorytmu w różnych grupach pacjentów.

Poprzednie badania wykazały, że częściowo ze względu na niechęć do udostępniania kodu, zbiorów danych i technik duża część danych wykorzystywanych obecnie do uczenia algorytmów sztucznej inteligencji na potrzeby diagnozowania chorób może utrwalić nierówności. Zespół brytyjskich naukowców znaleziono że prawie wszystkie zbiory danych o chorobach oczu pochodzą od pacjentów z Ameryki Północnej, Europy i Chin, co oznacza, że ​​algorytmy do diagnozowania chorób oczu z mniejszą pewnością będą działać dobrze w przypadku grup rasowych z niedostatecznie reprezentowanych krajów. Winnym „The Puzzle of Monogamous Marriage” naukowcy z Uniwersytetu w Toronto, Instytutu Vector i MIT wykazali, że powszechnie stosowane są zestawy danych rentgenowskich klatki piersiowej kodować uprzedzenia rasowe, płciowe i społeczno-ekonomiczne.

Oprócz podstawowych wyzwań związanych ze zbiorem danych, modele pozbawione wystarczającej wzajemnej oceny mogą napotkać nieprzewidziane przeszkody po wdrożeniu w świecie rzeczywistym. Naukowcy z Harvardu znaleziono że algorytmy przeszkolone w zakresie rozpoznawania i klasyfikowania skanów CT mogą skłaniać się ku formatom skanów niektórych producentów tomografów komputerowych. Tymczasem Google opublikował oficjalny dokument ujawniło wyzwania związane z wdrażaniem systemu przewidywania chorób oczu w szpitalach w Tajlandii, w tym problemy z dokładnością skanowania. A badania przeprowadzone przez takie firmy jak Zdrowie Babilonu, dobrze finansowany start-up zajmujący się telemedycyną, który twierdzi, że jest w stanie zdiagnozować szereg chorób za pomocą wiadomości tekstowych, był wielokrotnie kwestionowany.

Współautorzy badania ze Stanford argumentują, że informacje o liczbie ocenianych ośrodków muszą być „spójnie zgłaszane”, aby klinicyści, badacze i pacjenci mogli dokonywać świadomych ocen na temat niezawodności danego urządzenia medycznego AI. Twierdzą, że oceny obejmujące wiele ośrodków są ważne dla zrozumienia błędów algorytmicznych i niezawodności, a także mogą pomóc w uwzględnieniu różnic w sprzęcie, standardach technicznych, formatach przechowywania obrazów, strukturze demograficznej i częstości występowania chorób.

„Ocena wydajności urządzeń AI w wielu ośrodkach klinicznych jest ważna dla zapewnienia dobrego działania algorytmów w reprezentatywnych populacjach” – napisali współautorzy. „Zachęcanie do prowadzenia badań prospektywnych porównujących opiekę standardową zmniejsza ryzyko szkodliwego nadmiernego dopasowania i dokładniej odzwierciedla rzeczywiste wyniki kliniczne. Nadzór nad urządzeniami AI po wprowadzeniu ich na rynek jest również potrzebny do zrozumienia i pomiaru niezamierzonych wyników i błędów systematycznych, które nie zostaną wykryte w prospektywnym, wieloośrodkowym badaniu”.

VentureBeat

Misją VentureBeat jest bycie cyfrowym placem miejskim dla decydentów technicznych, którzy zdobywają wiedzę na temat transformacyjnych technologii i transakcji. Nasza witryna zawiera podstawowe informacje na temat technologii danych i strategii, które pomogą Ci kierować organizacjami. Zapraszamy do zostania członkiem naszej społeczności, aby uzyskać dostęp do:

  • aktualne informacje na interesujące Cię tematy
  • nasze biuletyny
  • zamknięte, przemyślane treści i obniżony dostęp do naszych cennych wydarzeń, takich jak Przekształć 2021: Ucz się więcej
  • funkcje sieciowe i nie tylko

Zostań członkiem

Źródło: https://venturebeat.com/2021/04/12/some-fda-approved-ai-medical-devices-are-not-adequately-evaluated-stanford-study-says/

Znak czasu:

Więcej z VentureBeat