Einige von der FDA zugelassene KI-medizinische Geräte werden nicht „ausreichend“ bewertet, heißt es in einer Stanford-Studie

Quellknoten: 808637

Treten Sie Transform 2021 vom 12. bis 16. Juli bei. Registrieren Sie sich fürr das AI-Event des Jahres.


Einige von der US-amerikanischen Food and Drug Administration (FDA) zugelassene KI-gestützte Medizingeräte sind anfällig für Datenverschiebungen und Voreingenommenheit gegenüber unterrepräsentierten Patienten. Das ist laut einem Stanford Studie veröffentlicht Nature Medicine Letzte Woche wurde festgestellt, dass die Genauigkeit dieser Algorithmen nicht unbedingt gründlich untersucht wird, auch wenn KI in immer mehr medizinischen Geräten integriert wird – die FDA hat letztes Jahr über 65 KI-Geräte zugelassen.

Obwohl die akademische Gemeinschaft damit begonnen hat, Richtlinien für klinische KI-Studien zu entwickeln, gibt es keine etablierten Praktiken zur Bewertung kommerzieller Algorithmen. In den USA ist die FDA für die Zulassung von KI-gestützten medizinischen Geräten verantwortlich und die Behörde veröffentlicht regelmäßig Informationen zu diesen Geräten, einschließlich Leistungsdaten.

Die Mitautoren der Stanford-Forschung erstellten eine Datenbank mit von der FDA zugelassenen medizinischen KI-Geräten und analysierten, wie jedes einzelne getestet wurde, bevor es die Zulassung erhielt. Den Forschern zufolge wurden fast alle KI-gestützten Geräte – 126 von 130 –, die zwischen Januar 2015 und Dezember 2020 von der FDA zugelassen wurden, bei ihrer Einreichung nur retrospektiven Studien unterzogen. Und keines der 54 zugelassenen Hochrisikogeräte wurde durch prospektive Studien evaluiert, was bedeutet, dass Testdaten vor der Zulassung der Geräte und nicht gleichzeitig mit ihrem Einsatz gesammelt wurden.

Die Co-Autoren argumentieren, dass insbesondere für KI-medizinische Geräte prospektive Studien notwendig seien, da der Einsatz im Feld von der vorgesehenen Verwendung abweichen könne. Beispielsweise sind die meisten computergestützten Diagnosegeräte als Entscheidungsunterstützungstools und nicht als primäre Diagnosetools konzipiert. Eine prospektive Studie könnte aufdecken, dass Ärzte ein Gerät zur Diagnose missbrauchen, was zu Ergebnissen führt, die von den Erwartungen abweichen.

Es gibt Hinweise darauf, dass diese Abweichungen zu Fehlern führen können. Untersuchungen der Pennsylvania Patient Safety Authority in Harrisburg ergaben, dass EHR-Systeme von Januar 2016 bis Dezember 2017 für 775 Probleme bei Labortests im Bundesstaat verantwortlich waren, wobei Mensch-Computer-Interaktionen für 54.7 % der Ereignisse verantwortlich waren und die restlichen 45.3 % durch Folgendes verursacht wurden ein Computer. Darüber hinaus wurde in einem Entwurf eines Berichts der US-Regierung aus dem Jahr 2018 festgestellt, dass Ärzte nicht selten Warnmeldungen übersehen – einige davon KI-informiert –, die von geringfügigen Problemen zu Arzneimittelwechselwirkungen bis hin zu solchen mit erheblichen Risiken reichen.

Die Stanford-Forscher stellten auch einen Mangel an Patientenvielfalt bei den Tests fest, die mit von der FDA zugelassenen Geräten durchgeführt wurden. Von den 130 Geräten wurden 93 keiner Multisite-Bewertung unterzogen, während 4 nur an einem Standort und 8 Geräte nur an zwei Standorten getestet wurden. Und in den Berichten für 59 Geräte wurde die Stichprobengröße der Studien nicht erwähnt. Von den 71 Gerätestudien, die über diese Informationen verfügten, betrug die mittlere Größe 300, und nur 17 Gerätestudien untersuchten, wie der Algorithmus bei verschiedenen Patientengruppen funktionieren könnte.

Teilweise aufgrund der Zurückhaltung bei der Veröffentlichung von Code, Datensätzen und Techniken könnten viele der Daten, die heute zum Trainieren von KI-Algorithmen zur Diagnose von Krankheiten verwendet werden, Ungleichheiten aufrechterhalten, wie frühere Studien gezeigt haben. Ein Team britischer Wissenschaftler gefunden dass fast alle Datensätze zu Augenkrankheiten von Patienten in Nordamerika, Europa und China stammen, was bedeutet, dass Algorithmen zur Diagnose von Augenkrankheiten für Rassengruppen aus unterrepräsentierten Ländern weniger sicher sind. In einem anderen StudieForscher der University of Toronto, des Vector Institute und des MIT zeigten, dass weit verbreitete Röntgendatensätze des Brustkorbs verwendet werden kodieren Rasse, Geschlecht und sozioökonomische Voreingenommenheit.

Über die grundlegenden Herausforderungen bei Datensätzen hinaus können Modelle, denen es an ausreichender Peer-Review mangelt, beim Einsatz in der realen Welt auf unvorhergesehene Hindernisse stoßen. Wissenschaftler in Harvard gefunden dass Algorithmen, die darauf trainiert sind, CT-Scans zu erkennen und zu klassifizieren, möglicherweise auf Scanformate bestimmter CT-Gerätehersteller ausgerichtet sein könnten. Mittlerweile wurde eine Google-Veröffentlichung veröffentlicht Whitepaper enthüllte Herausforderungen bei der Implementierung eines Systems zur Vorhersage von Augenkrankheiten in thailändischen Krankenhäusern, einschließlich Problemen mit der Scangenauigkeit. Und Studien von Unternehmen wie Babylon Health, ein gut finanziertes Telemedizin-Startup, das behauptet, eine Reihe von Krankheiten anhand von Textnachrichten erkennen zu können, wurde wiederholt in Frage gestellt.

Die Mitautoren der Stanford-Studie argumentieren, dass Informationen über die Anzahl der Standorte in einer Bewertung „konsistent gemeldet“ werden müssen, damit Kliniker, Forscher und Patienten fundierte Urteile über die Zuverlässigkeit eines bestimmten KI-medizinischen Geräts fällen können. Sie sagen, dass Multisite-Bewertungen für das Verständnis algorithmischer Voreingenommenheit und Zuverlässigkeit wichtig seien und dabei helfen könnten, Unterschiede in der Ausrüstung, den Technikstandards, den Bildspeicherformaten, der demografischen Zusammensetzung und der Krankheitsprävalenz zu berücksichtigen.

„Die Bewertung der Leistung von KI-Geräten an mehreren klinischen Standorten ist wichtig, um sicherzustellen, dass die Algorithmen in repräsentativen Populationen gut funktionieren“, schreiben die Mitautoren. „Die Förderung prospektiver Studien mit Vergleich zur Standardversorgung verringert das Risiko einer schädlichen Überanpassung und erfasst die tatsächlichen klinischen Ergebnisse genauer. Eine Überwachung von KI-Geräten nach dem Inverkehrbringen ist auch erforderlich, um unbeabsichtigte Ergebnisse und Verzerrungen zu verstehen und zu messen, die in prospektiven, multizentrischen Studien nicht erkannt werden.“

VentureBeat

Die Mission von VentureBeat ist es, ein digitaler Stadtplatz für technische Entscheidungsträger zu sein, um Wissen über transformative Technologie und Transaktionen zu erlangen. Unsere Website bietet wichtige Informationen zu Datentechnologien und -strategien, die Sie bei der Führung Ihres Unternehmens unterstützen. Wir laden Sie ein, Mitglied unserer Community zu werden und auf Folgendes zuzugreifen:

  • aktuelle Informationen zu den für Sie interessanten Themen
  • unsere Newsletter
  • gated Vordenker-Inhalte und ermäßigter Zugang zu unseren wertvollen Veranstaltungen, wie z Transformiere NO: Erfahren Sie mehr
  • Netzwerkfunktionen und mehr

Mitglied werden

Quelle: https://venturebeat.com/2021/04/12/some-fda-approved-ai-medical-devices-are-not-adequately-evaluated-stanford-study-says/

Zeitstempel:

Mehr von VentureBeat