스탠포드 연구에 따르면 일부 FDA 승인 AI 의료 기기는 '적절하게' 평가되지 않았습니다.

소스 노드 : 808637

이번 2021 월 12 일부터 16 일까지 Transform XNUMX에 참여하세요. FO 등록r 올해의 AI 이벤트.


미국 식품의약국(FDA)에서 승인한 일부 AI 기반 의료 기기는 데이터 이동 및 과소 대표되는 환자에 대한 편견에 취약합니다. 스탠포드에 따르면 공부 에 게시 자연 의학 지난 주, AI가 더 많은 의료 기기에 내장되더라도(작년에 FDA 승인을 받은 65개 이상의 AI 기기) 이러한 알고리즘의 정확성이 반드시 엄격하게 연구되지는 않는다는 사실이 밝혀졌습니다.

학계에서 AI 임상 시험에 대한 지침을 개발하기 시작했지만 상용 알고리즘을 평가하기 위한 확립된 관행은 없습니다. 미국에서는 FDA가 AI 구동 의료기기 승인을 담당하고 있으며 FDA는 성능 데이터를 포함하여 이러한 기기에 대한 정보를 정기적으로 공개합니다.

Stanford 연구의 공동 저자는 FDA 승인 의료 AI 기기의 데이터베이스를 만들고 승인을 받기 전에 각 기기가 어떻게 테스트되었는지 분석했습니다. 연구원에 따르면 126년 130월에서 2015년 2020월 사이에 FDA가 승인한 거의 모든 AI 구동 장치(54개 중 XNUMX개)는 제출 당시 후향적 연구만 거쳤습니다. 그리고 XNUMX개의 승인된 고위험 장치 중 어느 것도 전향적 연구에 의해 평가되지 않았습니다. 즉, 장치의 배포와 동시에가 아니라 승인되기 전에 테스트 데이터가 수집되었습니다.

공동 저자는 현장 사용이 의도한 용도와 다를 수 있기 때문에 특히 AI 의료 기기에 대한 전향적 연구가 필요하다고 주장합니다. 예를 들어, 대부분의 컴퓨터 지원 진단 장치는 기본 진단 도구가 아니라 의사 결정 지원 도구로 설계되었습니다. 전향적 연구는 임상의가 진단을 위해 장치를 오용하여 예상과 다른 결과를 초래한다는 것을 드러낼 수 있습니다.

이러한 편차가 오류로 이어질 수 있다는 증거가 있습니다. Harrisburg에 있는 Pennsylvania Patient Safety Authority의 추적에 따르면 2016년 2017월부터 775년 54.7월까지 EHR 시스템이 주에서 실험실 테스트 중 45.3개의 문제를 일으켰으며 사건의 2018%는 인간-컴퓨터 상호 작용이, 나머지 XNUMX%는 다음으로 인해 발생했습니다. 컴퓨터. 또한 XNUMX년에 발행된 미국 정부 보고서 초안에 따르면 임상의들은 약물 상호작용에 관한 사소한 문제부터 상당한 위험을 초래하는 문제에 이르기까지 일부 AI 정보를 바탕으로 경고를 놓치는 경우가 많습니다.

스탠포드 연구원들은 또한 FDA 승인 기기에 대해 수행된 테스트에서 환자의 다양성이 부족하다는 것을 발견했습니다. 130개 장치 중 93개는 다중 사이트 평가를 거치지 않았고 4개는 한 사이트에서만, 8개는 59개 사이트에서만 테스트되었습니다. 그리고 71개 기기에 대한 보고서에는 연구의 표본 크기가 언급되지 않았습니다. 이 정보가 있는 300개의 기기 연구 중 중간 크기는 17개였으며 XNUMX개의 기기 연구에서만 알고리즘이 다른 환자 그룹에서 수행될 수 있는 방법을 고려했습니다.

부분적으로는 코드, 데이터 세트 및 기술을 공개하지 않기 때문에 오늘날 질병 진단을 위한 AI 알고리즘을 훈련하는 데 사용되는 많은 데이터가 불평등을 영속화할 수 있다는 이전 연구 결과가 나타났습니다. 영국 과학자 팀 발견 거의 모든 안구 질환 데이터 세트는 북미, 유럽 및 중국의 환자에서 가져온 것입니다. 이는 안구 질환 진단 알고리즘이 소외된 국가의 인종 그룹에 적합하지 않다는 것을 의미합니다. 또 다른 공부, 토론토 대학, 벡터 연구소 및 MIT의 연구원들은 널리 사용되는 흉부 X선 데이터 세트를 보여주었습니다. 인코딩 인종, 성별, 사회경제적 편견.

기본적인 데이터 세트 문제 외에도 충분한 동료 검토가 부족한 모델은 실제 세계에 배포할 때 예상치 못한 장애물에 직면할 수 있습니다. 하버드의 과학자들 발견 CT 스캔을 인식하고 분류하도록 훈련된 알고리즘이 특정 CT 기계 제조업체의 스캔 형식으로 편향될 수 있다는 점 한편 구글에서 발표한 백서 스캔 정확도 문제를 포함하여 태국 병원에서 안과 질환 예측 시스템을 구현하는 데 어려움이 있음을 밝혔습니다. 그리고 다음과 같은 회사에서 수행한 연구 바빌론 건강, 문자 메시지에서 다양한 질병을 분류할 수 있다고 주장하는 자금이 넉넉한 원격 의료 신생 기업이 반복적으로 의문을 제기했습니다.

스탠포드 연구의 공동 저자는 임상의, 연구원 및 환자가 주어진 AI 의료 기기의 신뢰성에 대해 정보에 입각한 판단을 내리기 위해서는 평가의 사이트 수에 대한 정보가 "일관되게 보고되어야" 한다고 주장합니다. 다중 사이트 평가는 알고리즘 편향과 신뢰성을 이해하는 데 중요하며 장비, 기술자 표준, 이미지 저장 형식, 인구 통계 구성 및 질병 유병률의 변화를 설명하는 데 도움이 될 수 있습니다.

공동 저자는 "여러 임상 현장에서 AI 장치의 성능을 평가하는 것은 알고리즘이 대표 인구에서 잘 작동하는지 확인하는 데 중요합니다."라고 썼습니다. “표준 치료와 비교하여 전향적 연구를 장려하는 것은 유해한 과적합의 위험을 줄이고 진정한 임상 결과를 보다 정확하게 포착합니다. AI 기기의 시판 후 감시는 전향적 다기관 시험에서 감지되지 않는 의도하지 않은 결과와 편향을 이해하고 측정하는 데에도 필요합니다.”

VentureBeat

VentureBeat의 사명은 기술 의사 결정권자가 혁신적인 기술과 거래에 대한 지식을 습득 할 수있는 디지털 타운 스퀘어가되는 것입니다. 당사 사이트는 데이터 기술 및 전략에 대한 필수 정보를 제공하여 조직을 이끌 때 안내합니다. 다음에 액세스 할 수 있도록 커뮤니티의 일원이되도록 귀하를 초대합니다.

  • 관심있는 주제에 대한 최신 정보
  • 뉴스 레터
  • 금지 된 사고 리더 콘텐츠 및 다음과 같은 소중한 이벤트에 대한 할인 된 액세스 변환 2021: 더 알아보기
  • 네트워킹 기능 등

회원 가입

출처: https://venturebeat.com/2021/04/12/some-fda-approved-ai-medical-devices-are-not-adequately-evaluated-stanford-study-says/

타임 스탬프 :

더보기 VentureBeat