Một số thiết bị y tế AI được FDA chấp thuận không được đánh giá 'đầy đủ', nghiên cứu của Stanford cho biết

Nút nguồn: 808637

Tham gia Transform 2021 vào ngày 12-16 tháng XNUMX này. Đăng ký for sự kiện AI của năm.


Một số thiết bị y tế hỗ trợ AI được Cục Quản lý Thực phẩm và Dược phẩm Hoa Kỳ (FDA) phê duyệt dễ bị thay đổi dữ liệu và thiên vị đối với những bệnh nhân không được đại diện. Đó là theo một Stanford nghiên cứu xuất bản năm Nature Medicine tuần trước, đã phát hiện ra rằng ngay cả khi AI được nhúng vào nhiều thiết bị y tế hơn — FDA đã phê duyệt hơn 65 thiết bị AI vào năm ngoái — độ chính xác của các thuật toán này không nhất thiết phải được nghiên cứu nghiêm ngặt.

Mặc dù cộng đồng học thuật đã bắt đầu phát triển các hướng dẫn cho các thử nghiệm lâm sàng về AI, nhưng vẫn chưa có các thông lệ được thiết lập để đánh giá các thuật toán thương mại. Tại Hoa Kỳ, FDA chịu trách nhiệm phê duyệt các thiết bị y tế hỗ trợ AI và cơ quan này thường xuyên công bố thông tin về các thiết bị này, bao gồm cả dữ liệu hiệu suất.

Các đồng tác giả của nghiên cứu Stanford đã tạo ra một cơ sở dữ liệu về các thiết bị AI y tế được FDA phê chuẩn và phân tích cách từng thiết bị được thử nghiệm trước khi được phê duyệt. Theo các nhà nghiên cứu, hầu hết tất cả các thiết bị hỗ trợ AI - 126 trong số 130 - được FDA phê duyệt từ tháng 2015 năm 2020 đến tháng 54 năm XNUMX chỉ trải qua các nghiên cứu hồi cứu khi đệ trình. Và không có thiết bị nào trong số XNUMX thiết bị có rủi ro cao được phê duyệt được đánh giá bằng các nghiên cứu tiền cứu, nghĩa là dữ liệu thử nghiệm được thu thập trước khi thiết bị được phê duyệt thay vì đồng thời với việc triển khai chúng.

Các đồng tác giả lập luận rằng các nghiên cứu trong tương lai là cần thiết, đặc biệt đối với các thiết bị y tế AI, bởi vì việc sử dụng tại hiện trường có thể khác với mục đích sử dụng dự kiến. Ví dụ: hầu hết các thiết bị chẩn đoán có sự trợ giúp của máy tính được thiết kế để trở thành công cụ hỗ trợ ra quyết định hơn là công cụ chẩn đoán chính. Một nghiên cứu tiến cứu có thể tiết lộ rằng các bác sĩ lâm sàng đang lạm dụng một thiết bị để chẩn đoán, dẫn đến kết quả khác với những gì mong đợi.

Có bằng chứng cho thấy rằng những sai lệch này có thể dẫn đến sai sót. Theo dõi của Cơ quan An toàn Bệnh nhân Pennsylvania ở Harrisburg cho thấy từ tháng 2016 năm 2017 đến tháng 775 năm 54.7, các hệ thống EHR chịu trách nhiệm cho 45.3 sự cố trong quá trình thử nghiệm trong phòng thí nghiệm ở bang này, trong đó tương tác giữa người và máy tính chịu trách nhiệm cho 2018% sự kiện và XNUMX% còn lại do một máy tính. Hơn nữa, một dự thảo báo cáo của chính phủ Hoa Kỳ ban hành vào năm XNUMX cho thấy các bác sĩ lâm sàng không hiếm khi bỏ lỡ các cảnh báo — một số do AI thông báo — từ các vấn đề nhỏ về tương tác thuốc đến những vấn đề gây rủi ro đáng kể.

Các nhà nghiên cứu của Stanford cũng nhận thấy sự thiếu đa dạng của bệnh nhân trong các thử nghiệm được thực hiện trên các thiết bị được FDA chấp thuận. Trong số 130 thiết bị, 93 thiết bị không trải qua quá trình đánh giá nhiều trang, trong khi 4 thiết bị chỉ được thử nghiệm tại một trang và 8 thiết bị chỉ ở hai trang. Và các báo cáo cho 59 thiết bị không đề cập đến kích thước mẫu của các nghiên cứu. Trong số 71 nghiên cứu về thiết bị có thông tin này, kích thước trung bình là 300 và chỉ 17 nghiên cứu về thiết bị xem xét cách thuật toán có thể hoạt động trên các nhóm bệnh nhân khác nhau.

Các nghiên cứu trước đây đã chỉ ra rằng, một phần do ngại phát hành mã, bộ dữ liệu và kỹ thuật, phần lớn dữ liệu được sử dụng ngày nay để đào tạo các thuật toán AI nhằm chẩn đoán bệnh có thể kéo dài sự bất bình đẳng. Một nhóm các nhà khoa học Vương quốc Anh tìm thấy rằng hầu hết tất cả các bộ dữ liệu về bệnh về mắt đều đến từ các bệnh nhân ở Bắc Mỹ, Châu Âu và Trung Quốc, có nghĩa là các thuật toán chẩn đoán bệnh về mắt ít chắc chắn sẽ hoạt động tốt đối với các nhóm chủng tộc từ các quốc gia có ít đại diện. trong khác nghiên cứu, các nhà nghiên cứu từ Đại học Toronto, Viện Vector và MIT đã chỉ ra rằng bộ dữ liệu X-quang ngực được sử dụng rộng rãi mã hóa thành kiến ​​về chủng tộc, giới tính và kinh tế xã hội.

Ngoài những thách thức về tập dữ liệu cơ bản, các mô hình thiếu đánh giá ngang hàng đầy đủ có thể gặp phải những rào cản không lường trước được khi triển khai trong thế giới thực. Các nhà khoa học tại Harvard tìm thấy rằng các thuật toán được đào tạo để nhận biết và phân loại các bản quét CT có thể trở nên sai lệch đối với các định dạng quét từ một số nhà sản xuất máy CT nhất định. Trong khi đó, một bài báo do Google xuất bản whitepaper tiết lộ những thách thức trong việc triển khai hệ thống dự đoán bệnh về mắt tại các bệnh viện ở Thái Lan, bao gồm các vấn đề về độ chính xác của bản quét. Và các nghiên cứu được thực hiện bởi các công ty như Sức khỏe Babylon, một công ty khởi nghiệp về y tế từ xa được tài trợ tốt tuyên bố có thể phân loại một loạt bệnh từ tin nhắn văn bản, đã nhiều lần bị đặt câu hỏi.

Các đồng tác giả của nghiên cứu Stanford lập luận rằng thông tin về số lượng địa điểm trong một đánh giá phải được “báo cáo một cách nhất quán” để các bác sĩ lâm sàng, nhà nghiên cứu và bệnh nhân đưa ra những đánh giá sáng suốt về độ tin cậy của một thiết bị y tế AI nhất định. Họ nói rằng các đánh giá nhiều địa điểm rất quan trọng để hiểu được độ tin cậy và sai lệch của thuật toán, đồng thời có thể giúp tính toán các biến thể về thiết bị, tiêu chuẩn kỹ thuật viên, định dạng lưu trữ hình ảnh, thành phần nhân khẩu học và tỷ lệ mắc bệnh.

Các đồng tác giả viết: “Việc đánh giá hiệu suất của các thiết bị AI ở nhiều địa điểm lâm sàng là rất quan trọng để đảm bảo rằng các thuật toán hoạt động tốt trên các quần thể đại diện. “Khuyến khích các nghiên cứu trong tương lai so với tiêu chuẩn chăm sóc giúp giảm nguy cơ trang bị quá mức có hại và nắm bắt chính xác hơn các kết quả lâm sàng thực sự. Việc giám sát các thiết bị AI sau khi đưa ra thị trường cũng cần thiết để hiểu và đo lường các kết quả và sai lệch ngoài ý muốn không được phát hiện trong thử nghiệm đa trung tâm, trong tương lai.”

VentureBeat

Nhiệm vụ của VentureBeat là trở thành một quảng trường thành phố kỹ thuật số cho những người ra quyết định kỹ thuật có được kiến ​​thức về công nghệ chuyển đổi và giao dịch. Trang web của chúng tôi cung cấp thông tin cần thiết về công nghệ và chiến lược dữ liệu để hướng dẫn bạn khi bạn lãnh đạo tổ chức của mình. Chúng tôi mời bạn trở thành thành viên của cộng đồng của chúng tôi, để truy cập:

  • thông tin cập nhật về các chủ đề mà bạn quan tâm
  • bản tin của chúng tôi
  • nội dung dẫn dắt tư tưởng được kiểm soát và giảm giá quyền truy cập vào các sự kiện được đánh giá cao của chúng tôi, chẳng hạn như Chuyển đổi 2021: Tìm hiểu thêm
  • các tính năng mạng và hơn thế nữa

Trở thành thành viên

Nguồn: https://vojibeat.com/2021/04/12/some-fda-approved-ai-medical-devices-are-not-adequately-evaluated-stanford-study-says/

Dấu thời gian:

Thêm từ VentureBeat