การศึกษาของสแตนฟอร์ดกล่าวว่าอุปกรณ์ทางการแพทย์ AI ที่ได้รับการรับรองจาก FDA บางส่วนไม่ได้รับการประเมินอย่างเพียงพอ

โหนดต้นทาง: 808637

เข้าร่วม Transform 2021 12-16 กรกฎาคมนี้ ลงทะเบียนสำหรับr งาน AI แห่งปี.


อุปกรณ์ทางการแพทย์ที่ขับเคลื่อนด้วย AI บางตัวได้รับการอนุมัติจากสำนักงานคณะกรรมการอาหารและยาแห่งสหรัฐอเมริกา (FDA) มีความเสี่ยงต่อการเปลี่ยนแปลงข้อมูลและอคติต่อผู้ป่วยที่มีบทบาทน้อย นั่นเป็นไปตามสแตนฟอร์ด ศึกษา ตีพิมพ์ใน แพทย์ธรรมชาติ เมื่อสัปดาห์ที่แล้ว ซึ่งพบว่าแม้ AI จะฝังอยู่ในอุปกรณ์ทางการแพทย์มากขึ้น โดย FDA อนุมัติอุปกรณ์ AI มากกว่า 65 เครื่องในปีที่แล้ว ความแม่นยำของอัลกอริธึมเหล่านี้ไม่จำเป็นต้องได้รับการศึกษาอย่างเข้มงวด

แม้ว่าชุมชนนักวิชาการได้เริ่มพัฒนาแนวทางสำหรับการทดลองทางคลินิกของ AI แล้ว แต่ก็ยังไม่มีแนวทางปฏิบัติสำหรับการประเมินอัลกอริธึมเชิงพาณิชย์ ในสหรัฐอเมริกา FDA มีหน้าที่อนุมัติอุปกรณ์การแพทย์ที่ขับเคลื่อนด้วย AI และหน่วยงานจะเผยแพร่ข้อมูลเกี่ยวกับอุปกรณ์เหล่านี้เป็นประจำรวมถึงข้อมูลประสิทธิภาพ

ผู้เขียนร่วมของการวิจัยของสแตนฟอร์ดได้สร้างฐานข้อมูลของอุปกรณ์ AI ทางการแพทย์ที่ได้รับการอนุมัติจาก FDA และวิเคราะห์ว่าแต่ละอุปกรณ์ได้รับการทดสอบอย่างไรก่อนที่จะได้รับการอนุมัติ อุปกรณ์ที่ขับเคลื่อนโดย AI เกือบทั้งหมด — 126 จาก 130 เครื่อง — ได้รับการอนุมัติจาก FDA ระหว่างเดือนมกราคม 2015 ถึงธันวาคม 2020 ได้รับการศึกษาย้อนหลังเมื่อยื่นข้อเสนอเท่านั้น และไม่มีอุปกรณ์ที่มีความเสี่ยงสูงที่ได้รับอนุมัติจาก 54 เครื่องที่ได้รับการประเมินโดยการศึกษาในอนาคต ซึ่งหมายความว่าข้อมูลการทดสอบจะถูกเก็บรวบรวมก่อนที่อุปกรณ์จะได้รับการอนุมัติ มากกว่าที่จะเกิดขึ้นพร้อมกันกับการใช้งาน

ผู้เขียนร่วมให้เหตุผลว่าการศึกษาในอนาคตมีความจำเป็น โดยเฉพาะอย่างยิ่งสำหรับอุปกรณ์การแพทย์ AI เนื่องจากการใช้งานภาคสนามอาจเบี่ยงเบนไปจากการใช้งานที่ตั้งใจไว้ ตัวอย่างเช่น อุปกรณ์วินิจฉัยโดยใช้คอมพิวเตอร์ช่วยส่วนใหญ่ได้รับการออกแบบให้เป็นเครื่องมือสนับสนุนการตัดสินใจมากกว่าเครื่องมือวินิจฉัยหลัก การศึกษาในอนาคตอาจเปิดเผยว่าแพทย์ใช้อุปกรณ์ในการวินิจฉัยในทางที่ผิด ซึ่งนำไปสู่ผลลัพธ์ที่แตกต่างจากที่คาดหวัง

มีหลักฐานบ่งชี้ว่าการเบี่ยงเบนเหล่านี้สามารถนำไปสู่ข้อผิดพลาดได้ การติดตามโดยหน่วยงานความปลอดภัยของผู้ป่วยเพนซิลเวเนียในแฮร์ริสเบิร์กพบว่าตั้งแต่มกราคม 2016 ถึงธันวาคม 2017 ระบบ EHR รับผิดชอบต่อ 775 ปัญหาในระหว่างการทดสอบในห้องปฏิบัติการในรัฐ โดยมีปฏิสัมพันธ์ระหว่างมนุษย์กับคอมพิวเตอร์รับผิดชอบ 54.7% ของเหตุการณ์และ 45.3% ที่เหลือเกิดจาก คอมพิวเตอร์. นอกจากนี้ ร่างรายงานของรัฐบาลสหรัฐฯ ที่ออกในปี 2018 พบว่าแพทย์ไม่พลาดการแจ้งเตือนอย่างผิดปกติ ซึ่งได้รับข้อมูลจาก AI บ้าง ตั้งแต่ประเด็นเล็กน้อยเกี่ยวกับการโต้ตอบของยาไปจนถึงความเสี่ยงที่ร้ายแรง

นักวิจัยของสแตนฟอร์ดยังพบว่าผู้ป่วยขาดความหลากหลายในการทดสอบที่ดำเนินการบนอุปกรณ์ที่ได้รับการรับรองจาก FDA ในบรรดาอุปกรณ์ 130 เครื่องนั้น 93 เครื่องไม่ผ่านการประเมินแบบหลายไซต์ ขณะที่ 4 เครื่องได้รับการทดสอบที่ไซต์เดียวและ 8 อุปกรณ์ในสองไซต์เท่านั้น และรายงานสำหรับอุปกรณ์ 59 เครื่องไม่ได้ระบุขนาดตัวอย่างของการศึกษา จากการศึกษาอุปกรณ์ 71 รายการที่มีข้อมูลนี้ ขนาดมัธยฐานคือ 300 และการศึกษาอุปกรณ์เพียง 17 รายการได้พิจารณาว่าอัลกอริทึมอาจทำงานอย่างไรในกลุ่มผู้ป่วยต่างๆ

ส่วนหนึ่งเนื่องจากการไม่เปิดเผยโค้ด ชุดข้อมูล และเทคนิคต่างๆ ข้อมูลส่วนใหญ่ที่ใช้ในปัจจุบันเพื่อฝึกอัลกอริทึม AI สำหรับการวินิจฉัยโรคอาจส่งผลต่อความไม่เท่าเทียมกัน การศึกษาก่อนหน้านี้ได้แสดงให้เห็น ทีมนักวิทยาศาสตร์จากสหราชอาณาจักร พบ ชุดข้อมูลโรคตาเกือบทั้งหมดมาจากผู้ป่วยในอเมริกาเหนือ ยุโรป และจีน ซึ่งหมายความว่าอัลกอริธึมการวินิจฉัยโรคตามีความแน่นอนน้อยกว่าที่จะทำงานได้ดีสำหรับกลุ่มตามเชื้อชาติจากประเทศที่ด้อยโอกาส ในอีกที่หนึ่ง ศึกษานักวิจัยจากมหาวิทยาลัยโตรอนโต, Vector Institute และ MIT พบว่าชุดข้อมูล X-ray ทรวงอกที่ใช้กันอย่างแพร่หลาย เปลี่ยนเป็นรหัส อคติทางเชื้อชาติ เพศ และอคติทางสังคมและเศรษฐกิจ

นอกเหนือจากความท้าทายของชุดข้อมูลพื้นฐานแล้ว โมเดลที่ไม่มีการตรวจสอบโดยเพื่อนที่เพียงพออาจพบกับอุปสรรคที่ไม่คาดคิดเมื่อนำไปใช้ในโลกแห่งความเป็นจริง นักวิทยาศาสตร์ที่ Harvard พบ ว่าอัลกอริธึมที่ได้รับการฝึกฝนให้รู้จักและจำแนกการสแกน CT อาจกลายเป็นรูปแบบการสแกนจากผู้ผลิตเครื่อง CT บางราย ในขณะเดียวกัน ที่เผยแพร่โดย Google whitepaper เปิดเผยความท้าทายในการใช้ระบบพยากรณ์โรคตาในโรงพยาบาลของประเทศไทย รวมถึงปัญหาด้านความแม่นยำในการสแกน และการศึกษาที่ดำเนินการโดยบริษัทเช่น สุขภาพบาบิโลนการเริ่มต้น telemedicine ที่ได้รับทุนสนับสนุนอย่างดีซึ่งอ้างว่าสามารถแยกแยะโรคต่าง ๆ จากข้อความได้ถูกถามซ้ำแล้วซ้ำอีก

ผู้เขียนร่วมของการศึกษา Stanford ยืนยันว่าข้อมูลเกี่ยวกับจำนวนไซต์ในการประเมินจะต้อง "รายงานอย่างสม่ำเสมอ" เพื่อให้แพทย์ นักวิจัย และผู้ป่วยสามารถตัดสินใจอย่างมีข้อมูลเกี่ยวกับความน่าเชื่อถือของอุปกรณ์การแพทย์ AI ที่ให้มา การประเมินหลายไซต์มีความสำคัญสำหรับการทำความเข้าใจอคติและความน่าเชื่อถือของอัลกอริทึม และสามารถช่วยในการบัญชีสำหรับความผันแปรในอุปกรณ์ มาตรฐานช่างเทคนิค รูปแบบการจัดเก็บภาพ ส่วนประกอบทางประชากร และความชุกของโรค

"การประเมินประสิทธิภาพของอุปกรณ์ AI ในสถานที่ทางคลินิกหลายแห่งมีความสำคัญต่อการตรวจสอบให้แน่ใจว่าอัลกอริทึมทำงานได้ดีในกลุ่มประชากรที่เป็นตัวแทน" ผู้เขียนร่วมเขียน “การส่งเสริมการศึกษาในอนาคตด้วยการเปรียบเทียบกับมาตรฐานการดูแลช่วยลดความเสี่ยงของการใส่มากเกินไปที่เป็นอันตรายและจับภาพผลลัพธ์ทางคลินิกที่แท้จริงได้แม่นยำยิ่งขึ้น การเฝ้าระวังหลังการขายของอุปกรณ์ AI ยังจำเป็นสำหรับการทำความเข้าใจและการวัดผลลัพธ์ที่ไม่ได้ตั้งใจและอคติที่ไม่ถูกตรวจพบในการทดลองแบบหลายศูนย์ในอนาคต”

VentureBeat

ภารกิจของ VentureBeat คือการเป็นจัตุรัสกลางเมืองดิจิทัลสำหรับผู้มีอำนาจตัดสินใจด้านเทคนิคเพื่อรับความรู้เกี่ยวกับเทคโนโลยีการเปลี่ยนแปลงและการทำธุรกรรม เว็บไซต์ของเราให้ข้อมูลที่จำเป็นเกี่ยวกับเทคโนโลยีข้อมูลและกลยุทธ์เพื่อแนะนำคุณในขณะที่คุณเป็นผู้นำองค์กรของคุณ เราขอเชิญคุณเข้าร่วมเป็นสมาชิกของชุมชนของเราเพื่อเข้าถึง:

  • ข้อมูลล่าสุดเกี่ยวกับเรื่องที่คุณสนใจ
  • จดหมายข่าวของเรา
  • เนื้อหาที่เป็นผู้นำทางความคิดที่มีรั้วรอบขอบชิดและการเข้าถึงส่วนลดสำหรับกิจกรรมอันมีค่าของเราเช่น แปลงร่าง 2021: เรียนรู้เพิ่มเติม
  • คุณสมบัติระบบเครือข่ายและอื่น ๆ

เป็นสมาชิก

ที่มา: https://venturebeat.com/2021/04/12/some-fda-approved-ai-medical-devices-are-not-adequately-evaluated-stanford-study-says/

ประทับเวลา:

เพิ่มเติมจาก VentureBeat