تقول دراسة ستانفورد إن بعض الأجهزة الطبية المعتمدة على الذكاء الاصطناعي والتي وافقت عليها إدارة الأغذية والعقاقير (FDA) لم يتم تقييمها "بشكل كافٍ".

عقدة المصدر: 808637

انضم إلى Transform 2021 في الفترة من 12 إلى 16 يوليو. سجل for حدث الذكاء الاصطناعي لهذا العام.


بعض الأجهزة الطبية التي تعمل بالذكاء الاصطناعي والمعتمدة من إدارة الغذاء والدواء الأمريكية (FDA) معرضة لتحولات البيانات والتحيز ضد المرضى ناقصي التمثيل. هذا وفقًا لجامعة ستانفورد دراسة نشرت في طبيعة الطب في الأسبوع الماضي ، وجدت أنه حتى مع دمج الذكاء الاصطناعي في المزيد من الأجهزة الطبية - وافقت إدارة الغذاء والدواء الأمريكية على أكثر من 65 جهازًا للذكاء الاصطناعي العام الماضي - لم تتم بالضرورة دراسة دقة هذه الخوارزميات بدقة.

على الرغم من أن المجتمع الأكاديمي قد بدأ في تطوير إرشادات للتجارب السريرية للذكاء الاصطناعي ، إلا أنه لا توجد ممارسات راسخة لتقييم الخوارزميات التجارية. في الولايات المتحدة ، تكون إدارة الغذاء والدواء (FDA) مسؤولة عن الموافقة على الأجهزة الطبية التي تعمل بالذكاء الاصطناعي ، وتصدر الوكالة بانتظام معلومات عن هذه الأجهزة بما في ذلك بيانات الأداء.

أنشأ المؤلفون المشاركون في بحث ستانفورد قاعدة بيانات لأجهزة الذكاء الاصطناعي الطبية المعتمدة من إدارة الغذاء والدواء ، وقاموا بتحليل كيفية اختبار كل منها قبل أن تحصل على الموافقة. وفقًا للباحثين ، فإن جميع الأجهزة التي تعمل بالذكاء الاصطناعي تقريبًا - 126 من أصل 130 - والتي وافقت عليها إدارة الغذاء والدواء بين يناير 2015 وديسمبر 2020 خضعت لدراسات رجعية فقط عند تقديمها. ولم يتم تقييم أي من الأجهزة عالية الخطورة المعتمدة البالغ عددها 54 من خلال الدراسات المستقبلية ، مما يعني أنه تم جمع بيانات الاختبار قبل الموافقة على الأجهزة بدلاً من أن تكون متزامنة مع نشرها.

يجادل المؤلفان المشاركان بأن الدراسات المستقبلية ضرورية ، خاصة بالنسبة للأجهزة الطبية التي تعمل بالذكاء الاصطناعي ، لأن الاستخدام الميداني يمكن أن ينحرف عن الاستخدام المقصود. على سبيل المثال ، تم تصميم معظم أجهزة التشخيص بمساعدة الكمبيوتر لتكون أدوات لدعم القرار بدلاً من أدوات التشخيص الأولية. قد تكشف دراسة مستقبلية أن الأطباء يسيئون استخدام جهاز للتشخيص ، مما يؤدي إلى نتائج تختلف عما هو متوقع.

هناك أدلة تشير إلى أن هذه الانحرافات يمكن أن تؤدي إلى أخطاء. وجد التتبع من قبل هيئة سلامة المرضى في ولاية بنسلفانيا في هاريسبرج أنه من يناير 2016 إلى ديسمبر 2017 ، كانت أنظمة السجلات الصحية الإلكترونية مسؤولة عن 775 مشكلة أثناء الاختبارات المعملية في الولاية ، حيث كانت التفاعلات بين الإنسان والحاسوب مسؤولة عن 54.7٪ من الأحداث و 45.3٪ المتبقية ناجمة عن كمبيوتر. علاوة على ذلك ، وجدت مسودة تقرير حكومي أمريكي صدر في عام 2018 أن الأطباء السريريين لا يفوتون بشكل غير مألوف التنبيهات - وبعضهم على علم بالذكاء الاصطناعي - بدءًا من المشكلات البسيطة المتعلقة بالتفاعلات الدوائية إلى تلك التي تشكل مخاطر كبيرة.

وجد باحثو ستانفورد أيضًا نقصًا في تنوع المرضى في الاختبارات التي أجريت على الأجهزة المعتمدة من قِبل إدارة الأغذية والعقاقير (FDA). من بين 130 جهازًا ، 93 لم يخضع لتقييم متعدد المواقع ، بينما تم اختبار 4 في موقع واحد فقط و 8 أجهزة في موقعين فقط. ولم تذكر تقارير 59 جهازًا حجم عينة الدراسات. من بين 71 دراسة للأجهزة تحتوي على هذه المعلومات ، كان الحجم المتوسط ​​300 ، و 17 دراسة فقط للجهاز نظرت في كيفية أداء الخوارزمية على مجموعات مختلفة من المرضى.

أظهرت الدراسات السابقة أن الكثير من البيانات المستخدمة اليوم لتدريب خوارزميات الذكاء الاصطناعي لتشخيص الأمراض قد تؤدي جزئيًا إلى التحفظ على إصدار التعليمات البرمجية ومجموعات البيانات والتقنيات. فريق من علماء المملكة المتحدة وجدت أن جميع مجموعات بيانات أمراض العيون تقريبًا تأتي من مرضى في أمريكا الشمالية وأوروبا والصين ، مما يعني أن خوارزميات تشخيص أمراض العيون أقل تأكيدًا من أنها تعمل بشكل جيد مع المجموعات العرقية من البلدان الممثلة تمثيلا ناقصا. في مكان آخر دراسةوأظهر باحثون من جامعة تورنتو ومعهد Vector ومعهد ماساتشوستس للتكنولوجيا أن مجموعات بيانات الأشعة السينية المستخدمة على نطاق واسع في الصدر ترميز التحيز العنصري والجنساني والاجتماعي والاقتصادي.

بخلاف تحديات مجموعة البيانات الأساسية ، يمكن أن تواجه النماذج التي تفتقر إلى مراجعة الأقران الكافية عوائق غير متوقعة عند نشرها في العالم الحقيقي. العلماء في جامعة هارفارد وجدت أن الخوارزميات المدربة على التعرف على عمليات التصوير المقطعي المحوسب وتصنيفها يمكن أن تصبح منحازة نحو تنسيقات المسح من بعض مصنعي أجهزة التصوير المقطعي المحوسب. في غضون ذلك ، نشر موقع جوجل المستند التقني كشفت التحديات في تنفيذ نظام التنبؤ بأمراض العيون في مستشفيات تايلاند ، بما في ذلك مشاكل دقة المسح. والدراسات التي أجرتها شركات مثل بابل الصحة، وهي شركة ناشئة في مجال الطب عن بعد ممولة تمويلًا جيدًا تدعي أنها قادرة على فرز مجموعة من الأمراض من الرسائل النصية ، وقد تم التشكيك فيها مرارًا وتكرارًا.

يجادل المؤلفون المشاركون في دراسة ستانفورد بأنه يجب "الإبلاغ باستمرار" عن المعلومات المتعلقة بعدد المواقع في التقييم حتى يتمكن الأطباء والباحثون والمرضى من إصدار أحكام مستنيرة حول موثوقية جهاز طبي معين يعمل بالذكاء الاصطناعي. تعتبر التقييمات متعددة المواقع مهمة لفهم التحيز الخوارزمي والموثوقية ، كما يقولون ، ويمكن أن تساعد في حساب الاختلافات في المعدات ، ومعايير الفنيين ، وتنسيقات تخزين الصور ، والتركيب الديموغرافي ، وانتشار الأمراض.

كتب المؤلفون المشاركون: "إن تقييم أداء أجهزة الذكاء الاصطناعي في مواقع إكلينيكية متعددة مهم لضمان أداء الخوارزميات بشكل جيد عبر مجموعات سكانية تمثيلية". "إن تشجيع الدراسات المستقبلية بالمقارنة مع معايير الرعاية يقلل من خطر الإفراط في التجهيز الضار ويلتقط بدقة أكبر النتائج السريرية الحقيقية. هناك حاجة أيضًا إلى مراقبة ما بعد البيع لأجهزة الذكاء الاصطناعي لفهم وقياس النتائج والتحيزات غير المقصودة التي لم يتم اكتشافها في التجارب المحتملة متعددة المراكز ".

VentureBeat

تتمثل مهمة VentureBeat في أن تكون ساحة المدينة الرقمية لصناع القرار التقنيين لاكتساب المعرفة حول التكنولوجيا التحويلية والمعاملات. يقدم موقعنا معلومات أساسية حول تقنيات واستراتيجيات البيانات لإرشادك وأنت تقود مؤسساتك. ندعوك لتصبح عضوًا في مجتمعنا ، للوصول إلى:

  • معلومات محدثة عن الموضوعات التي تهمك
  • رسائلنا الإخبارية
  • محتوى مبوب لرائد الفكر وإمكانية وصول مخفضة إلى الأحداث الثمينة لدينا ، مثل تحويل 2021: يتعلم أكثر
  • ميزات الشبكات والمزيد

تصبح عضوا

المصدر: https://venturebeat.com/2021/04/12/some-fda-approved-ai-medical-devices-are-not-adequately-evaluated-stanford-study-says/

الطابع الزمني:

اكثر من VentureBeat