כמה מכשירים רפואיים בינה מלאכותית שאושרו על ידי ה-FDA אינם מוערכים כראוי, אומר מחקר של סטנפורד

צומת המקור: 808637

הצטרף ל- Transform 2021 12-16 ביולי הקרוב. הירשם for אירוע ה- AI של השנה.


חלק מהמכשירים הרפואיים המופעלים על ידי בינה מלאכותית שאושרו על ידי מינהל המזון והתרופות האמריקאי (FDA) חשופים לשינויים בנתונים ולהטיה כלפי חולים מיוצגים בחסר. זה לפי סטנפורד ללמוד פורסם ב טבע רפואה בשבוע שעבר, שמצא כי גם כשבינה מלאכותית הופכת להיות מוטמעת בעוד מכשירים רפואיים - ה-FDA אישר בשנה שעברה למעלה מ-65 מכשירי בינה מלאכותית - הדיוק של האלגוריתמים הללו לא בהכרח נחקר בקפדנות.

למרות שהקהילה האקדמית החלה לפתח קווים מנחים לניסויים קליניים בינה מלאכותית, אין שיטות מבוססות להערכת אלגוריתמים מסחריים. בארה"ב, ה-FDA אחראי על אישור מכשירים רפואיים המופעלים על ידי בינה מלאכותית, והסוכנות מפרסמת באופן קבוע מידע על מכשירים אלו, כולל נתוני ביצועים.

מחברי המחקר של סטנפורד יצרו מסד נתונים של מכשירי AI רפואיים שאושרו על ידי ה-FDA וניתחו כיצד כל אחד מהם נבדק לפני שהוא קיבל אישור. כמעט כל המכשירים המופעלים על ידי AI - 126 מתוך 130 - שאושרו על ידי ה-FDA בין ינואר 2015 לדצמבר 2020 עברו רק מחקרים רטרוספקטיביים עם הגשתם, על פי החוקרים. ואף אחד מ-54 המכשירים שאושרו בסיכון גבוה לא הוערך על ידי מחקרים פרוספקטיביים, כלומר נתוני הבדיקה נאספו לפני אישור המכשירים ולא במקביל לפריסתם.

המחברים השותפים טוענים שמחקרים פרוספקטיביים נחוצים, במיוחד עבור מכשירים רפואיים בינה מלאכותית, מכיוון שהשימוש בשטח יכול לסטות מהשימוש המיועד. לדוגמה, רוב מכשירי האבחון הנעזרים במחשב מתוכננים להיות כלי תומכי החלטות ולא כלי אבחון ראשוניים. מחקר פרוספקטיבי עשוי לגלות שרופאים משתמשים לרעה במכשיר לצורך אבחון, מה שמוביל לתוצאות שונות ממה שניתן היה לצפות.

ישנן עדויות המצביעות על כך שהסטיות הללו יכולות להוביל לטעויות. מעקב על ידי הרשות לבטיחות חולים של פנסילבניה בהריסבורג מצא כי מינואר 2016 עד דצמבר 2017, מערכות EHR היו אחראיות ל-775 בעיות במהלך בדיקות מעבדה במדינה, כאשר אינטראקציות בין אדם למחשב אחראיות ל-54.7% מהאירועים ו-45.3% הנותרים נגרמו על ידי מחשב. יתרה מזאת, טיוטת דו"ח של ממשלת ארה"ב שפורסמה ב-2018 מצאה שרופאים לא פעם מחמיצים התראות - חלקם מיודע בינה מלאכותית - החל מבעיות קלות לגבי אינטראקציות בין תרופתיות לאלו המהוות סיכונים ניכרים.

החוקרים מסטנפורד מצאו גם חוסר בגיוון של המטופלים בבדיקות שנערכו במכשירים שאושרו על ידי ה-FDA. מבין 130 המכשירים, 93 לא עברו הערכה מרובה אתרים, בעוד 4 נבדקו רק באתר אחד ו-8 מכשירים בשני אתרים בלבד. והדוחות של 59 מכשירים לא הזכירו את גודל המדגם של המחקרים. מתוך 71 מחקרי התקנים שהיו להם מידע זה, הגודל החציוני היה 300, ורק 17 מחקרי מכשירים בחנו כיצד האלגוריתם עשוי להופיע בקבוצות חולים שונות.

חלקית בשל ההסתייגות משחרור קוד, מערכי נתונים וטכניקות, חלק ניכר מהנתונים המשמשים כיום לאימון אלגוריתמי AI לאבחון מחלות עלולים להנציח אי-שוויון, כך הראו מחקרים קודמים. צוות של מדענים מבריטניה מצא שכמעט כל מערכי הנתונים של מחלות עיניים מגיעים מחולים בצפון אמריקה, אירופה וסין, כלומר פחות בטוח שאלגוריתמים לאבחון מחלות עיניים יעבדו היטב עבור קבוצות גזעיות ממדינות שאינן מיוצגות. באחר ללמוד, חוקרים מאוניברסיטת טורונטו, מכון וקטור ו-MIT הראו כי מערכי נתונים של רנטגן חזה בשימוש נרחב לְהַצְפִּין הטיה גזעית, מגדרית וסוציו-אקונומית.

מעבר לאתגרי מערך הנתונים הבסיסיים, מודלים חסרי סקירת עמיתים מספקת יכולים להיתקל בחסימות דרכים בלתי צפויות כאשר הם נפרסים בעולם האמיתי. מדענים בהרווארד מצא שאלגוריתמים שהוכשרו לזהות ולסווג סריקות CT עלולים להיות מוטים כלפי פורמטי סריקה מיצרני מכשירי CT מסוימים. בינתיים, פורסם ב-Google סקירה טכנית חשף אתגרים ביישום מערכת לניבוי מחלות עיניים בבתי חולים בתאילנד, כולל בעיות עם דיוק הסריקה. ומחקרים שנערכו על ידי חברות כמו בריאות בבילון, סטארט-אפ ממומן היטב בתחום הרפואה, שטוען כי הוא מסוגל לבחון מגוון מחלות מהודעות טקסט, הוטל בספק שוב ושוב.

מחברי המחקר של סטנפורד טוענים שמידע על מספר האתרים בהערכה חייב להיות "לדווח באופן עקבי" על מנת שקלינאים, חוקרים ומטופלים יקבלו שיפוט מושכל לגבי המהימנות של מכשיר רפואי נתון בינה מלאכותית. הערכות מרובות אתרים חשובות להבנת הטיה ואמינות אלגוריתמית, הם אומרים, ויכולות לסייע בהתחשבות בשינויים בציוד, תקני טכנאים, פורמטים של אחסון תמונות, איפור דמוגרפי ושכיחות מחלות.

"הערכת הביצועים של מכשירי AI באתרים קליניים מרובים חשובה כדי להבטיח שהאלגוריתמים פועלים היטב באוכלוסיות מייצגות", כתבו השותפים. "עידוד מחקרים פרוספקטיביים בהשוואה לטיפול סטנדרטי מפחית את הסיכון להתאמת יתר מזיקה ולוכד בצורה מדויקת יותר את התוצאות הקליניות האמיתיות. מעקב אחרי שוק של מכשירי בינה מלאכותית נחוץ גם להבנה ולמדידה של תוצאות לא רצויות והטיות שאינן מזוהות בניסוי פרוספקטיבי, רב-מרכזי".

VentureBeat

המשימה של VentureBeat היא להיות כיכר עיר דיגיטלית עבור מקבלי החלטות טכניים כדי לקבל ידע על טכנולוגיה טרנספורמטיבית וביצוע עסקאות. האתר שלנו מספק מידע חיוני על טכנולוגיות נתונים ואסטרטגיות להנחות אותך בזמן שאתה מוביל את הארגונים שלך. אנו מזמינים אותך להיות חבר בקהילה שלנו, לגשת ל:

  • מידע עדכני בנושאים שמעניינים אותך
  • העלונים שלנו
  • תוכן מוביל מחשבה מגודר וגישה מוזלת לאירועים היקרים שלנו, כגון טרנספורמציה 2021: למד עוד
  • תכונות רשת ועוד

להיות חבר

מקור: https://venturebeat.com/2021/04/12/some-fda-approved-ai-medical-devices-are-not-adequately-evaluated-stanford-study-says/

בול זמן:

עוד מ VentureBeat