חלוץ המחשוב עוזר לבינה מלאכותית לראות | מגזין קוונטה

חלוץ המחשוב עוזר לבינה מלאכותית לראות | מגזין קוונטה

צומת המקור: 2345967

מבוא

מתי אלכסיי אפרוס עבר עם משפחתו מרוסיה לקליפורניה כנער בשנות ה-1980, הוא הביא את המחשב האישי שלו בנוי הסובייטי, Elektronika BK-0010. למכונה לא היה אחסון חיצוני והיא התחממה מדי כמה שעות, כך שכדי לשחק במשחקי וידאו, הוא היה צריך לכתוב קוד, לפתור בעיות ולשחק מהר - לפני שהמכונה נסגרת. המחזור הזה, שחזר על עצמו ברוב הימים, האיץ את הלמידה שלו.

"היה לי מזל גדול שהמחשב הסובייטי הזה לא היה טוב במיוחד!" אמר אפרוס, שצוחק בקלות ומדבר במבטא רוסי עדין. הוא לא משחק כל כך הרבה משחקים בימינו, אבל הנכונות הזו לחקור ולהפיק את המרב מהכלים שלו נשארת.

בבית הספר לתואר שני באוניברסיטת קליפורניה, ברקלי, החל אפרוס לטייל ולחקור את היופי הטבעי של אזור המפרץ. לא עבר זמן רב עד שהוא החל לשלב את התשוקה שלו למחשבים עם ההנאה שלו מהמראות הללו. הוא פיתח דרך לתקן חורים בתצלומים בצורה חלקה - למשל, החלפת פח אשפה שוגה בתצלום של יער סקויה בעצים בעלי מראה טבעי. Adobe Photoshop אימצה מאוחר יותר גרסה של הטכניקה לכלי "מילוי מודע לתוכן" שלה.

כעת, מדען מחשבים במעבדת המחקר לבינה מלאכותית של ברקלי, אפרוס משלבת מערכי נתונים מקוונים מסיביים עם אלגוריתמים של למידת מכונה כדי להבין, לדגמן וליצור מחדש את העולם החזותי. בשנת 2016 העניקה לו האגודה למכונות מחשוב פרס בתחום המחשוב על עבודתו ביצירת תמונות סינתטיות ריאליסטיות, המכנה אותו "אלכימאי תמונה".

מבוא

אפרוס אומר שלמרות מאמציהם של החוקרים, מכונות עדיין רואות באופן שונה באופן מהותי מאיתנו. "כתמי צבע ובהירות דורשים מאיתנו לחבר את מה שאנחנו רואים עכשיו לזיכרון שלנו איפה שראינו את הדברים האלה בעבר", אמר אפרוס. "החיבור הזה נותן משמעות למה שאנחנו רואים." לעתים קרובות מדי, מכונות רואות את מה שיש ברגע מבלי לחבר אותו למה שראו בעבר.

אבל להבדל יכולים להיות יתרונות. בראייה ממוחשבת, אפרוס מעריך את המיידיות שבידיעה אם אלגוריתם שנועד לזהות אובייקטים וסצינות עובד על תמונה. כמה משאלות ראיית המחשב שלו - כגון "מה גורם לפריז להיראות כמו פריז?" - בעלי נטייה פילוסופית. אחרים, כגון איך לטפל מתמשך הטיה במערכות נתונים, מעשיים ודוחקים.

"יש הרבה אנשים שעושים AI עם שפה כרגע", אמר אפרוס. "אני רוצה להסתכל על כל הדפוסים הוויזואליים שנותרו מאחור." על ידי שיפור הראייה הממוחשבת, לא רק שהוא מקווה ליישומים מעשיים טובים יותר, כמו מכוניות בנהיגה עצמית; הוא גם רוצה לכרות את התובנות האלה כדי להבין טוב יותר את מה שהוא מכנה "אינטליגנציה חזותית אנושית" - איך אנשים מבינים את מה שהם רואים.

מגזין Quanta נפגש עם אפרוס במשרדו בברקלי כדי לשוחח על כוחות-על מדעיים, הקושי בתיאור חזותיים ועד כמה מסוכנת באמת בינה מלאכותית. הראיון תמצה ונערך למען הבהירות.

מבוא

כיצד השתפרה ראיית המחשב מאז שהיית סטודנט?

כשהתחלתי את הדוקטורט שלי, לא היה כמעט שום דבר שימושי. כמה רובוטים הבריגו כמה ברגים באמצעות ראייה ממוחשבת, אבל זה היה מוגבל לסוג זה של סביבה תעשייתית מאוד מבוקרת. ואז, לפתע, המצלמה שלי זיהתה פרצופים ועשתה אותם חדים יותר.

כעת, ראייה ממוחשבת נמצאת במספר עצום של יישומים, כמו מכוניות בנהיגה עצמית. זה לוקח יותר זמן ממה שכמה אנשים חשבו בתחילה, אבל עדיין, יש התקדמות. עבור מישהו שלא נוהג, זה מרגש ביותר.

רגע, אתה לא נוהג?

לא, אני לא רואה מספיק טוב בשביל לנהוג! [צוחק.] עבורי, זה יהיה כל כך מחליף משחק - שתהיה לי מכונית שתסיע אותי למקומות.

לא הבנתי שהראייה שלך מונעת ממך לנהוג. האם אתה יכול לראות את התמונות שאתה עובד איתן על צג מחשב?

אם אעשה אותם מספיק גדולים. אתה יכול לראות שהגופנים שלי די גדולים. נולדתי לא רואה טוב. אני חושב שכל השאר הם מוזרים על שיש להם ראייה טובה בטירוף.

האם הסטטוס הלא מוזר שלך השפיע על כיוון המחקר שלך?

מי יודע? בהחלט לא הייתה תחושה של "אה, אני לא רואה טוב, אז אני הולך ליצור מחשבים שיראו טוב יותר." לא, אף פעם לא היה לי את זה בתור מוטיבציה.

כדי להיות מדען טוב, אתה צריך כוח על סודי. אתה צריך לעשות משהו טוב יותר מכל אחד אחר. הדבר הגדול במדע הוא שלא לכולנו יש את אותו כוח-על. אולי כוח העל שלי היה זה, בגלל שאני לא רואה טוב, אולי תהיה לי יותר תובנות לגבי בעיית הראייה.

מבוא

בשלב מוקדם הבנתי את החשיבות של נתונים קודמים כשמסתכלים על העולם. לא יכולתי לראות את עצמי היטב, אבל הזיכרון שלי מחוויות קודמות מילא את החורים מספיק כדי שאוכל לתפקד בעצם טוב כמו אדם רגיל. רוב האנשים לא יודעים שאני לא רואה טוב. זה נתן לי - אני חושב - את האינטואיציה הייחודית הזו שאולי זה קשור פחות לפיקסלים ויותר על הזיכרון.

מחשבים רואים רק את מה שיש עכשיו, בעוד שאנחנו רואים את הרגע מחובר לשטיח של כל מה שראינו בעבר.

האם אפשר בכלל לבטא במילים את הדפוסים החזותיים העדינים שגורמים למשל לפריז להיראות כמו פריז?

כשאתה בעיר מסוימת, לפעמים אתה פשוט יודע באיזו עיר אתה נמצא - יש את זה je ne הםאיס quoi, למרות שמעולם לא היית בפינת הרחוב המסוימת הזו. קשה מאוד לתאר את זה במילים, אבל זה נמצא ממש בפיקסלים.

[עבור פריז], אפשר לדבר על איך זה בדרך כלל בניינים בני שש קומות, ובדרך כלל יש מרפסות בקומה הרביעית. אפשר לנסח חלק מזה במילים, אבל הרבה דברים אינם לשוניים. בעיני זה מרגש.

העבודה האחרונה שלך כוללת ללמד מחשבים להכניס נתונים חזותיים בדרכים המחקות את הראייה האנושית. איך זה פועל?

נכון לעכשיו, למחשבים יש מערך נתונים עצום: מיליארדי תמונות אקראיות שנגרדו מהאינטרנט. הם מצלמים תמונות אקראיות, מעבדים תמונה אחת, ואז לוקחים תמונה אקראית אחרת, מעבדים אותה וכו'. אתה מאמן את המערכת [הוויזואלית של המחשב] שלך על ידי מעבר שוב ושוב על מערך הנתונים הזה.

הדרך שבה אנחנו - סוכנים ביולוגיים - בולעים נתונים היא שונה מאוד. כאשר אנו עומדים בפני סיטואציה חדשה, זו הפעם האחת והיחידה שהנתונים האלה יהיו שם עבורנו. מעולם לא היינו במצב המדויק הזה, בחדר הזה, עם התאורה הזו, לבושים כך. ראשית, אנחנו משתמשים בנתונים האלה כדי לעשות את מה שאנחנו צריכים לעשות, כדי להבין את העולם. לאחר מכן, אנו משתמשים בנתונים האלה כדי ללמוד מהם, [כדי לחזות] את העתיד.

מבוא

כמו כן, הנתונים שאנו רואים אינם אקראיים. מה שאתה רואה עכשיו קשור מאוד למה שראית לפני כמה שניות. אתה יכול לחשוב על זה כעל וידאו. כל הפריימים של הסרטון נמצאים בקורלציה זה לזה, וזה שונה מאוד מהאופן שבו מחשבים מעבדים את הנתונים.

אני מעוניין לגרום לגישת הלמידה שלנו להיות כזו שבה מחשבים רואים את הנתונים כפי שהם נכנסים, מעבדים אותם ולומדים מהם תוך כדי.

אני מתאר לעצמי שזה לא פשוט כמו שמחשבים יסתכלו בסרטונים במקום בתמונות סטילס.

לא, אתה עדיין צריך [מחשבים] כדי להסתגל. אני מעוניין ללמוד גישות שרואות את הנתונים כפי שהם נכנסים ואז מעבדים וללמוד מהם תוך כדי. גישה אחת שיש לנו ידועה בשם אימון בזמן מבחן. הרעיון הוא שכאשר אתה מסתכל על רצף של תמונות כמו סרטון, דברים עשויים להשתנות. אז אתה לא רוצה שהדגם שלך יתוקן. בדיוק כמו שגורם ביולוגי מסתגל תמיד לסביבתו, אנחנו רוצים שהמחשב יסתגל כל הזמן.

הפרדיגמה הסטנדרטית היא שאתה מתאמן תחילה על ערכת נתונים גדולים, ולאחר מכן אתה פורס. Dall·E ו-ChatGPT הוכשרו באינטרנט בסביבות 2021, ואז [הידע שלהם] קפא. ואז הוא פולט את מה שהוא כבר יודע. דרך טבעית יותר היא [אימון בזמן מבחן], לנסות לספוג את הנתונים וללמוד תוך כדי עבודה, לא לקיים שלבי הכשרה ופריסה נפרדים.

יש בהחלט בעיה עם מחשבים, הנקראת ה-domain shift או הטיית מערך הנתונים - הרעיון הזה שאם נתוני האימון שלך שונים מאוד מהנתונים שבהם אתה משתמש כשאתה פורס את המערכת, דברים לא יעבדו טוב מאוד. אנחנו מתקדמים קצת, אבל אנחנו עדיין לא ממש שם.

מבוא

האם הבעיה דומה לאופן שבו הבנקים מזהירים את המשקיעים שביצועי העבר עשויים שלא לחזות רווחים עתידיים?

זאת בדיוק הבעיה. בעולם האמיתי דברים משתנים. לדוגמה, אם עכבר שדה יגיע לבית, זה יצליח. לעולם לא תיפטר מהעכבר הזה! [צוחק.] הוא נולד בשדה, מעולם לא היה בבית לפני כן, ובכל זאת הוא ימצא ויאכל את כל האספקה ​​שלך. הוא מסתגל מהר מאוד, לומד ומסתגל לסביבה החדשה.

היכולת הזו לא קיימת במערכות הנוכחיות [ראייה ממוחשבת]. עם נהיגה עצמית, אם אתה מאמן מכונית בקליפורניה ואז אתה בודק אותה במינסוטה - בום! - יש שלג. הוא מעולם לא ראה שלג. זה מתבלבל.

עכשיו אנשים מתייחסים לזה על ידי קבלת כל כך הרבה נתונים ש[המערכת] ראתה הכל בעצם. אז זה לא צריך להסתגל. אבל זה עדיין מפספס אירועים נדירים.

זה נשמע שמערכות AI הן הדרך קדימה. איפה זה משאיר את בני האדם?

העבודה שיצאה מ-OpenAI הן בחזית הטקסט (ChatGPT) והן בחזית התמונה (Dall·E) הייתה מרגשת ומפתיעה להפליא. זה מאשר את הרעיון הזה שברגע שיש לך מספיק נתונים, שיטות פשוטות למדי יכולות להניב תוצאות מפתיעות לטובה.

מבוא

אבל ChatGPT גרם לי להבין שבני אדם אינם יצירתיים ויוצאי דופן כמו שאנחנו אוהבים לראות את עצמנו. רוב הזמן, מזהי הדפוסים בנו יכולים להשתלט. אנו מדברים במשפטים העשויים מביטויים או משפטים ששמענו בעבר. כמובן, יש לנו מעוף של מפואר ויצירתיות. אנחנו מסוגלים לעשות דברים שמחשבים לא יכולים לעשות - לפחות כרגע. אבל רוב הזמן, אנחנו יכולים להיות מוחלפים על ידי ChatGPT, ורוב האנשים לא ישימו לב.

זה משפיל. אבל זה גם מניע לפרוץ מהדפוסים האלה, לנסות לקבל יותר טיסות מפוארות, לא להיתקע בקלישאות ובפסטישים.

כמה מדענים הביעו דאגה לגבי הסיכונים שבינה מלאכותית מציבה לאנושות. האם אתה מודאג?

הרבה חוקרים שיש לי כבוד גדול אליהם הזהירו מפני בינה מלאכותית. אני לא רוצה לצמצם את המילים האלה. הרבה מהן נקודות תקפות. אבל צריך לשים את הדברים בפרספקטיבה.

נכון לעכשיו, הסכנה הגדולה ביותר לציוויליזציה אינה מגיעה ממחשבים אלא מבני אדם. ארמגדון גרעיני ושינויי אקלים הם דאגות דוחקות הרבה יותר. הפדרציה הרוסית תקפה את שכנתה התמימה לחלוטין. נולדתי ברוסיה, וזה מחריד במיוחד שבני ארצי לשעבר יכולים לעשות את זה. אני עושה כל שביכולתי כדי לוודא שזה יישאר נושא מספר אחד.

אנו עשויים לחשוב שמהפכת הבינה המלאכותית היא האירוע החשוב ביותר בחיינו. אבל מהפכת הבינה המלאכותית לא תהיה כלום אם לא נציל את העולם החופשי.

אז אתה לא דואג בכלל לגבי AI?

לא. אתה יודע, אני אוהב לדאוג. אני מודאג גדול! אבל אם פוטין הורס את העולם נמצא כאן [מרים יד לראשו] ושינויי האקלים כבר כאן [מוריד את היד לכתפיו], אז הבינה המלאכותית נמצאת כאן למטה [מורידה יד על רגליו]. זה שברירי אחוז מהדאגה שלי בהשוואה לפוטין ולשינויי האקלים.

בול זמן:

עוד מ קוונטמגזין