Google AI Researchers Are Dreaming Up A New Species Of Search Engine

הועלה מחדש על ידי אפלטון

עוקב: 0

תאר לעצמך אוסף ספרים - אולי מיליונים ואפילו מיליארדים מהם - שהושלכו באקראי לערימה גדושה בשדה. כל יום הערימה צומחת באופן אקספוננציאלי.

ספרים אלה שופעים ידע ותשובות. אך כיצד ימצא אותם מבקשים? חסר ארגון, הספרים חסרי תועלת.

זהו האינטרנט הגולמי במלוא הדרו ללא סינון. זו הסיבה שרוב החיפושים שלנו ל"הארה "ברשת מתחילים בגוגל (וכן, יש עדיין מנועי חיפוש אחרים). המחושים האלגוריתמיים של גוגל סורקים ומוסיפים אינדקס של כל ספר בערימה הלא-טובה הזו. כשמישהו נכנס לשאילתה בסרגל החיפוש, אלגוריתם החיפוש מכה באמצעות גרסת האינטרנט האינדקסית שלו, מציג דפים ומציג אותם ברשימה המדורגת של הלהיטים המובילים.

גישה זו שימושית להפליא. כל כך שימושי, למעשה, שהוא לא השתנה באופן מהותי כבר למעלה משני עשורים. אך כעת, חוקרי AI ב- Google, אותה החברה שהציבה מלכתחילה את הרף של מנועי החיפוש, משרטטים שרטוט למה שעומד לעלות בהמשך.

ב נייר בשרת ההדפסה מראש של arXivהצוות מציע שהטכנולוגיה להפיכת האינטרנט לחיפוש עוד יותר נמצאת בקצות אצבעותינו. הם אומרים מודלים גדולים לשפה -אלגוריתמים ללימוד מכונה כמו GPT-3 של OpenAI—יכול להחליף לחלוטין את מערכת האינדקס של ימינו, לאחזר ואז לדרג.

האם AI הוא מנוע החיפוש של העתיד?

כאשר הם מחפשים מידע, רוב האנשים ישמחו לשאול מומחה ולקבל תגובה ניואנסית ואמינה, כותבים המחברים. במקום זאת הם עושים את זה בגוגל. זה יכול לעבוד, או להשתבש נורא. כמו כשאתה נשאב חור ארנב מבוהל וקשור לבריאות בשתיים לפנות בוקר.

למרות שמנועי חיפוש מגלים מקורות (בתקווה איכותיים) המכילים לפחות חלקי תשובה, הנטל הוא על המחפש לסרוק, לסנן ולקרוא את התוצאות כדי לחבר את התשובה כמיטב יכולתם.

תוצאות החיפוש שיפרו את קפיצת הדרך עם השנים. ובכל זאת, הגישה רחוקה מלהיות מושלמת.

ישנם כלי שאלה ותשובה, כמו Alexa, Siri ו- Google Assistant. אך כלים אלה שבירים, עם רפרטואר מוגבל (אם כי הולך וגדל) של שאלות שהם יכולים להעלות. למרות שיש להם חסרונות משלהם (עוד על אלה למטה), מודלים גדולים של שפה כמו GPT-3 הם הרבה יותר גמישים ויכולים לבנות תשובות חדשות בשפה טבעית לכל שאילתה או בקשה.

צוות גוגל מציע כי הדור הבא של מנועי החיפוש עשוי לסנתז את הטוב שבכל העולמות, ולקפל את מערכות אחזור המידע המובילות בימינו לתוך AI בקנה מידה גדול.

ראוי לציין כי למידת מכונה כבר פועלת במנועי חיפוש קלאסיים לאחזור אינדקסים ואז לדרג. אך במקום להגדיל את המערכת בלבד, המחברים מציעים שלימוד מכונה יכול להחליף אותה לחלוטין.

"מה היה קורה אם ניפטר לחלוטין מתפיסת המדד ונחליף אותו במודל גדול שהוכשר מראש, המקודד ביעילות וביעילות את כל המידע הכלול בקורפוס?" דונלד מצלר ושותפי מחבר כותבים בעיתון. "מה אם ההבחנה בין אחזור לדירוג תיעלם ובמקום זה היה שלב לייצור תגובה יחיד?"

תוצאה אידיאלית אחת שהם צופים היא קצת כמו המחשב של חברת החלל Enterprise מסע בין כוכבים. מחפשי מידע מציבים שאלות, המערכת עונה בשיחה - כלומר עם תשובה בשפה טבעית כפי שהיית מצפה ממומחה - וכוללת בתשובה ציטוטים סמכותיים.

בעיתון, המחברים משרטטים את מה שהם מכנים דוגמה שאפתנית לאופן שבו גישה זו עשויה להראות בפועל. משתמש שואל: "מה היתרונות הבריאותיים של יין אדום?" המערכת מחזירה תשובה ניואנית בפרוזה ברורה ממספר מקורות סמכותיים - במקרה זה WebMD ו- Mayo Clinic - המדגישה את היתרונות והסיכונים הפוטנציאליים של שתיית יין אדום.

עם זאת, זה לא צריך להסתיים. הכותבים מציינים כי יתרון נוסף של מודלים גדולים בשפה הוא היכולת שלהם ללמוד משימות רבות עם מעט צביטות (זה ידוע בשם למידה חד-זרבית או מעט-זריקה). אז יתכן שהם יוכלו לבצע את כל אותן המשימות שמנועי החיפוש הנוכחיים מבצעים, ועשרות נוספות גם כן.

עדיין רק חזון

כיום החזון הזה נמצא מחוץ להישג יד. מודלים גדולים בשפה הם מה שהמחברים מכנים "דילנטים".

אלגוריתמים כמו GPT-3 יכולים לייצר פרוזה שלעיתים כמעט ואינה ניתנת להבחנה בין קטעים שנכתבו על ידי בני אדם, אך הם גם עדיין נוטים לתשובות שטויות. גרוע מכך, הם משקפים ללא הרף הטיות המוטמעות בנתוני האימון שלהם, אין להם שום תחושה של הבנה בהקשר, ואינם יכולים לצטט מקורות (או אפילו להפריד בין מקורות באיכות גבוהה ובאיכות נמוכה) כדי להצדיק את תשובותיהם.

"הם נתפסים יודעים הרבה אבל הידע שלהם עמוק בעור," כותבים המחברים. העיתון מציג גם פריצות דרך הדרושות כדי לגשר על הפער. ואכן, רבים מהאתגרים שהם מתווים חלים על התחום בכלל.

התקדמות מרכזית תהיה מעבר אלגוריתמים המדגימים רק את היחסים בין מונחים (כגון מילים בודדות) לאלגוריתמים המדגמים גם את הקשר בין מילים במאמר, למשל, לבין המאמר בכללותו. בנוסף, הם גם היו מודלים את היחסים בין מאמרים רבים ושונים ברחבי האינטרנט.

החוקרים צריכים גם להגדיר מהי תגובה איכותית. זו כשלעצמה אינה משימה קלה. אבל בתור התחלה, המחברים מציעים שתגובות באיכות גבוהה צריכות להיות סמכותיות, שקופות, חסרות פניות, נגישות ולהכיל נקודות מבט מגוונות.

אפילו האלגוריתמים החדישים ביותר כיום אינם מתקרבים לסרגל זה. וזה לא יהיה חכם לפרוס מודלים של שפות טבעיות בקנה מידה זה עד שייפתרו. אבל אם נפתר - וכבר יש עבודה כדי לטפל חלק מהאתגרים הללו- מנועי חיפוש לא יהיו היישומים היחידים שייהנו.

'אפור מוקדם, חם'

זה חזון מפתה. סירוק בדפי אינטרנט בחיפוש אחר תשובות תוך ניסיון לקבוע מה אמין ומה לא יכול להיות מתיש.

אין ספק שרבים מאיתנו לא עושים את העבודה כמו שאנחנו יכולים או צריכים.

אבל כדאי גם לשער כיצד גישה לאינטרנט כזה תשנה את הדרך בה אנשים תורמים לה.

אם אנו צורכים בעיקר מידע על ידי קריאת תגובות פרוזאיות המסונתזות על ידי אלגוריתמים - בניגוד לפתיחה וקריאה של הדפים הבודדים עצמם - האם יוצרים יפרסמו עבודה כה רבה? ואיך גוגל ויצרני מנועי חיפוש אחרים יפצו את היוצרים שבעצם, הם מייצרים את המידע שמאמן את האלגוריתמים עצמם?

עדיין יהיו הרבה אנשים שקוראים את החדשות, ובמקרים אלה אלגוריתמי חיפוש יצטרכו להגיש רשימות של סיפורים. אבל אני תוהה אם עשויה להתרחש שינוי עדין שבו יוצרים קטנים יותר מוסיפים פחות, ובכך, את האינטרנט הופך להיות פחות עשיר במידע, מחליש את האלגוריתמים התלויים במידע זה.

אין שום דרך לדעת. לעיתים קרובות, ספקולציות נעוצות בבעיות של ימינו ומוכיחות חפות בדיעבד. בינתיים העבודה ללא ספק תימשך.

אולי נפתור את האתגרים האלה - ועוד ככל שהם מתעוררים - ובתוך כך נגיע לאותו יודע-הכל, פטפטני נעים מסע בין כוכבים מחשב שכבר דמיינו.

תמונת אשראי: JD X / Unsplash

מקור: https://singularityhub.com/2021/05/16/google-ai-researchers-are-dreaming-up-a-new-species-of-search-engine/

בול זמן: מאי 16, 2021