Docugami’s New Model For Understanding Documents Cuts Its Teeth On NASA Archives

הועלה מחדש על ידי אפלטון

עוקב: 0

אתה שומע כל כך הרבה על נתונים בימים אלה אתה עלול לשכוח שכמות עצומה מהעולם פועלת הלאה מסמכים: אוסף אמיתי של קבצים ופורמטים הטרוגניים בעלי ערך עצום אך לא תואם את העידן החדש של מסדי נתונים נקיים ומובנים. דוקוגאמי מתכננת לשנות את זה עם מערכת שמבינה באופן אינטואיטיבי כל סט של מסמכים ומוסיפה את תוכנם בצורה חכמה - ונאס"א כבר נמצאת על הסיפון.

אם המוצר של דוקוגמי יעבוד כמתוכנן, כל אחד יוכל לקחת ערימות של מסמכים שנצברו במהלך השנים ולהמיר אותם כמעט מיידית לסוג הנתונים שבעצם שימושיים לאנשים.

אם המוצר של דוקוגמי יעבוד כמתוכנן, כל אחד יוכל לקחת ערימות של מסמכים שנצברו במהלך השנים ולהמיר אותם כמעט מיידית לסוג הנתונים שבעצם שימושיים לאנשים.

כי מסתבר שניהול כמעט של כל עסק בסופו של דבר מייצר המון מסמכים. חוזים ותדריכים בעבודה משפטית, חוזי שכירות והסכמים בנדל"ן, הצעות ושחרורים בשיווק, תרשימים רפואיים ועוד ועוד. שלא לדבר על הפורמטים השונים: מסמכי וורד, קבצי PDF, סריקות של תדפיסי נייר של קבצי PDF מיוצאים מ-Word docs, וכולי.

במהלך העשור האחרון היה מאמץ לעצור את הבעיה הזו, אבל התנועה הייתה במידה רבה בצד הארגוני: שים את כל המסמכים שלך במקום אחד, שתף וערוך אותם בשיתוף פעולה. הבנת המסמך עצמו כמעט והושארה לאנשים המטפלים בהם, ומסיבה טובה - קשה להבין מסמכים!

תחשוב על חוזה שכירות. אנו בני האדם מבינים כאשר השוכר נקרא בשם ג'יל ג'קסון, שבהמשך, "השוכר" מתייחס גם לאותו אדם. יתר על כן, בכל אחד ממאה חוזים אחרים, אנו מבינים שהשוכרים במסמכים אלה זהים סוג של אדם או מושג בהקשר של המסמך, אבל לא זהה ממשי אדם. אלו הם מושגים שקשה להפתיע עבור מערכות למידת מכונה והבנת שפה טבעית לתפיסה ויישום. אולם אם ניתן היה לשלוט בהם, ניתן היה לחלץ כמות עצומה של מידע שימושי ממיליוני המסמכים המסובבים ברחבי העולם.

מה קורה, docx?

מייסד דוקוגאמי, ז'אן פאולי, אומר שהם פתחו את הבעיה לרווחה, ולמרות שזו טענה מרכזית, הוא אחד מהאנשים הבודדים שיכלו לעשות את זה בצורה אמינה. פאולי היה דמות מרכזית במיקרוסופט במשך עשרות שנים, ובין היתר עזר ליצור את פורמט ה-XML - אתה מכיר את כל הקבצים המסתיימים ב-x, כמו .docx ו-.xlsx? פאולי מודה להם לפחות בחלקו.

"נתונים ומסמכים זה לא אותו דבר," הוא אמר לי. "יש דבר אתה להבין, שנקרא מסמכים, ויש משהו ש מחשבים להבין, שנקרא נתונים. למה הם לא אותו דבר? אז העבודה הראשונה שלי [במיקרוסופט] הייתה ליצור פורמט שיכול לייצג מסמכים כנתונים. יצרתי XML עם חברים מהתעשייה, וביל קיבל את זה". (כן, הביל הזה.)

הפורמטים הפכו נפוצים בכל מקום, אך 20 שנה לאחר מכן אותה בעיה נמשכת, לאחר שגדלה בקנה מידה עם הדיגיטציה של תעשייה אחר תעשייה. אבל עבור פאולי הפתרון זהה. בבסיס ה-XML היה הרעיון שמסמך צריך להיות בנוי כמעט כמו דף אינטרנט: תיבות בתוך תיבות, שכל אחת מהן מוגדרת בבירור על ידי מטא נתונים - א. היררכי מודל המובן בקלות רבה יותר על ידי מחשבים.

איור המציג מסמך המתאים לחלקים ממסמך אחר.

קרדיט תמונה: דוקוגאמי

"לפני כמה שנים שתיתי את ה-AI kool-aid, קיבלתי את הרעיון להפוך מסמכים לנתונים. הייתי צריך אלגוריתם שמנווט את המודל ההיררכי, ואמרו לי שהאלגוריתם שאתה רוצה לא קיים", הסביר. "מודל ה-XML, שבו כל חלק נמצא בתוך אחר, ולכל אחד מהם יש שם אחר שיייצג את הנתונים שהוא מכיל - שלא נשוי למודל הבינה המלאכותית שיש לנו היום. זו רק עובדה. קיוויתי שאנשי הבינה המלאכותית ילכו ויקפצו על זה, אבל זה לא קרה". ("הייתי עסוק בלעשות משהו אחר," הוא הוסיף, כדי לסלוח את עצמו.)

חוסר התאימות למודל המחשוב החדש הזה לא אמור להפתיע - כל טכנולוגיה מתפתחת נושאת איתה הנחות ומגבלות מסוימות, ובינה מלאכותית התמקדה בכמה תחומים אחרים, חיוניים לא פחות, כמו הבנת דיבור וראייה ממוחשבת. הגישה הננקטת שם אינה תואמת את הצרכים של הבנה שיטתית של מסמך.

"אנשים רבים חושבים שמסמכים הם כמו חתולים. אתה מאמן את הבינה המלאכותית לחפש את העיניים שלהם, את הזנב שלהם... מסמכים הם לא כמו חתולים", אמר.

זה נשמע מובן מאליו, אבל זו מגבלה אמיתית. שיטות בינה מלאכותית מתקדמות כמו פילוח, הבנת סצנות, הקשר מולטי-מודאלי וכדומה הן כולן מעין זיהוי היפר-מתקדם של חתולים שעבר מעבר לחתולים כדי לזהות כלבים, סוגי מכוניות, הבעות פנים, מיקומים וכו'. מסמכים שונים מדי אחד מהשני, או בדרכים אחרות דומות מדי, מכדי שהגישות הללו יעשו הרבה יותר מאשר לסווג אותן באופן גס.

לגבי הבנת השפה, זה טוב במובנים מסוימים אבל לא בדרכים שפאולי היה צריך. "הם עובדים בערך ברמת השפה האנגלית", אמר. "הם מסתכלים על הטקסט אבל מנתקים אותו מהמסמך שבו הם מצאו אותו. אני אוהב אנשי NLP, חצי מהצוות שלי הוא אנשי NLP - אבל אנשי NLP לא חושבים על תהליכים עסקיים. אתה צריך לערבב אותם עם אנשי XML, אנשים שמבינים ראייה ממוחשבת, ואז אתה מתחיל להסתכל על המסמך ברמה אחרת".

דוקוגמי בפעולה

איור המראה אדם באינטראקציה עם מסמך דיגיטלי.

קרדיט תמונה: דוקוגאמי

המטרה של פאולי לא הייתה מושגת על ידי התאמת כלים קיימים (מעבר לפרימיטיבים בוגרים כמו זיהוי תווים אופטי), אז הוא הרכיב מעבדת AI פרטית משלו, שבה צוות רב-תחומי מתעסק מזה כשנתיים.

"עשינו מדע הליבה, במימון עצמי, במצב התגנבות, ושלחנו חבורה של פטנטים למשרד הפטנטים", אמר. "לאחר מכן הלכנו לראות את הון סיכון, ו-SignalFire בעצם התנדבה להוביל את סבב ה-Seed ב-10 מיליון דולר."

סיקור הסיבוב לא ממש נכנס לחוויה האמיתית של השימוש בדוקוגמי, אבל פאולי הוביל אותי דרך הפלטפורמה עם כמה מסמכים חיים. לא קיבלתי גישה בעצמי והחברה לא תספק צילומי מסך או וידאו, ואמרה שהיא עדיין עובדת על האינטגרציות ועל ממשק המשתמש, אז תצטרך להשתמש בדמיון שלך... אבל אם אתה מדמיין כמעט כל שירות SaaS ארגוני, אתה 90% מהדרך לשם.

כמשתמש, אתה מעלה כל מספר של מסמכים לדוקוגמי, מכמה תריסר ועד מאות או אלפים. אלה נכנסים לזרימת עבודה של הבנת מכונה שמנתחת את המסמכים, בין אם הם קובצי PDF סרוקים, קבצי Word או משהו אחר, לארגון היררכי בסגנון XML ייחודי לתוכן.

"נניח שיש לך 500 מסמכים, אנחנו מנסים לסווג את זה בקבוצות מסמכים, ה-30 האלה נראים אותו הדבר, ה-20 האלה נראים אותו הדבר, החמישה האלה ביחד. אנחנו מקבצים אותם עם שילוב של רמזים המגיעים מאיך שהמסמך נראה, על מה הוא מדבר, למה אנחנו חושבים שאנשים משתמשים בו וכו'", אמר פאולי. שירותים אחרים עשויים להבחין בהבדל בין חוזה שכירות ל-NDA, אבל המסמכים מגוונים מכדי להכנס לרעיונות מיומנים מראש של קטגוריות ולצפות שזה יסתדר. כל סט של מסמכים הוא בעל פוטנציאל ייחודי, ולכן Docugami מאמן את עצמו מחדש בכל פעם, אפילו עבור סט של אחד. "ברגע שאנו מקבצים אותם, אנו מבינים את המבנה וההיררכיה הכוללת של קבוצת המסמכים המסוימת הזו, כי כך מסמכים הופכים שימושיים: ביחד."

איור המציג מסמך שהופך לדוח ולגיליון אלקטרוני.

קרדיט תמונה: דוקוגאמי

זה לא רק אומר שהוא קולט טקסט בכותרת ויוצר אינדקס, או מאפשר לך לחפש מילים. הנתונים שנמצאים במסמך, למשל מי משלם למי, כמה ומתי ובאילו תנאים, כל זה הופך להיות מובנה וניתן לעריכה בהקשר של מסמכים דומים. (הוא מבקש קלט קטן כדי לבדוק שוב מה הוא הסיק).

זה יכול להיות קצת קשה לדמיין, אבל עכשיו רק דמיינו שאתם רוצים להרכיב דוח על ההלוואות הפעילות של החברה שלכם. כל מה שאתה צריך לעשות הוא להדגיש את המידע שחשוב לך במסמך לדוגמה - פשוטו כמשמעו, אתה פשוט לחץ על "ג'יין רו" ו-"$20,000" ו-"חמש שנים" בכל מקום שהם מתרחשים - ולאחר מכן בחר את המסמכים האחרים שאתה רוצה למשוך מידע מתאים מ. כמה שניות לאחר מכן יש לך גיליון אלקטרוני מסודר עם שמות, סכומים, תאריכים, כל מה שרצית מתוך סט המסמכים הזה.

כל הנתונים האלה אמורים להיות גם ניידים, כמובן - מתוכננות אינטגרציות עם צינורות ושירותים נפוצים אחרים בעסק, המאפשרים דוחות אוטומטיים, התראות אם הושגו תנאים מסוימים, יצירה אוטומטית של תבניות ומסמכים סטנדרטיים (לא עוד שמירה ישן בסביבה עם מדגיש לאן הולכים המנהלים).

זכור, כל זה חצי שעה לאחר שהעלית אותם מלכתחילה, אין צורך בתיוג או עיבוד מוקדם או ניקוי. וה-AI לא פועל מתוך איזו תפיסה מוקדמת או פורמט של איך נראה מסמך חכירה. זה למד את כל מה שצריך לדעת מהמסמכים שהעלית בפועל - איך הם בנויים, איפה דברים כמו שמות ותאריכים מופיעים ביחס אחד לשני, וכן הלאה. וזה עובד על פני אנכיים ומשתמש בממשק שכל אחד יכול להבין תוך כמה דקות. בין אם אתם עוסקים בהזנת נתונים בתחום הבריאות או בניהול חוזי בנייה, הכלי צריך להיות הגיוני.

ממשק האינטרנט שבו אתה בולע ויוצר מסמכים חדשים הוא אחד הכלים העיקריים, בעוד שהאחר חי בתוך וורד. שם Docugami פועל כמעין עוזר שמודע לחלוטין לכל מסמך אחר מכל סוג שאתה נמצא בו, כך שאתה יכול ליצור מסמכים חדשים, למלא מידע סטנדרטי, לציית לתקנות וכן הלאה.

אוקיי, אז עיבוד מסמכים משפטיים הוא לא בדיוק היישום המרגש ביותר של למידת מכונה בעולם. אבל לא הייתי כותב את זה (בכלל, שלא לדבר באורך כזה) אם לא הייתי חושב שזה עניין גדול. סוג זה של הבנה מעמיקה של סוגי מסמכים ניתן למצוא פה ושם בקרב תעשיות מבוססות עם סוגי מסמכים סטנדרטיים (כגון דוחות משטרתיים או רפואיים), אבל תהנה מחכה עד שמישהו יכשיר דגם מותאם לשירות השכרת הקיאקים שלך. אבל לעסקים קטנים יש לא פחות ערך כלוא במסמכים כמו לעסקים גדולים - והם לא יכולים להרשות לעצמם לשכור צוות של מדעני נתונים. ואפילו הארגונים הגדולים לא יכולים לעשות הכל באופן ידני.

האוצר של נאס"א

קרדיט תמונה: נאס"א

הבעיה קשה ביותר, אך לבני אדם נראית כמעט טריוויאלית. אתה או אני יכולים לעיין ב-20 מסמכים דומים וברשימה של שמות וסכומים בקלות, אולי אפילו בפחות זמן ממה שנדרש לדוקוגמי לזחול אותם ולהכשיר את עצמו.

אבל בינה מלאכותית, אחרי הכל, נועדה לחקות ולהתעלות מעל היכולת האנושית, וזה דבר אחד שמנהל חשבונות יעשה דוחות חודשיים על 20 חוזים - דבר אחר לעשות דו"ח יומי על אלף. עם זאת, דוקוגמי משיג את האחרון והראשון באותה קלות - וזה המקום שבו הוא משתלב הן במערכת הארגונית, שבה יש חשיבות מכרעת להגדלת פעולות מסוג זה, והן לנאס"א, שקבורה תחת צבר של תיעוד שממנו היא מקווה לאסוף נתונים נקיים. ותובנות.

אם יש דבר אחד שלנאס"א יש הרבה ממנו, זה מסמכים. הארכיונים המתוחזקים היטב שלו חוזרים להקמתו, ורבים חשובים זמינים באמצעים שונים - ביליתי הרבה שעות נעימות עיון במטמון המסמכים ההיסטוריים שלו.

אבל נאס"א לא מחפשת תובנות חדשות לגבי אפולו 11. באמצעות התוכניות הרבות שלו בעבר ובהווה, שידולים, תוכניות מענקים, תקציבים וכמובן פרויקטים הנדסיים, הוא מייצר כמות עצומה של מסמכים - אחרי הכל, הוא חלק מאוד מהבירוקרטיה הפדרלית. וכמו בכל ארגון גדול שהניירת שלו מתפרסת על פני עשרות שנים, מחסנית המסמכים של נאס"א מייצגת פוטנציאל לא מנוצל.

חוות דעת של מומחים, מבשרי מחקר, פתרונות הנדסיים ועוד תריסר קטגוריות של מידע חשוב נמצאות בקבצים שניתן לחפש בהם אולי על ידי התאמת מילים בסיסית, אך לא מובנים. האם לא יהיה נחמד שמישהו ב-JPL יכניס לראשו להסתכל על האבולוציה של עיצוב החרירים, ותוך מספר דקות יש לו רשימה מלאה ועדכנית של מסמכים בנושא זה, מאורגנת לפי סוג, תאריך, מחבר ו סטָטוּס? מה לגבי יועץ הפטנטים שצריך לספק למקבל מענק NIAC מידע על אמנות קודמת - האם הם לא צריכים להיות מסוגלים למשוך את הפטנטים והיישומים הישנים האלה בצורה ספציפית יותר מכל אחת עם מילת מפתח נתונה?

מענק ה-SBIR של נאס"א, שהוענק בקיץ שעבר, אינו מיועד לעבודה ספציפית, כמו איסוף כל המסמכים מסוג כזה או אחר ממרכז החלל ג'ונסון או משהו כזה. זה הסכם גישוש או חקירתי, כמו רבים מהמענקים האלה, ודוקוגמי עובד עם מדעני נאס"א על הדרכים הטובות ביותר ליישם את הטכנולוגיה בארכיונים שלהם. (אחד מהיישומים הטובים ביותר עשוי להיות ל- SBIR ולתוכניות מימון לעסקים קטנים אחרים עצמם.)

מענק SBIR נוסף עם ה-NSF שונה בכך, בעוד שב-NASA הצוות בוחן לארגן טוב יותר טונות של סוגים שונים של מסמכים עם קצת מידע חופף, ב-NSF הם שואפים לזהות טוב יותר "נתונים קטנים". "אנחנו מסתכלים על הדברים הזעירים, הפרטים הזעירים", אמר פאולי. "לדוגמה, אם יש לך שם, האם זה המלווה או הלווה? הרופא או שם המטופל? כשאתה קורא פנקס חולים מוזכר פניצילין, האם זה מרשם או אסור? אם יש קטע שנקרא אלרגיות ואחר שנקרא מרשמים, נוכל ליצור את הקשר הזה".

"אולי זה בגלל שאני צרפתי"

כאשר הצבעתי על התקציבים הקטנים למדי הכרוכים במענקי SBIR וכיצד החברה שלו לא יכלה לשרוד על אלה, הוא צחק.

"אה, אנחנו לא רצים על מענקים! זה לא העסק שלנו. עבורי, זו דרך לעבוד עם מדענים, עם המעבדות הטובות בעולם", הוא אמר, תוך שהוא מציין שפרויקטים רבים נוספים של מענקים נמצאים בפתח. "מדע עבורי הוא דלק. המודל העסקי פשוט מאוד - שירות שאתה מנוי אליו, כמו Docusign או Dropbox."

החברה רק עכשיו מתחילה את הפעילות העסקית האמיתית שלה, לאחר שיצרה כמה קשרים עם שותפי אינטגרציה ובודקים. אבל במהלך השנה הבאה היא תרחיב את הבטא הפרטית שלה ובסופו של דבר תפתח אותה - אם כי עדיין אין ציר זמן על זה.

"אנחנו מאוד צעירים. לפני שנה היינו כמו חמישה, שישה אנשים, עכשיו הלכנו והשגנו את ה-10 מיליון דולר בסיבוב ובום", אמר פאולי. אבל הוא בטוח שזה עסק שלא רק יהיה משתלם אלא ייצג שינוי חשוב באופן שבו חברות פועלות.

"אנשים אוהבים מסמכים. אולי זה בגלל שאני צרפתי", אמר, "אבל אני חושב שטקסט וספרים וכתיבה הם קריטיים - כך בדיוק עובדים בני אדם. אנחנו באמת חושבים שאנשים יכולים לעזור למכונות לחשוב טוב יותר, ומכונות יכולות לעזור לאנשים לחשוב טוב יותר".

מקור: https://techcrunch.com/2021/04/12/docugamis-new-model-for-understanding-documents-cuts-its-teeth-on-nasa-archives/

בול זמן: אפריל 12, 2021