Распаковка «черного ящика» для создания лучших моделей ИИ

Распаковка «черного ящика» для создания лучших моделей ИИ

Исходный узел: 1885922

Когда модели глубокого обучения развертываются в реальном мире, например, для обнаружения финансового мошенничества в результате операций с кредитными картами или выявления рака на медицинских изображениях, они часто могут превзойти людей.

Но что именно изучают эти модели глубокого обучения? Например, модель, обученная обнаруживать рак кожи на клинических изображениях, на самом деле изучает цвета и текстуры раковой ткани или она отмечает какие-то другие особенности или закономерности?

Эти мощные модели машинного обучения обычно основаны на искусственные нейронные сети который может иметь миллионы узлов, которые обрабатывают данные для прогнозирования. Из-за их сложности исследователи часто называют эти модели «черными ящиками», потому что даже ученые, которые их строят, не понимают всего, что происходит под капотом.

Стефани Егелка не устраивает это объяснение «черного ящика». Егелка, только что получившая штатную должность доцента кафедры электротехники и компьютерных наук Массачусетского технологического института, углубляется в глубокое обучение, чтобы понять, чему могут научиться эти модели и как они себя ведут, а также как встроить в эти модели определенную предварительную информацию.

«В конце концов, то, чему научит модель глубокого обучения, зависит от очень многих факторов. Но построение понимания, применимого на практике, поможет нам разработать лучшие модели, а также поможет нам понять, что происходит внутри них, чтобы мы знали, когда мы можем развернуть модель, а когда нет. Это очень важно», — говорит Джегелька, который также является членом Лаборатории компьютерных наук и искусственного интеллекта (CSAIL) и Института данных, систем и общества (IDSS).

Джегелька особенно заинтересован в оптимизации моделей машинного обучения, когда входные данные представлены в виде графиков. Данные графа создают определенные проблемы: например, информация в данных состоит как из информации об отдельных узлах и ребрах, так и из структуры — что с чем связано. Кроме того, графы обладают математическими симметриями, которые должны соблюдаться моделью машинного обучения, чтобы, например, один и тот же график всегда приводил к одному и тому же прогнозу. Встроить такие симметрии в модель машинного обучения обычно непросто.

Возьмем, к примеру, молекулы. Молекулы можно представить в виде графов с вершинами, соответствующими атомам, и ребрами, соответствующими химическим связям между ними. Фармацевтические компании могут захотеть использовать глубокое обучение для быстрого прогнозирования свойств многих молекул, сужая число, которое они должны физически протестировать в лаборатории.

Джегелька изучает методы построения математических моделей машинного обучения, которые могут эффективно использовать графические данные в качестве входных данных и выводить что-то еще, в данном случае предсказание химических свойств молекулы. Это особенно сложно, поскольку свойства молекулы определяются не только атомами внутри нее, но и связями между ними.  

Другие примеры машинного обучения на графах включают маршрутизацию трафика, разработку микросхем и рекомендательные системы.

Разработка этих моделей еще более усложняется тем фактом, что данные, используемые для их обучения, часто отличаются от данных, которые модели видят на практике. Возможно, модель была обучена с использованием небольших молекулярных графов или сетей трафика, но графы, которые она видит после развертывания, больше или сложнее.

В этом случае, что исследователи могут ожидать от этой модели, и будет ли она работать на практике, если реальные данные будут другими?

«Ваша модель не сможет изучить все из-за некоторых сложностей в информатике, но то, что вы можете узнать, а что нет, зависит от того, как вы настроите модель», — говорит Джегелька.

Она подходит к этому вопросу, сочетая свою страсть к алгоритмам и дискретной математике с интересом к машинному обучению.

От бабочек до биоинформатики

Егелька выросла в маленьком городке в Германии и заинтересовалась наукой, когда училась в старшей школе; поддерживающий учитель призвал ее принять участие в международном научном конкурсе. Она и ее товарищи по команде из США и Сингапура получили награду за созданный ими веб-сайт о бабочках на трех языках.

«Для нашего проекта мы сделали изображения крыльев с помощью сканирующего электронного микроскопа в местном университете прикладных наук. У меня также была возможность использовать высокоскоростную камеру в Mercedes Benz — эта камера обычно снимала двигатели внутреннего сгорания — которую я использовал для съемки замедленного видео движения крыльев бабочки. Это был первый раз, когда я действительно соприкоснулась с наукой и исследованиями», — вспоминает она.

Заинтригованный как биологией, так и математикой, Егелка решил изучать биоинформатику в Тюбингенском университете и Техасском университете в Остине. У нее было несколько возможностей для проведения исследований в качестве студента, в том числе стажировка в области вычислительной нейробиологии в Джорджтаунском университете, но она не знала, какую карьеру выбрать.

Когда она вернулась на последний год обучения в колледже, Егелька переехала к двум соседям по комнате, которые работали научными сотрудниками в Институте Макса Планка в Тюбингене.

«Они работали над машинным обучением, и мне это показалось очень крутым. Мне нужно было написать бакалаврскую диссертацию, поэтому я спросил в институте, есть ли у них проект для меня. Я начал заниматься машинным обучением в Институте Макса Планка, и мне это понравилось. Я так многому там научилась, и это было прекрасное место для исследований», — говорит она.

Она осталась в Институте Макса Планка, чтобы защитить магистерскую диссертацию, а затем защитила докторскую диссертацию по машинному обучению в Институте Макса Планка и Швейцарском федеральном технологическом институте..

Во время работы над докторской диссертацией она исследовала, как концепции дискретной математики могут помочь улучшить методы машинного обучения.

Обучение моделей обучению

Чем больше Джегелька узнавала о машинном обучении, тем больше ее интересовали проблемы понимания того, как ведут себя модели, и как управлять этим поведением.

«Вы можете многое сделать с помощью машинного обучения, но только если у вас есть правильная модель и данные. Это не просто черный ящик, когда вы бросаете его на данные, и он работает. На самом деле вам нужно подумать об этом, о его свойствах и о том, что вы хотите, чтобы модель узнала и сделала», — говорит она.

Получив степень доктора наук в Калифорнийском университете в Беркли, Джегелька увлеклась исследованиями и решила продолжить карьеру в академических кругах. Она присоединилась к факультету Массачусетского технологического института в 2015 году в качестве доцента.

«Что мне действительно понравилось в Массачусетском технологическом институте с самого начала, так это то, что люди действительно заботятся об исследованиях и творчестве. Это то, что я больше всего ценю в MIT. Здесь очень ценят оригинальность и глубину исследований», — говорит она.

Эта сосредоточенность на творчестве позволила Егелке исследовать широкий круг тем.

В сотрудничестве с другими преподавателями Массачусетского технологического института она изучает приложения машинного обучения в биологии, визуализации, компьютерном зрении и материаловедении.

Но что действительно движет Jegelka, так это исследование основ машинного обучения, а в последнее время — проблема надежности. Часто модель хорошо работает на обучающих данных, но ее производительность ухудшается, когда она развертывается на немного отличающихся данных. Включение в модель предварительных знаний может сделать ее более надежной, но понять, какая информация нужна модели для успеха и как ее встроить, не так просто, говорит она.

Она также изучает методы повышения производительности моделей машинного обучения для классификации изображений.

Модели классификации изображений есть везде: от систем распознавания лиц на мобильных телефонах до инструментов, выявляющих поддельные аккаунты в социальных сетях. Этим моделям требуются огромные объемы данных для обучения, но поскольку людям дорого маркировать миллионы изображений вручную, исследователи часто вместо этого используют немаркированные наборы данных для предварительной подготовки моделей.

Эти модели затем повторно используют представления, которые они изучили, когда они позже настраиваются для конкретной задачи.

В идеале исследователи хотят, чтобы модель как можно больше узнала во время предварительного обучения, чтобы она могла применить эти знания к своей последующей задаче. Но на практике эти модели часто изучают только несколько простых корреляций — например, одно изображение имеет солнечный свет, а другое — тень — и используют эти «ярлыки» для классификации изображений.

«Мы показали, что это проблема «контрастного обучения», которое является стандартным методом предварительного обучения, как теоретически, так и эмпирически. Но мы также показываем, что вы можете влиять на виды информации, которую модель научится представлять, изменяя типы данных, которые вы показываете модели. Это один шаг к пониманию того, что модели на самом деле будут делать на практике», — говорит она.

Исследователи до сих пор не понимают всего, что происходит внутри модели глубокого обучения, или деталей того, как они могут влиять на то, что модель изучает и как она себя ведет, но Джегелька с нетерпением ждет продолжения изучения этих тем.

«Часто в машинном обучении мы видим, что что-то происходит на практике, и пытаемся понять это теоретически. Это огромная проблема. Вы хотите построить понимание, которое соответствует тому, что вы видите на практике, чтобы вы могли работать лучше. Мы все еще только начинаем понимать это», — говорит она.

Вне лаборатории Егелка увлекается музыкой, искусством, путешествиями и ездой на велосипеде. Но в наши дни ей нравится проводить большую часть своего свободного времени с дочерью дошкольного возраста.

<!–
->

Отметка времени:

Больше от Блокчейн-консультанты