Поиск изображений на основе сходства для изобразительного искусства

Исходный узел: 1384226

Поиск изображений на основе сходства, также известный как поиск изображений на основе контента, исторически был сложной задачей компьютерного зрения. Эта проблема особенно сложно для изобразительного искусства, потому что менее очевидно, как следует определять метрику «сходства» и кто должен устанавливать этот стандарт для искусства.

Например, когда я загружаю фотографию настенной росписи с изображением лица среди разноцветных прямоугольников и жирных линий (см. изображения ниже) в Google, чтобы найти похожие изображения, Google предоставляет мне множество вариантов в разделе «Визуально похожие изображения». Большинство изображений представляли собой настенные росписи, на которых на видном месте было изображено лицо; другие были чистыми картинами с лицом на нем. Все изображения охватывают большое разнообразие цветовых схем и стилистических фактур.

поиск изображений
Слева: фотография настенной росписи, сделанная Тимоном Клаузером (Unsplash).
Справа: снимок экрана из Google, изображения, которые Google считает похожими на эту фотографию.

2018 бумаги от Geirhos и др. [1] показали, что сверточные нейронные сети (CNN), обученные на ImageNet, смещены в сторону стилистической текстуры изображения. Чтобы вместо этого заставить CNN изучать представление на основе формы, исследователи применили передачу стиля в ImageNet, чтобы вместо этого создать набор данных «Stylized-ImageNet».

Я решил опираться на их результаты, чтобы исследовать влияние обучения пар произведений искусства из одних и тех же художественных стилей на модели, ориентированные на текстуру и форму. Сравнивая пары картин Винсента Ван Гога и Джорджии О'Киф, оба художника с очень разными художественными стилями, я обнаружил, что модель AlexNet, ориентированная на текстуру и обученная ImageNet, гораздо лучше справляется с сопоставлением произведений одних и тех же художников (рис. 1) по сравнению с моделью AlexNet, обученной Stylized-ImageNet с уклоном в форму (рис. 2).

Мой главный вывод из этого эксперимента состоял в том, что в оценке сходства изобразительного искусства, если бы мы считали произведения искусства одного и того же художника критерием сходства, тогда стилистическая фактура была куда важнее искать и сравнивать, чем представления формы. Однако оценка «стиля» кажется очень субъективным и человеческим процессом восприятия. Это открытие заставило меня еще больше задуматься о том, какие технические методы могут сочетать человеческие и количественные суждения при определении художественного сходства.

поиск изображений
Рисунок 1: Показатели корреляции при обучении на обученной ImageNet AlexNet (модель, ориентированная на текстуру). Обратите внимание, что оценки корреляции для пар изображений одного и того же исполнителя vangogh1-vangogh2 и okeeffe1-okeeffe2 намного выше, чем оценки для пар изображений разных исполнителей vangogh1-okeeffe1 и vangogh2-okeeffe2.
поиск изображений
Рисунок 2: Показатели корреляции при обучении на AlexNet, обученном Stylized-ImageNet (модель, ориентированная на форму). Обратите внимание, что показатели корреляции для пар изображений одного исполнителя vangogh1-vangogh2 и okeeffe1-okeeffe2 и пар изображений разных исполнителей vangogh1-okeeffe1 и vangogh2-okeeffe2 довольно близки.

2011 бумаги из Хьюз и др. [2] объединили количественные и психологические исследования, чтобы сделать вывод, что объединение информации о человеческом восприятии со статистическими представлениями искусства более высокого порядка было чрезвычайно эффективным в решении проблемы поиска произведений искусства на основе сходства. Человеческое восприятие художественного стиля обычно основано на качестве таких элементов, как линии, тени и цвет, которые трудно уловить с помощью статистики низкого порядка. Таким образом, эти исследователи подключились к пространственной статистике более высокого порядка и применили свои выводы для сравнения изобразительного искусства. Затем они провели психофизические эксперименты, в ходе которых участников попросили оценить сходство между парами произведений искусства, и использовали эти результаты в сочетании со своими прогностическими моделями.

Если этот подробный образовательный контент вам полезен, подпишитесь на нашу рассылку AI быть предупрежденным, когда мы выпустим новый материал. 

Количественный процесс и результаты

Хьюз и др. выполнили свое исследование на наборе данных из 308 изображений с высоким разрешением произведений искусства, охватывающих различных художников. Они использовали два метода декомпозиции изображений для извлечения признаков из изображений:

  • Фильтр Габора, который чувствителен к линиям и краям при определенных ориентациях и пространственных частотах
  • Модель разреженного кодирования, который изучает набор базовых функций, связанных со статистическими характеристиками изображения более высокого порядка.

Извлекая признаки, они затем сравнивали и оценивали эти художественные изображения по следующим четырем показателям:

  • Пиковая ориентация, который смотрит, в какой ориентации возникает пиковая амплитуда в двумерном преобразовании Фурье базисной функции, полученной из модели разреженного кодирования.
  • Пиковая пространственная частота, который смотрит, на какой пространственной частоте возникает пиковая амплитуда
  • Полоса пропускания ориентации, который измеряет, насколько избирательна базисная функция для этой предпочтительной ориентации
  • Пространственная полоса частот, который измеряет, насколько избирательна базисная функция для этой предпочтительной пространственной частоты

Затем исследователи изучили различные метрики расстояния (например, расхождение KL), чтобы сравнить распределения четырех вышеуказанных метрик и получить матрицы расстояний. Важно отметить, что, поскольку не существует истинной истины о стилистическом сходстве, исследователи сравнивали произведения искусства по истинной маркировке художника, т. е. всем картинам Пикассо присваивается одна и та же маркировка, поэтому матрицы расстояний были построены с учетом истинной маркировки художника. . Выполнение кластеризации k-средних с использованием различных показателей расстояния показало общий успех использования этих статистических представлений более высокого порядка для изображений изобразительного искусства (см. График ниже).

Источник: Хьюз и др. [2]

Психофизические эксперименты по сходству восприятия

Помимо разработки метода количественной характеристики стиля визуальный произведения искусства, исследователи провели два психофизических эксперимента, чтобы воспользоваться информацией человеческого восприятия. Они попросили участников оценить сходство между парами художественных изображений в абстрактном искусстве, пейзажах и портретах, объединив их ответы, чтобы создать матрицу сходства для каждой из трех категорий.

Эксперимент 1 стремился сравнить эффективность перцептивных суждений при прогнозировании стилистических отношений между произведениями искусства. Исследователи выставили по два изображения на каждую категорию изображений; затем они обучили регрессионную модель, используя расстояния на основе признаков, чтобы предсказать расстояние между двумя изображениями в соответствии с их предполагаемым сходством. С помощью изученных моделей они предсказали расстояния между протянутыми изображениями и тренировочными изображениями. Наконец, они сравнили предсказанное расстояние с реальным воспринимаемым расстоянием между изображениями.

Исследователи обнаружили, что информация о восприятии абстрактных и пейзажных произведений искусства позволяет делать статистически значимые прогнозы, которые говорят нам, что полезная статистическая информация существует не только в данных о сходстве восприятия, но также может использоваться для моделирования различий между произведениями изобразительного искусства.

Эксперимент 2 измерял степень, в которой ограниченная перцептивная информация из трех категорий изображений мог предсказать стилистические различия и отношения в больших наборах изображений, что имеет прямое отношение к задаче поиска изображений по сходству. Процесс был похож на эксперимент 1, только на этот раз они протянули 51 изображение по трем категориям и использовали оставшиеся изображения для создания матрицы перцептивного расстояния. Их предсказанная матрица расстояний предполагала, что даже при ограниченной информации о восприятии такая информация полезна для «управление способами, которыми мы объединяем статистические признаки, чтобы понять восприятие стиля».

Заключение

Таким образом, статья Хьюза и др. «Сравнение пространственной статистики высшего порядка и перцептивных суждений в стилометрическом анализе искусства» показала нам важность и необходимость объединения информации человеческого восприятия со статистической информацией более высокого порядка для оценки сходства Изобразительное искусство.

Все еще необходимо провести дополнительные психологические исследования для оценки того, как художественный стиль воспринимается, определяется и оценивается с точки зрения сходства. В своей статье они упоминают, что «в настоящее время… существует лишь несколько количественных исследований факторов, определяющих восприятие человеческого стиля».

Принимая во внимание более широкий контекст компьютерного зрения, также интересно подумать о необходимости статистических представлений художественного стиля более высокого порядка по аналогии с необходимостью более глубоких слоев свертки в CNN.

В целом, укоренение суждений в человеческом восприятии, а также оптимизация и использование всей доступной количественной информации является ключевым моментом при рассмотрении вопроса о том, как разработать лучшую систему поиска изображений на основе сходства для визуальных произведений искусства.

Рекомендации

[1] Гейрхос, Р., Рубиш, П., Михаэлис, К., Бетдж, М., Вичманн, Ф.А., и Брендель, В. «CNN, обученные ImageNet, склонны к текстуре; увеличение смещения формы повышает точность и надежность». ICLR 2019. Препринт arXiV: https://arxiv.org/abs/1811.12231.

[2] Хьюз, Дж. М., Грэм, Д. Д., Якобсен, К. Р., и Рокмор, Д. Н. «Сравнение пространственной статистики высшего порядка и суждений о восприятии в стилометрическом анализе искусства». 2011 19-я Европейская конференция по обработке сигналов. https://ieeexplore.ieee.org/abstract/document/7073967.

Кэтрин Йео — студентка Гарварда, изучающая компьютерные науки. Вы можете найти ее в Твиттере @katherinehyeo.

Эта статья была вдохновлена ​​гарвардским PSYCH 1406 «Биологические и искусственные визуальные системы: как люди и машины представляют визуальный мир». Спасибо профессору Джорджу Альваресу за его отзыв и руководство.

Эта статья изначально была опубликована в На пути к науке о данных и повторно опубликовано в TOPBOTS с разрешения автора.

Понравилась эта статья? Подпишитесь на новые обновления AI.

Мы сообщим вам, когда выпустим больше технического образования.

сообщение Поиск изображений на основе сходства для изобразительного искусства Появившийся сначала на ТОП-БОТЫ.

Отметка времени:

Больше от ТОП-БОТЫ