Görsel Sanatlar için Benzerliğe Dayalı Görsel Arama

Kaynak Düğüm: 1384226

İçerik tabanlı görüntü alımı olarak da bilinen benzerlik tabanlı görüntü arama, tarihsel olarak zorlu bir bilgisayarlı görme görevi olmuştur. Bu sorun özellikle görsel sanatlar için zordur, çünkü “benzerlik” ölçüsünün ne olarak tanımlanması gerektiği ve sanatta bu standardı kimin belirlemesi gerektiği daha az açıktır.

Örneğin, renkli dikdörtgenler ve kalın çizgiler arasında bir yüz içeren bir duvar resminin fotoğrafını (aşağıdaki resimlere bakın) benzer görselleri bulmak için Google'a yüklediğimde, Google bana "Görsel olarak benzer görseller" bölümü altında bir dizi seçenek sunuyor. Resimlerin çoğu, duvar resminde belirgin bir şekilde tasvir edilen bir yüzün yer aldığı duvar resimleriydi; diğerleri ise içinde yüz bulunan saf tablolardı. Tüm görüntüler çok çeşitli renk şemalarını ve stilistik dokuları kapsıyordu.

görsel arama
Solda: Timon Klauser (Unsplash) tarafından çekilen bir duvar resminin fotoğrafı.
Sağda: Google'ın bu fotoğrafa benzer görseller olarak değerlendirdiği görsellerin Google'dan alınan ekran görüntüsü.

Bir 2018 kâğıt Geirhos ve ark. [1], ImageNet üzerinde eğitilen evrişimli sinir ağlarının (CNN'lerin), görüntünün biçimsel dokusuna karşı önyargılı olduğunu ortaya çıkardı. Bunun yerine bir CNN'yi şekil tabanlı bir temsili öğrenmeye zorlamak için araştırmacılar, bunun yerine "Stilize-ImageNet" veri kümesi oluşturmak için ImageNet üzerinde stil aktarımı uyguladılar.

Aynı sanatsal tarzdaki sanat eserlerini çiftler halinde eğitmenin doku önyargılı ve şekil önyargılı model üzerindeki etkisini araştırmak için onların bulgularını temel almaya karar verdim. Her ikisi de çok farklı sanat tarzlarına sahip olan Vincent van Gogh ile Georgia O'Keeffe'nin resim çiftlerini karşılaştırırken, doku ağırlıklı ImageNet ile eğitilmiş AlexNet modelinin, aynı sanatçıların parçalarını ilişkilendirerek çok daha iyi bir iş çıkardığını buldum (Şekil 1) şekil önyargılı Stylized-ImageNet ile eğitilmiş AlexNet modeliyle karşılaştırıldığında (Şekil 2).

Bu deneyden çıkardığım ana sonuç şuydu: görsel sanatın benzerliğini değerlendirirken, Eserlerin aynı sanatçıya ait olmasını benzerlik kriteri olarak kabul edersek; o zaman stilistik doku çok daha önemliydi Şekil temsillerini aramak ve karşılaştırmak. Ancak “üslup”un değerlendirilmesi oldukça subjektif ve insani bir algısal süreç gibi görünmektedir. Bu bulgu, sanatsal benzerliği belirlemede hangi teknik yöntemlerin hem insan hem de niceliksel yargıyı birleştirebileceği konusunda beni daha da meraklandırdı.

görsel arama
Şekil 1: ImageNet tarafından eğitilen AlexNet (doku taraflı bir model) üzerinde eğitildiğinde korelasyon puanları. Aynı sanatçı görüntü çiftleri vangogh1-vangogh2 ve okeeffe1-okeeffe2 için korelasyon puanlarının, farklı sanatçı görüntü çiftleri vangogh1-okeeffe1 ve vangogh2-okeeffe2'nin puanlarından çok daha yüksek olduğuna dikkat edin.
görsel arama
Şekil 2: Stylized-ImageNet ile eğitilmiş AlexNet (şekil önyargılı bir model) üzerinde eğitildiğinde korelasyon puanları. Aynı sanatçı görüntü çiftleri vangogh1-vangogh2 ve okeeffe1-okeeffe2 ile farklı sanatçı görüntü çiftleri vangogh1-okeeffe1 ve vangogh2-okeeffe2 için korelasyon puanlarının oldukça yakın olduğuna dikkat edin.

Bir 2011 kâğıt Hughes ve ark. [2] niceliksel ve psikolojik araştırmaları birleştirerek şu sonuca varmıştır: İnsanın algısal bilgilerini sanatın üst düzey istatistiksel temsilleriyle birleştirmek, sanatta benzerlik temelli arama sorununu çözmede son derece etkili oldu. İnsanın sanatsal stil algısı genellikle çizgiler, gölgeleme ve renk gibi düşük dereceli istatistikler kullanılarak yakalanması zor olan unsurların kalitesine dayanır. Böylece bu araştırmacılar daha üst düzey mekansal istatistiklerden faydalandılar ve bulgularını görsel sanatın karşılaştırılmasında uyguladılar. Daha sonra katılımcılardan sanat eseri çiftleri arasındaki benzerliği değerlendirmelerini isteyen psikofiziksel deneyler gerçekleştirdiler ve bu sonuçları tahmin modelleriyle birlikte kullandılar.

Bu kapsamlı eğitim içeriği sizin için yararlıysa, AI posta listemize abone olun yeni materyal çıkardığımızda uyarılmak. 

Nicel Süreç ve Sonuçlar

Hughes ve diğerleri. araştırmalarını çeşitli sanatçıları kapsayan 308 yüksek çözünürlüklü sanat eseri görselinden oluşan bir veri seti üzerinde gerçekleştirdiler. Görüntülerden özellikler çıkarmak için iki görüntü ayrıştırma yöntemi kullandılar:

  • Gabor filtresibelirli yönelimlerdeki ve uzaysal frekanslardaki çizgilere ve kenarlara duyarlıdır
  • Seyrek kodlama modelibir görüntünün üst düzey istatistiksel özellikleriyle ilişkili bir dizi temel işlevi öğrenir

Özellikleri çıkardıktan sonra bu sanatsal görüntüleri aşağıdaki dört ölçümle karşılaştırıp değerlendirdiler:

  • Tepe oryantasyonuSeyrek kodlama modelinden öğrenilen temel fonksiyonun 2D Fourier dönüşümünde tepe genliğinin hangi yönelimde oluştuğuna bakan
  • Tepe uzaysal frekansı, tepe genliğinin hangi uzaysal frekansta oluştuğuna bakar
  • Yönlendirme bant genişliği, bir temel fonksiyonun tercih edilen yönelim için ne kadar seçici olduğunu ölçer
  • Uzaysal frekans bant genişliğitercih edilen uzaysal frekans için bir temel fonksiyonun ne kadar seçici olduğunu ölçen

Daha sonra araştırmacılar, mesafe matrislerini türetmek amacıyla yukarıdaki dört ölçümün dağılımlarını karşılaştırmak için farklı mesafe ölçümlerini (örn. KL farklılığı) araştırdılar. Üslup benzerliğine ilişkin temel bir gerçek bulunmadığından, araştırmacıların sanat eserlerini gerçek sanatçı etiketlemesine göre karşılaştırdıklarını, yani Picasso'nun tüm tablolarına aynı etiketin verildiğini, dolayısıyla uzaklık matrislerinin gerçek sanatçı etiketlemesine göre oluşturulduğunu belirtmek önemlidir. . Farklı mesafe metrikleri kullanılarak k-ortalama kümelemenin gerçekleştirilmesi, görsel sanat görüntüleri için bu yüksek dereceli istatistiksel temsillerin kullanılmasının genel başarısını ortaya çıkardı (aşağıdaki grafiğe bakın).

Kaynak: Hughes ve diğerleri. [2]

Psikofiziksel Algısal Benzerlik Deneyleri

Stili niceliksel olarak karakterize etmek için bir yöntem geliştirmenin yanı sıra görsel Sanat eserleri üzerinde araştırmacılar, insanın algısal bilgilerinden yararlanmak için iki psikofiziksel deney gerçekleştirdiler. Katılımcılardan soyut sanat, manzara ve portrelerdeki sanat görselleri çiftleri arasındaki benzerliği değerlendirmelerini istediler ve cevaplarını üç kategorinin her biri için bir benzerlik matrisi oluşturmak üzere bir araya getirdiler.

Deney 1 şunları karşılaştırmayı amaçladı: sanat eserleri arasındaki üslup ilişkisini tahmin etmede algısal yargıların etkinliği. Araştırmacılar her görsel kategorisi için iki görsel belirlediler; daha sonra, algılanan benzerliklerine göre iki görüntü arasındaki mesafeyi tahmin etmek için özellik tabanlı mesafeleri kullanarak bir regresyon modeli eğittiler. Öğrenilen modeller ile uzatılan görüntüler ile eğitim görüntüleri arasındaki mesafeleri tahmin ettiler. Son olarak, tahmin edilen mesafeyi görüntüler arasındaki gerçek algısal mesafeyle karşılaştırdılar.

Araştırmacılar, soyut ve manzara sanat eserlerinden elde edilen algısal bilgilerin istatistiksel olarak anlamlı tahminlere olanak sağladığını buldu; bu da bize şunu söylüyor: Yararlı istatistiksel bilgiler yalnızca algısal benzerlik verilerinde mevcut olmakla kalmaz, aynı zamanda görsel sanat eserleri arasındaki farklılıkları modellemek için de kullanılabilir.

Deney 2 ne ölçüde ölçüldü sınırlı algısal bilgi üç görsel kategorisinden daha büyük görüntü kümelerindeki stilistik ayrımları ve ilişkileri tahmin edebilirBenzerliğe dayalı görsel arama sorunuyla doğrudan alakalı olan. Süreç Deney 1'e benziyordu, ancak bu sefer üç kategoride 51 görüntü tuttular ve geri kalan görüntüleri bir algısal mesafe matrisi oluşturmak için kullandılar. Tahmin edilen uzaklık matrisi, sınırlı algısal bilgiyle bile bu tür bilgilerin "Stil algısını anlamak için istatistiksel özellikleri birleştirme yöntemlerimize rehberlik etmek."

Son Düşüncelerimiz

Özetle, Hughes ve arkadaşlarının "Sanatın Stilometrik Analizinde Yüksek Düzeyde Uzamsal İstatistikler ve Algısal Yargıların Karşılaştırılması" başlıklı makalesi bize, sanatın benzerliğini değerlendirmek için hem insanın algısal bilgilerini daha yüksek düzey istatistiksel bilgilerle birleştirmenin önemini ve ihtiyacını gösterdi. görsel sanat.

Sanatsal üslubun benzerlik açısından nasıl algılandığını, tanımlandığını ve değerlendirildiğini değerlendirmek için hala daha fazla psikolojik araştırma yapılması gerekmektedir. Makalelerinde, "insanın tarz algısını yönlendiren faktörlere ilişkin sadece bir avuç niceliksel çalışmanın mevcut olduğundan" bahsediyorlar.

Bilgisayarla görmenin daha geniş bağlamı göz önüne alındığında, CNN'lerde daha derin evrişim katmanlarına duyulan ihtiyaçla benzer şekilde sanatsal tarzın daha yüksek düzeyde istatistiksel temsillerine olan ihtiyacı düşünmek de ilginçtir.

Sonuç olarak, Yargıları insan algısına dayandırırken aynı zamanda mevcut tüm niceliksel bilgileri optimize edip bunlardan faydalanmak, görsel sanat eserleri için daha iyi bir benzerlik temelli görsel arama sisteminin nasıl geliştirilebileceğini düşünmenin anahtarıdır.

Referanslar

[1] Geirhos, R., Rubisch, P., Michaelis, C., Bethge, M., Wichmann, FA ve Brendel, W. “ImageNet ile eğitilmiş CNN'ler dokuya karşı önyargılıdır; Şekil yanlılığının artması doğruluğu ve sağlamlığı artırır." ICLR 2019. arXiV ön baskısı: https://arxiv.org/abs/1811.12231.

[2] Hughes, JM, Graham, DJ, Jacobsen, CR ve Rockmore, DN "Sanatın stilometrik analizinde yüksek dereceli mekansal istatistikler ve algısal yargıların karşılaştırılması." 2011 19. Avrupa Sinyal İşleme Konferansı. https://ieeexplore.ieee.org/abstract/document/7073967.

Catherine Yeo, Harvard'da Bilgisayar Bilimleri okuyan bir lisans öğrencisidir. Onu Twitter'da bulabilirsin @catherinehyeo.

Bu makale Harvard'ın PSYCH 1406, “Biyolojik ve Yapay Görsel Sistemler: İnsanlar ve Makineler Görsel Dünyayı Nasıl Temsil Ediyor?” dersinden esinlenmiştir. Geri bildirimi ve rehberliği için Profesör George Alvarez'e teşekkür ederiz.

Bu yazı orijinalinde Veri Bilimine Doğru ve yazarın izniyle TOPBOTS'a yeniden yayınlandı.

Bu makaleyi beğendin mi? Daha fazla AI güncellemesi için kaydolun.

Daha fazla teknik eğitim verdiğimizde size haber vereceğiz.

Sonrası Görsel Sanatlar için Benzerliğe Dayalı Görsel Arama İlk çıktı TOPBOTLAR.

Zaman Damgası:

Den fazla TOPBOTLAR