제로 샷 학습, 설명

제로 샷 학습, 설명

소스 노드 : 1776319

제로 샷 학습, 설명
브루스 워링턴 Unsplash를 통해
 

일반적으로 기계 학습 모델이 더 똑똑해지는 이유는 레이블이 지정된 데이터를 사용하여 유사한 두 개체를 식별하는 데 도움이 되기 때문입니다. 

그러나 이렇게 레이블이 지정된 데이터 세트가 없으면 가장 효과적이고 신뢰할 수 있는 기계 학습 모델을 만들 때 큰 장애물에 직면하게 됩니다. 모델의 학습 단계에서 레이블이 지정된 데이터 세트는 중요합니다. 

딥 러닝은 감독 학습을 사용하여 컴퓨터 비전과 같은 작업을 해결하는 데 널리 사용되었습니다. 그러나 인생의 많은 일과 마찬가지로 제한 사항이 따릅니다. 감독된 분류는 강력한 모델을 생성하기 위해 많은 양과 품질의 레이블이 지정된 훈련 데이터가 필요합니다. 이는 분류 모델이 보이지 않는 클래스를 처리할 수 없음을 의미합니다. 

그리고 우리 모두는 딥 러닝 모델을 교육하는 데 얼마나 많은 계산 능력, 재교육, 시간 및 비용이 필요한지 알고 있습니다.

그러나 훈련 데이터를 사용하지 않고도 모델이 여전히 두 객체를 식별할 수 있습니까? 예, 제로샷 학습이라고 합니다. Zero-shot 학습은 교육 예제를 받거나 사용하지 않고도 작업을 완료할 수 있는 모델의 기능입니다. 

인간은 많은 노력을 기울이지 않고도 자연스럽게 제로샷 학습이 가능합니다. 우리의 두뇌는 이미 사전을 저장하고 있으며 현재 지식 기반으로 인해 물체의 물리적 특성을 보고 물체를 구별할 수 있습니다. 이 지식 기반을 사용하여 개체 간의 유사점과 차이점을 확인하고 개체 간의 연결을 찾을 수 있습니다.

예를 들어 동물 종에 대한 분류 모델을 구축하려고 한다고 가정해 보겠습니다. 에 따르면 OurWorldInData, 2.13년에 계산된 종은 2021만 종이었습니다. 따라서 동물 종에 대한 가장 효과적인 분류 모델을 만들려면 2.13만 개의 서로 다른 클래스가 필요합니다. 또한 많은 데이터가 필요합니다. 높은 양과 질의 데이터는 만나기 어렵습니다.

그렇다면 제로샷 학습은 이 문제를 어떻게 해결할까요?

제로 샷 학습은 모델이 교육 데이터를 학습하고 클래스를 분류하는 방법을 요구하지 않기 때문에 레이블이 지정된 데이터에 대한 모델의 필요성에 덜 의존할 수 있습니다. 

다음은 제로샷 학습을 진행하기 위해 필요한 데이터 구성입니다.

본 수업

이것은 이전에 모델 훈련에 사용된 데이터 클래스로 구성됩니다. 

보이지 않는 클래스

이것은 모델 훈련에 사용되지 않은 데이터 클래스로 구성되며 새로운 제로 샷 학습 모델이 일반화됩니다. 

보조 정보

보이지 않는 클래스의 데이터에는 레이블이 지정되지 않기 때문에 제로샷 학습은 상관 관계, 링크 및 속성을 학습하고 찾기 위해 보조 정보가 필요합니다. 이것은 단어 임베딩, 설명 및 의미론적 정보의 형태일 수 있습니다.

제로샷 학습 방법

제로샷 학습은 일반적으로 다음에서 사용됩니다.

  • 분류자 기반 방법
  • 인스턴스 기반 방법

인턴십

제로샷 학습은 레이블이 지정된 데이터를 사용하여 교육하지 않는 클래스에 대한 모델을 구축하는 데 사용되므로 다음 두 단계가 필요합니다.

1. 훈련

학습 단계는 데이터의 품질에 대해 가능한 한 많은 지식을 캡처하려는 학습 방법의 프로세스입니다. 이것을 학습 단계로 볼 수 있습니다. 

2. 추론

추론 단계에서는 학습 단계에서 학습한 모든 지식을 적용하고 활용하여 예를 새로운 클래스 집합으로 분류합니다. 우리는 이것을 예측 단계로 볼 수 있습니다. 

그것은 어떻게 작동합니까?

보이는 클래스의 지식은 고차원 벡터 공간에서 보이지 않는 클래스로 전송됩니다. 이것을 시맨틱 공간이라고 합니다. 예를 들어, 이미지 분류에서 이미지와 함께 시맨틱 공간은 두 단계를 거칩니다.

1. 공동 매립 공간

이것은 시맨틱 벡터와 시각적 특징의 벡터가 투영되는 곳입니다. 

2. 가장 높은 유사도

여기에서 기능이 보이지 않는 클래스의 기능과 일치합니다. 

두 단계(훈련 및 추론)의 프로세스 이해를 돕기 위해 이미지 분류 사용에 적용해 보겠습니다.

트레이닝

제로 샷 학습, 설명
야리 히토넨 Unsplash를 통해
 

인간으로서 위 이미지의 오른쪽에 있는 텍스트를 읽으면 즉시 갈색 바구니에 새끼 고양이 4마리가 있다고 가정할 것입니다. 하지만 '고양이'가 무엇인지 전혀 모른다고 가정해 보겠습니다. '고양이'라고 불리는 4개의 물건이 들어 있는 갈색 바구니가 있다고 가정할 것입니다. '고양이'처럼 보이는 것이 포함된 이미지를 더 많이 발견하면 '고양이'를 다른 동물과 구별할 수 있습니다. 

사용하면 이렇게 됩니다. 대조 언어-이미지 사전 훈련 (CLIP) 이미지 분류에서 제로 샷 학습을 위한 OpenAI의. 보조 정보라고 합니다. 

'그냥 레이블이 지정된 데이터일 뿐'이라고 생각할 수 있습니다. 왜 그렇게 생각하는지 이해하지만 그렇지 않습니다. 보조 정보는 데이터의 레이블이 아니라 훈련 단계에서 모델 학습을 돕기 위한 감독의 한 형태입니다.

제로 샷 학습 모델이 충분한 양의 이미지-텍스트 쌍을 볼 때 문구를 구별하고 이해할 수 있으며 이미지의 특정 패턴과 어떻게 연관되는지 이해할 수 있습니다. CLIP 기법 '대조 학습'을 사용하여 제로 샷 학습 모델은 분류 작업에 대한 예측을 할 수 있는 좋은 지식 기반을 축적할 수 있었습니다. 

이것은 (이미지, 텍스트) 교육 예제 배치의 올바른 쌍을 예측하기 위해 이미지 인코더와 텍스트 인코더를 함께 교육하는 CLIP 접근 방식의 요약입니다. 아래 이미지를 참조하십시오.

 

제로 샷 학습, 설명
자연어 감독에서 전송 가능한 시각적 모델 학습

추론

모델이 훈련 단계를 거치면 이미지-텍스트 페어링에 대한 좋은 지식 기반을 갖게 되며 이제 예측을 수행하는 데 사용할 수 있습니다. 그러나 예측을 바로 시작하기 전에 모델이 출력할 수 있는 모든 가능한 레이블 목록을 생성하여 분류 작업을 설정해야 합니다. 

예를 들어 동물 종에 대한 이미지 분류 작업을 고수하려면 모든 동물 종의 목록이 필요합니다. 이러한 각 레이블은 인코딩됩니다. T? T에게? 학습 단계에서 발생한 사전 학습된 텍스트 인코더를 사용합니다. 

레이블이 인코딩되면 사전 훈련된 이미지 인코더를 통해 이미지를 입력할 수 있습니다. 거리 메트릭 코사인 유사성을 사용하여 이미지 인코딩과 각 텍스트 레이블 인코딩 간의 유사성을 계산합니다.

이미지 분류는 이미지와 가장 유사한 레이블을 기준으로 이루어집니다. 이것이 특히 이미지 분류에서 제로 샷 학습이 달성되는 방식입니다. 

데이터 부족

앞서 언급한 바와 같이 대량의 고품질 데이터는 손에 넣기가 어렵습니다. 이미 제로 샷 학습 능력을 가진 인간과 달리 기계는 학습을 위해 레이블이 지정된 입력 데이터가 필요하며 자연적으로 발생할 수 있는 변동에 적응할 수 있습니다. 

동물 종의 예를 보면 정말 많았습니다. 그리고 다양한 도메인에서 범주의 수가 계속 증가함에 따라 주석이 달린 데이터 수집을 따라가려면 많은 작업이 필요할 것입니다.

이로 인해 제로샷 학습이 우리에게 더욱 가치있게 되었습니다. 점점 더 많은 연구자들이 사용 가능한 데이터 부족을 보완하기 위해 자동 속성 인식에 관심을 갖고 있습니다. 

데이터 라벨링

제로샷 학습의 또 다른 이점은 데이터 라벨링 속성입니다. 데이터 라벨링은 노동 집약적이고 매우 지루할 수 있으며 이로 인해 프로세스 중에 오류가 발생할 수 있습니다. 데이터 라벨링에는 생물 의학 데이터 세트를 작업하는 의료 전문가와 같은 전문가가 필요하며 비용과 시간이 많이 듭니다. 

이러한 데이터의 한계로 인해 Zero-shot learning이 각광을 받고 있습니다. 그 능력에 관심이 있다면 읽어 보라고 권하고 싶은 몇 가지 논문이 있습니다.

 
 
니샤 아리아 데이터 과학자이자 프리랜스 기술 작가입니다. 그녀는 특히 데이터 과학 관련 직업 조언 또는 자습서 및 이론 기반 지식을 제공하는 데 관심이 있습니다. 그녀는 또한 인공 지능이 인간의 수명에 도움이 되는 다양한 방법을 탐구하고자 합니다. 다른 사람들을 안내하는 동시에 기술 지식과 작문 기술을 넓히고자 하는 열성적인 학습자.
 

타임 스탬프 :

더보기 너 겟츠