VASA-1은 너무 현실적이어서 Microsoft가 출시할 수 없습니다

플라톤에 의해 재발행

팔로워 : 0

VASA-1이라는 새로운 AI 모델은 사진을 비디오로 변환하고 음성을 제공합니다. Microsoft의 이 흥미로운 기술은 단일 인물 사진과 오디오 파일을 사용하여 사실적인 립싱크, 얼굴 표정 및 머리 움직임이 포함된 말하는 얼굴 비디오를 만듭니다.

VASA-1의 힘

VASA-1의 기능은 실제와 같은 얼굴 애니메이션을 생성하는 능력에 있습니다. 이전 버전과 달리 VASA-1은 딥페이크의 일반적인 징후인 입 주위의 오류를 최소화합니다. 또한, 표정의 미묘한 차이 이해와 자연스러운 머리 움직임을 통해 높은 수준의 현실감을 자랑합니다.

Microsoft에서 게시한 데모 비디오 블로그 게시물 현실과 AI 생성 콘텐츠 사이의 경계를 모호하게 만들어 인상적인 결과를 선보입니다.

VASA-1이 어디에서 빛날 수 있는지 물어보시나요? 잘,

향상된 GA밍 경험: 완벽하게 동기화된 입술 움직임과 표정이 풍부한 얼굴을 갖춘 게임 내 캐릭터를 상상해 더욱 몰입감 있고 매력적인 게임플레이 경험을 만들어보세요.
개인화된 가상 아바타: VASA-1은 사용자가 자신처럼 움직이고 말하는 초현실적인 아바타를 만들 수 있도록 하여 소셜 미디어를 변화시킬 수 있습니다.
AI 기반 영화 제작: 영화 제작자는 VASA-1을 사용하여 사실적인 클로즈업 장면, 복잡한 얼굴 표정, 자연스러운 대화 시퀀스를 생성하여 특수 효과의 경계를 넓힐 수 있습니다.

VASA-1은 어떻게 작동하나요?

VASA-1은 단일 이미지와 오디오 클립에서 사실적인 말하는 얼굴 비디오를 생성하는 과제를 해결합니다. 이 놀라운 성과를 어떻게 달성했는지에 대한 기술적 측면을 살펴보겠습니다.

누군가의 사진과 다른 사람이 말하는 오디오 녹음을 상상해 보세요. VASA-1은 이러한 요소를 결합하여 사진 속 사람이 오디오의 단어를 말하는 것처럼 보이는 비디오를 만드는 것을 목표로 합니다. 이 비디오는 다음과 같은 몇 가지 주요 측면에서 현실적이어야 합니다.

이미지 선명도 및 신뢰성: 생성된 비디오 프레임은 실제 영상처럼 보여야 하며 인위적으로 보이는 아티팩트가 없어야 합니다.
립싱크 정확도: 영상 속 입술의 움직임은 오디오와 완벽하게 동기화되어야 합니다.
얼굴 표정: 생성된 얼굴은 음성 내용에 맞게 적절한 감정과 표정을 나타내야 합니다.
자연스러운 머리 움직임: 미묘한 머리 움직임은 말하는 얼굴의 사실성을 향상시켜야 합니다.

VASA-1은 또한 주 시선 방향, 머리와 카메라 사이의 거리, 일반적인 감정 오프셋과 같은 출력을 조정하기 위한 추가 제어를 수용할 수 있습니다.

전체 프레임워크

VASA-1은 비디오 프레임을 직접 생성하는 대신 다음 두 단계로 작동합니다.

동작 및 포즈 생성: 오디오 및 기타 입력 신호에 따라 얼굴 역학(입술 움직임, 표정) 및 머리 움직임(자세)을 나타내는 일련의 코드를 생성합니다.

비디오 프레임 생성: 이러한 동작 및 포즈 코드는 입력 이미지에서 추출된 모습 및 신원 정보를 고려하여 실제 비디오 프레임을 생성하는 데 사용됩니다.

기술적 분석

VASA-1의 핵심 구성 요소에 대한 분석은 다음과 같습니다.

1. 표정이 풍부하고 풀어진 얼굴 잠재공간 구축

VASA-1은 인간의 얼굴을 표현하기 위해 특별히 설계된 "잠재 공간"이라는 특별한 종류의 디지털 공간을 구축하는 것부터 시작합니다. 이 공간에는 두 가지 주요 속성이 있습니다.

표현력: 사람의 표정과 움직임을 모두 높은 디테일로 포착할 수 있습니다.
풀리는 것: 아이덴티티, 머리 자세, 얼굴 역학 등 얼굴의 다양한 측면이 이 공간에 별도로 표현됩니다. 이를 통해 비디오 생성 중에 이러한 측면을 독립적으로 제어할 수 있습니다.

VASA-1은 기존 3D 얼굴 재현 기술을 기반으로 이를 달성합니다. 얼굴 이미지를 여러 구성 요소로 분해합니다.

3D 외형 볼륨(Vapp): 얼굴의 형태와 질감을 세밀하게 3D로 포착합니다.
식별 코드(z_id): 이미지 속 인물의 독특한 특성을 나타냅니다.
머리 포즈 코드(z_pose): 머리의 방향과 기울기를 인코딩합니다.
얼굴 역학 코드(z_dyn): 현재의 표정과 움직임을 포착합니다.

적절한 풀림을 보장하기 위해 VASA-1은 훈련 중에 특수한 손실 기능을 사용합니다. 이러한 기능은 모델이 얼굴 표현의 다양한 측면을 뒤섞을 경우 모델에 불이익을 줍니다.

VASA-1이란 무엇이며 어떻게 작동합니까? — **AI 모델은 확산 변환기를 활용하여 오디오 입력 및 기타 신호를 기반으로 모션 및 포즈 코드를 생성합니다.** (이미지 크레딧)

2. 확산 변환기를 사용한 전체적인 얼굴 역학 생성

VASA-1에 잘 훈련된 잠재 공간이 있으면 오디오 클립을 기반으로 말하는 얼굴 시퀀스에 대한 모션 및 포즈 코드를 생성하는 방법이 필요합니다. 이것이 "확산 변압기"가 들어오는 곳입니다.

확산 모델: VASA-1은 확산 모델, 이를 달성하기 위한 일종의 딥 러닝 아키텍처입니다. 확산 모델은 깨끗한 신호에 점진적으로 노이즈를 추가한 다음 이 프로세스를 역전시키는 방법을 학습하는 방식으로 작동합니다. VASA-1의 경우 깨끗한 신호는 원하는 모션 및 포즈 시퀀스이고 잡음이 있는 신호는 임의의 시작점입니다. 확산 모델은 기본적으로 제공된 오디오 기능을 기반으로 깨끗한 모션 시퀀스로 돌아가는 방법을 "잡음 제거"하는 방법을 학습합니다.
변압기 아키텍처: VASA-1은 "변압기"라고 불리는 특정 유형의 확산 모델을 활용합니다. Transformer는 시퀀스 간 학습 작업에 탁월하므로 오디오 시퀀스에 해당하는 일련의 동작 및 포즈 코드를 생성하는 데 매우 적합합니다.

VASA-1은 여러 입력에서 확산 변압기를 조절합니다.

오디오 기능: 오디오 클립에서 추출된 이러한 특징은 오디오 내용을 표현하고 의도된 입술 움직임과 감정을 모델에게 알려줍니다.
추가 제어 신호: 이러한 선택적 신호를 사용하면 생성된 비디오를 추가로 제어할 수 있습니다. 여기에는 다음이 포함됩니다.
주눈 시선방향(g): 생성된 얼굴이 바라보는 위치를 지정합니다.
머리부터 카메라까지의 거리(d): 영상 속 얼굴의 겉보기 크기를 조절합니다.
감정 상쇄(e): 얼굴에 나타나는 전체적인 감정 표현을 약간 변경하는 데 사용할 수 있습니다.

3. 말하는 얼굴 영상 생성

모션 및 포즈 코드가 생성되면 VASA-1은 최종적으로 비디오 프레임을 생성할 수 있습니다. 이 작업은 다음과 같이 수행됩니다.

디코더 네트워크: 이 네트워크는 입력 이미지에서 추출된 외모 및 신원 정보와 함께 모션 및 포즈 코드를 입력으로 받습니다. 그런 다음 이 정보를 사용하여 오디오에 해당하는 얼굴 움직임과 표정을 만드는 이미지 속 사람을 묘사하는 사실적인 비디오 프레임을 합성합니다.
CFG(분류자 없는 지침): VASA-1은 생성 프로세스의 견고성과 제어 가능성을 향상시키기 위해 CFG(Classifier-Free Guidance)라는 기술을 통합합니다. CFG에는 훈련 중에 일부 입력 조건을 무작위로 삭제하는 작업이 포함됩니다.

이를 통해 모델은 모든 정보를 사용할 수 없는 경우에도 좋은 결과를 생성하는 방법을 학습하게 됩니다. 예를 들어, 모델은 이전 오디오나 모션 정보 없이 비디오의 시작 부분을 생성해야 할 수도 있습니다.

자세한 설명은 여기 연구 논문.

딥페이크의 다가오는 그림자

딥 페이크사람의 외모와 목소리를 조작하는 인공지능(AI)이 제작한 현실감 넘치는 영상이 점점 더 많은 관심을 받고 있다. 악의적인 행위자는 이를 사용하여 잘못된 정보를 퍼뜨리고 평판을 훼손하며 심지어 선거를 좌우할 수도 있습니다. VASA-1의 초현실적인 특성은 이러한 불안을 더욱 가중시킵니다.

여기에 VASA-1의 불확실한 미래의 핵심.

액세스를 제한하고 대중과 일부 연구자 모두로부터 접근을 제한하기로 한 Microsoft의 결정은 신중한 접근 방식을 시사합니다. 딥페이크의 잠재적 위험은 이러한 강력한 기술을 출시하기 전에 신중하게 고려해야 합니다.

혁신과 책임감의 균형

앞으로 Microsoft는 혁신과 책임감 있는 개발의 균형을 맞추는 중요한 과제에 직면해 있습니다. 아마도 앞으로 나아갈 길은 오용에 대한 강력한 보호 장치를 갖춘 통제된 연구 환경에 있을 것입니다. 또한, 딥페이크에 대한 대중 교육과 인식을 조성하면 사용자가 AI가 조작한 콘텐츠와 진짜 콘텐츠를 구별할 수 있는 역량을 강화할 수 있습니다.

VASA-1은 시각적 미디어를 조작하는 AI의 능력이 크게 향상되었음을 부인할 수 없습니다. 그 잠재적인 응용은 혁명적이라고 할 수 있습니다.

그러나 딥페이크를 둘러싼 윤리적 고려 사항에는 신중한 접근 방식이 필요합니다. 책임 있는 개발과 공공 교육을 통해서만 VASA-1의 진정한 잠재력을 발휘하는 동시에 피해 가능성을 완화할 수 있습니다.

추천 이미지 크레딧: Microsoft