VASA-1이라는 새로운 AI 모델은 사진을 비디오로 변환하고 음성을 제공합니다. Microsoft의 이 흥미로운 기술은 단일 인물 사진과 오디오 파일을 사용하여 사실적인 립싱크, 얼굴 표정 및 머리 움직임이 포함된 말하는 얼굴 비디오를 만듭니다.
VASA-1의 힘
VASA-1의 기능은 실제와 같은 얼굴 애니메이션을 생성하는 능력에 있습니다. 이전 버전과 달리 VASA-1은 딥페이크의 일반적인 징후인 입 주위의 오류를 최소화합니다. 또한, 표정의 미묘한 차이 이해와 자연스러운 머리 움직임을 통해 높은 수준의 현실감을 자랑합니다.
Microsoft에서 게시한 데모 비디오 블로그 게시물 현실과 AI 생성 콘텐츠 사이의 경계를 모호하게 만들어 인상적인 결과를 선보입니다.
VASA-1이 어디에서 빛날 수 있는지 물어보시나요? 잘,
- 향상된 GA밍 경험: 완벽하게 동기화된 입술 움직임과 표정이 풍부한 얼굴을 갖춘 게임 내 캐릭터를 상상해 더욱 몰입감 있고 매력적인 게임플레이 경험을 만들어보세요.
- 개인화된 가상 아바타: VASA-1은 사용자가 자신처럼 움직이고 말하는 초현실적인 아바타를 만들 수 있도록 하여 소셜 미디어를 변화시킬 수 있습니다.
- AI 기반 영화 제작: 영화 제작자는 VASA-1을 사용하여 사실적인 클로즈업 장면, 복잡한 얼굴 표정, 자연스러운 대화 시퀀스를 생성하여 특수 효과의 경계를 넓힐 수 있습니다.
VASA-1은 어떻게 작동하나요?
VASA-1은 단일 이미지와 오디오 클립에서 사실적인 말하는 얼굴 비디오를 생성하는 과제를 해결합니다. 이 놀라운 성과를 어떻게 달성했는지에 대한 기술적 측면을 살펴보겠습니다.
누군가의 사진과 다른 사람이 말하는 오디오 녹음을 상상해 보세요. VASA-1은 이러한 요소를 결합하여 사진 속 사람이 오디오의 단어를 말하는 것처럼 보이는 비디오를 만드는 것을 목표로 합니다. 이 비디오는 다음과 같은 몇 가지 주요 측면에서 현실적이어야 합니다.
- 이미지 선명도 및 신뢰성: 생성된 비디오 프레임은 실제 영상처럼 보여야 하며 인위적으로 보이는 아티팩트가 없어야 합니다.
- 립싱크 정확도: 영상 속 입술의 움직임은 오디오와 완벽하게 동기화되어야 합니다.
- 얼굴 표정: 생성된 얼굴은 음성 내용에 맞게 적절한 감정과 표정을 나타내야 합니다.
- 자연스러운 머리 움직임: 미묘한 머리 움직임은 말하는 얼굴의 사실성을 향상시켜야 합니다.
VASA-1은 또한 주 시선 방향, 머리와 카메라 사이의 거리, 일반적인 감정 오프셋과 같은 출력을 조정하기 위한 추가 제어를 수용할 수 있습니다.
전체 프레임워크
VASA-1은 비디오 프레임을 직접 생성하는 대신 다음 두 단계로 작동합니다.
동작 및 포즈 생성: 오디오 및 기타 입력 신호에 따라 얼굴 역학(입술 움직임, 표정) 및 머리 움직임(자세)을 나타내는 일련의 코드를 생성합니다.
비디오 프레임 생성: 이러한 동작 및 포즈 코드는 입력 이미지에서 추출된 모습 및 신원 정보를 고려하여 실제 비디오 프레임을 생성하는 데 사용됩니다.
기술적 분석
VASA-1의 핵심 구성 요소에 대한 분석은 다음과 같습니다.
1. 표정이 풍부하고 풀어진 얼굴 잠재공간 구축
VASA-1은 인간의 얼굴을 표현하기 위해 특별히 설계된 "잠재 공간"이라는 특별한 종류의 디지털 공간을 구축하는 것부터 시작합니다. 이 공간에는 두 가지 주요 속성이 있습니다.
- 표현력: 사람의 표정과 움직임을 모두 높은 디테일로 포착할 수 있습니다.
- 풀리는 것: 아이덴티티, 머리 자세, 얼굴 역학 등 얼굴의 다양한 측면이 이 공간에 별도로 표현됩니다. 이를 통해 비디오 생성 중에 이러한 측면을 독립적으로 제어할 수 있습니다.
VASA-1은 기존 3D 얼굴 재현 기술을 기반으로 이를 달성합니다. 얼굴 이미지를 여러 구성 요소로 분해합니다.
- 3D 외형 볼륨(Vapp): 얼굴의 형태와 질감을 세밀하게 3D로 포착합니다.
- 식별 코드(z_id): 이미지 속 인물의 독특한 특성을 나타냅니다.
- 머리 포즈 코드(z_pose): 머리의 방향과 기울기를 인코딩합니다.
- 얼굴 역학 코드(z_dyn): 현재의 표정과 움직임을 포착합니다.
적절한 풀림을 보장하기 위해 VASA-1은 훈련 중에 특수한 손실 기능을 사용합니다. 이러한 기능은 모델이 얼굴 표현의 다양한 측면을 뒤섞을 경우 모델에 불이익을 줍니다.
2. 확산 변환기를 사용한 전체적인 얼굴 역학 생성
VASA-1에 잘 훈련된 잠재 공간이 있으면 오디오 클립을 기반으로 말하는 얼굴 시퀀스에 대한 모션 및 포즈 코드를 생성하는 방법이 필요합니다. 이것이 "확산 변압기"가 들어오는 곳입니다.
- 확산 모델: VASA-1은 확산 모델, 이를 달성하기 위한 일종의 딥 러닝 아키텍처입니다. 확산 모델은 깨끗한 신호에 점진적으로 노이즈를 추가한 다음 이 프로세스를 역전시키는 방법을 학습하는 방식으로 작동합니다. VASA-1의 경우 깨끗한 신호는 원하는 모션 및 포즈 시퀀스이고 잡음이 있는 신호는 임의의 시작점입니다. 확산 모델은 기본적으로 제공된 오디오 기능을 기반으로 깨끗한 모션 시퀀스로 돌아가는 방법을 "잡음 제거"하는 방법을 학습합니다.
- 변압기 아키텍처: VASA-1은 "변압기"라고 불리는 특정 유형의 확산 모델을 활용합니다. Transformer는 시퀀스 간 학습 작업에 탁월하므로 오디오 시퀀스에 해당하는 일련의 동작 및 포즈 코드를 생성하는 데 매우 적합합니다.
VASA-1은 여러 입력에서 확산 변압기를 조절합니다.
- 오디오 기능: 오디오 클립에서 추출된 이러한 특징은 오디오 내용을 표현하고 의도된 입술 움직임과 감정을 모델에게 알려줍니다.
- 추가 제어 신호: 이러한 선택적 신호를 사용하면 생성된 비디오를 추가로 제어할 수 있습니다. 여기에는 다음이 포함됩니다.
- 주눈 시선방향(g): 생성된 얼굴이 바라보는 위치를 지정합니다.
- 머리부터 카메라까지의 거리(d): 영상 속 얼굴의 겉보기 크기를 조절합니다.
- 감정 상쇄(e): 얼굴에 나타나는 전체적인 감정 표현을 약간 변경하는 데 사용할 수 있습니다.
3. 말하는 얼굴 영상 생성
모션 및 포즈 코드가 생성되면 VASA-1은 최종적으로 비디오 프레임을 생성할 수 있습니다. 이 작업은 다음과 같이 수행됩니다.
- 디코더 네트워크: 이 네트워크는 입력 이미지에서 추출된 외모 및 신원 정보와 함께 모션 및 포즈 코드를 입력으로 받습니다. 그런 다음 이 정보를 사용하여 오디오에 해당하는 얼굴 움직임과 표정을 만드는 이미지 속 사람을 묘사하는 사실적인 비디오 프레임을 합성합니다.
- CFG(분류자 없는 지침): VASA-1은 생성 프로세스의 견고성과 제어 가능성을 향상시키기 위해 CFG(Classifier-Free Guidance)라는 기술을 통합합니다. CFG에는 훈련 중에 일부 입력 조건을 무작위로 삭제하는 작업이 포함됩니다.
이를 통해 모델은 모든 정보를 사용할 수 없는 경우에도 좋은 결과를 생성하는 방법을 학습하게 됩니다. 예를 들어, 모델은 이전 오디오나 모션 정보 없이 비디오의 시작 부분을 생성해야 할 수도 있습니다.
자세한 설명은 여기 연구 논문.
딥페이크의 다가오는 그림자
딥 페이크사람의 외모와 목소리를 조작하는 인공지능(AI)이 제작한 현실감 넘치는 영상이 점점 더 많은 관심을 받고 있다. 악의적인 행위자는 이를 사용하여 잘못된 정보를 퍼뜨리고 평판을 훼손하며 심지어 선거를 좌우할 수도 있습니다. VASA-1의 초현실적인 특성은 이러한 불안을 더욱 가중시킵니다.
여기에 VASA-1의 불확실한 미래의 핵심.
액세스를 제한하고 대중과 일부 연구자 모두로부터 접근을 제한하기로 한 Microsoft의 결정은 신중한 접근 방식을 시사합니다. 딥페이크의 잠재적 위험은 이러한 강력한 기술을 출시하기 전에 신중하게 고려해야 합니다.
혁신과 책임감의 균형
앞으로 Microsoft는 혁신과 책임감 있는 개발의 균형을 맞추는 중요한 과제에 직면해 있습니다. 아마도 앞으로 나아갈 길은 오용에 대한 강력한 보호 장치를 갖춘 통제된 연구 환경에 있을 것입니다. 또한, 딥페이크에 대한 대중 교육과 인식을 조성하면 사용자가 AI가 조작한 콘텐츠와 진짜 콘텐츠를 구별할 수 있는 역량을 강화할 수 있습니다.
VASA-1은 시각적 미디어를 조작하는 AI의 능력이 크게 향상되었음을 부인할 수 없습니다. 그 잠재적인 응용은 혁명적이라고 할 수 있습니다.
그러나 딥페이크를 둘러싼 윤리적 고려 사항에는 신중한 접근 방식이 필요합니다. 책임 있는 개발과 공공 교육을 통해서만 VASA-1의 진정한 잠재력을 발휘하는 동시에 피해 가능성을 완화할 수 있습니다.
추천 이미지 크레딧: Microsoft
- SEO 기반 콘텐츠 및 PR 배포. 오늘 증폭하십시오.
- PlatoData.Network 수직 생성 Ai. 자신에게 권한을 부여하십시오. 여기에서 액세스하십시오.
- PlatoAiStream. 웹3 인텔리전스. 지식 증폭. 여기에서 액세스하십시오.
- 플라톤ESG. 탄소, 클린테크, 에너지, 환경, 태양광, 폐기물 관리. 여기에서 액세스하십시오.
- PlatoHealth. 생명 공학 및 임상 시험 인텔리전스. 여기에서 액세스하십시오.
- 출처: https://dataconomy.com/2024/04/19/what-is-vasa-1-and-how-does-it-work/
- :있다
- :이다
- :아니
- :어디
- $UP
- 1
- 10
- 11
- 12
- 125
- 13
- 14
- 15%
- 152
- 185
- 2%
- 3d
- 7
- 9
- 98
- a
- 능력
- 소개
- 수락
- ACCESS
- 계정
- 달성
- 달성하다
- 배우
- 실제
- 첨가
- 추가
- 또한
- 반대
- AI
- 목표
- All
- 수
- 허용
- 수
- 따라
- 또한
- 변경
- an
- 및
- 애니메이션
- 어떤
- 명백한
- 외관
- 출연
- 등장하다
- 어플리케이션
- 접근
- 적당한
- 아키텍처
- 있군요
- 약
- AS
- 문의
- 측면
- At
- 오디오
- 정품
- 가능
- 아바타
- 인식
- 떨어져
- 뒤로
- 균형
- 기반으로
- BE
- 가
- 전에
- 처음
- 사이에
- 자랑
- 두
- 경계
- 분석
- 건물
- by
- 라는
- CAN
- 기능
- 포착
- 캡처
- 주의
- 케이스
- 조심성 있는
- 도전
- 이전 단계로 돌아가기
- 특성
- 문자
- 선명도
- 황어 무리
- 암호
- 코드
- COM
- 결합
- 제공
- 공통의
- 구성 요소들
- 관심
- 우려 사항
- 조건
- 고려
- 고려 사항
- 함유량
- 제어
- 통제
- 컨트롤
- 핵심
- 동
- 수
- 만들
- 생성
- 만들기
- 임계
- Current
- 손해
- 위험
- 결정
- 깊은
- 깊은 학습
- 딥 페이크
- 동굴
- 설계
- 원하는
- 세부 묘사
- 상세한
- 개발
- 대화
- 다른
- 방송
- 디지털
- 디지털 공간
- 방향
- 직접
- 분별
- 디스플레이
- 표시된
- 거리
- 하지
- 적하
- ...동안
- 역학
- e
- 교육
- 효과
- 선거
- 요소
- 감정
- 감정적인
- 감정
- 고용하다
- 능력을 키우다
- 매력적인
- 강화
- 확인
- 환경
- 오류
- 본질적으로
- 윤리적인
- 조차
- 예
- 뛰어나다
- 흥미 진진한
- 전시회
- 현존하는
- 경험
- 체험
- 설명
- 표현
- 표현
- 나타내는
- 눈
- 페이스메이크업
- 얼굴
- 얼굴 마사지
- 묘기
- 특징
- 입양 부모로서의 귀하의 적합성을 결정하기 위해 미국 이민국에
- 영화 제작자
- 영화 제작
- 최종적으로
- 럭셔리
- 군
- 앞으로
- 육성
- FRAME
- 에
- 가득 찬
- 기능
- 추가
- 게임 플레이
- 일반
- 생성
- 생성
- 생성
- 세대
- 정품
- 주기
- 좋은
- 점차적으로
- 성장하는
- 지도
- 해가
- 있다
- 머리
- 높은
- 높은 품질의
- 고도로
- 전체적인
- 방법
- How To
- HTTP
- HTTPS
- 사람의
- 극사실주의
- 통합 인증
- if
- 영상
- 그림
- 몰입
- 인상
- 개선
- in
- 게임 내
- 포함
- 통합
- 독립
- 통보
- 정보
- 혁신
- 입력
- 입력
- 예정된
- 강화하다
- 으로
- 뒤얽힌
- 포함
- IT
- 그
- JPG
- 다만
- 유지
- 키
- 종류
- 뛰어 넘다
- 배우다
- 배우기
- 배우다
- 레버리지
- 거짓말
- 거짓
- 살아 있는 것 같은
- 처럼
- 라인
- 보기
- 같이
- 찾고
- 어렴풋한
- 오프
- 본관
- 유튜브 영상을 만드는 것은
- 악의있는
- 조작
- 경기
- 최대 폭
- 측정
- 미디어
- Microsoft
- 수도
- 최소화하다
- 오보
- 오용
- 완화시키는
- 믹스
- 모델
- 모델
- 배우기
- 운동
- 입
- 움직임
- 이동
- 절대로 필요한 것
- 자연의
- 자연
- 필요
- 요구
- 네트워크
- 신제품
- 노이즈
- 아무것도
- 미묘한
- of
- 오프셋
- on
- 사람
- 만
- or
- 기타
- 출력
- 위에
- 전체
- 서
- 통로
- 사람들의
- 아주
- 혹시
- 사람
- 사진
- 사진
- 플라톤
- 플라톤 데이터 인텔리전스
- 플라토데이터
- 포인트 적립
- 초상화
- 포즈를 취하게하다
- 포즈
- 가능성
- 힘
- 강한
- 방법
- 약속
- 적절한
- 속성
- 제공
- 공개
- 출판
- 미는
- 닥치는대로의
- 범위
- 현실
- 실재론
- 현실적인
- 현실
- 방송
- 반영하다
- 공개
- 주목할 만한
- 대표
- 대표
- 대표되는
- 대표
- 대표
- 연구
- 연구원
- 책임
- 얽매다
- 제한
- 결과
- 역
- 혁명
- 강력한
- 견고성
- 보호
- 속담
- 따로 따로
- 순서
- 몇몇의
- 그림자
- 셰이프
- 빛나다
- 짧은
- 촬영
- 영상을
- 소개
- 기호
- 신호
- 신호
- 상당한
- 단일
- 크기
- 약간
- So
- 사회적
- 소셜 미디어
- 일부
- 어떤 사람
- 출처
- 스페이스 버튼
- 말하다
- 말하기
- 특별한
- 전문
- 구체적인
- 구체적으로
- 이야기
- 전파
- 단계
- 시작 중
- 시작
- 세밀한
- 이러한
- 제안
- 주변
- 동기화
- 합성하다
- T
- 태클
- 재단사
- 소요
- 복용
- 말하는
- 작업
- 테크니컬
- 기술
- 기법
- Technology
- 그
- XNUMXD덴탈의
- 그들
- 그때
- Bowman의
- 그들
- 이
- 을 통하여
- 에
- 트레이닝
- 변환
- 변압기
- 변압기
- 참된
- 두
- 유형
- 불확실한
- 틀림없이
- 이해
- 유일한
- 해방하다
- 같지 않은
- 잠금을 해제
- ...에
- 사용
- 익숙한
- 사용자
- 사용
- 이용하다
- Video
- 동영상
- 온라인
- 가상 아바타
- 시각
- 시각 미디어
- 목소리
- 음성
- 음량
- 방법..
- we
- 잘
- 뭐
- 언제
- 동안
- 과
- 없이
- 말
- 작업
- 일
- 당신
- 너의
- 제퍼 넷