Инструмент преобразования текста в видео нового поколения: Sora от OpenAI

Переиздано Платоном

Читают: 0

Введение

Продолжается эволюция технологий создания видео на основе искусственного интеллекта. Его неоспоримое влияние заключается в изменении и демократизации всей сферы видеопроизводства, что представляет собой значительный скачок в роли ИИ в создании видео. Но задумывались ли вы когда-нибудь, что можно создать HD-видео, просто написав подсказку? Благодаря достижениям в области искусственного интеллекта, особенно в области обработки естественного языка (NLP) и компьютерного зрения, создание видео высокой четкости с помощью простой подсказки стало реальностью.

Эта технология использует сложные алгоритмы и модели глубокого обучения для интерпретации и понимания ввода пользователя. Анализируя подсказку, система искусственного интеллекта может генерировать сценарий, идентифицировать соответствующие визуальные эффекты и даже имитировать повествование, подобное человеческому. Этот процесс включает в себя понимание семантики подсказки и рассмотрение таких элементов, как тон, настроение и контекст.

После выпуска моделей преобразования текста в видео, таких как Gen-2 от Runway, Stable Video Diffusion от Stability AI, Emu от Meta и Lumiere от Google. OpenAI, создатель ChatGPT, объявил: Sora, современная модель глубокого обучения для преобразования текста в видео, предназначена для создания коротких видеороликов на основе текстовых подсказок. Несмотря на то, что опубликованные образцы результатов не доступны для общественности, они вызвали неоднозначную реакцию: некоторые выразили энтузиазм, а другие выразили обеспокоенность из-за их впечатляющего качества.

Далее в этой статье мы проанализируем Sora, чтобы понять ее работу, ограничения и этические соображения.

Читать дальше!

Содержание

Что такое Sora от OpenAI?

OpenAI постоянно разрабатывает ИИ для понимания и воспроизведения динамики физического мира. Цель состоит в том, чтобы обучить модели, которые помогают людям решать реальные проблемы взаимодействия. Sora — это модель преобразования текста в видео, способная создавать минутные видеоролики с высоким визуальным качеством в соответствии с подсказками пользователя.

В настоящее время Сора доступна красным командам для оценки потенциального вреда и рисков. Художники, дизайнеры и режиссеры также могут получить доступ к сбору отзывов для совершенствования модели для творческих профессионалов. OpenAI заранее делится результатами своих исследований, чтобы взаимодействовать с внешними пользователями и получать отзывы, предлагая взглянуть на будущие возможности искусственного интеллекта.

Например:

Подсказка: трейлер фильма о приключениях 30-летнего космонавта в красном шерстяном вязаном мотоциклетном шлеме, голубое небо, соляная пустыня, кинематографический стиль, снятый на 35-миллиметровую пленку, яркие цвета.

Подсказка: в анимированной сцене крупным планом показан невысокий пушистый монстр, стоящий на коленях рядом с тающей красной свечой. Художественный стиль трехмерный и реалистичный, с упором на освещение и текстуру. Настроение картины - удивление и любопытство, поскольку монстр смотрит на пламя широко раскрытыми глазами и открытым ртом. Его поза и выражение лица передают ощущение невинности и игривости, как будто он впервые исследует окружающий мир. Использование теплых тонов и драматического освещения еще больше усиливает уютную атмосферу изображения.

Сора создает сложные сцены с множеством персонажей, определенными типами движений и точными деталями объекта и фона. Модель понимает подсказки пользователя и то, как эти элементы существуют в физическом мире. Обладая глубоким пониманием языка, Сора точно интерпретирует подсказки и создает очаровательных персонажей, выражающих яркие эмоции. Он может создавать несколько кадров в одном видео, сохраняя единообразие персонажей и визуального стиля.

Варианты использования Sora выходят за рамки преобразования текста в видео, включая анимацию неподвижных изображений, продолжение видео и редактирование видео. Несмотря на свои замечательные возможности, OpenAI признает потенциальные риски и этические проблемы, подчеркивая необходимость внешнего вклада и обратной связи. Вы можете понять критичность и важность этой модели в нашей повседневной жизни. Например, графический дизайнер может использовать его для анимации изображений, продолжения видео, редактирования и многого другого. Преподаватель в сфере образования может создавать анимированные изображения для своих учеников. Также будет полезно студентам-архитекторам и биологам.

Ссылка на сайт: Сора от OpenAI

Варианты использования Sora от OpenAI

Приложения Sora от OpenAI:

Преобразование текста в видео:
- Sora превосходно конвертирует текстовые инструкции в визуально привлекательные видеоролики, позволяя пользователям легко воплощать идеи в динамический визуальный контент.
Анимация изображения:
- Модель может оживлять неподвижные изображения, анимируя их, придавая статичным визуальным эффектам движение и жизненность.
Видео продолжение:
- Сора может расширять существующие видео, обеспечивая плавное продолжение сцен и повествований и расширяя возможности повествования.
Редактирование видео:
- Пользователи могут использовать Sora для задач редактирования видео, таких как изменение фона или настроек в видео, демонстрируя его универсальность в улучшении и изменении визуального контента.

Как работает Sora от OpenAI?

Архитектура модели включает в себя визуальный кодер, диффузионный преобразователь и визуальный декодер.

Визуальный кодер сжимает видео в скрытое пространство, представляя уменьшенную размерность.
Диффузионный преобразователь генерирует последовательности визуальных патчей на основе подсказок пользователя, а визуальный декодер меняет кодировку на обратную, создавая окончательное видео.

Сора демонстрирует новые свойства, демонстрируя уровень понимания согласованности 3D, согласованности на больших расстояниях, постоянства объектов, взаимодействия и моделирования целых цифровых миров. Однако у него есть ограничения, такие как ошибки в физике и биологии, нарушение причинно-следственной связи и отсутствие детального контроля для креативщиков.

OpenAI предвидит значительное влияние Sora на творчество, но признает необходимость устранения угроз безопасности, сотрудничества с экспертами, внедрения фильтров и добавления метаданных, сгенерированных ИИ, для пометки видео. Этические проблемы включают прозрачность данных обучения модели, проблемы авторского права и концентрацию власти, поскольку OpenAI существенно влияет на инновации в области ИИ.

Хотя потенциал Sora огромен, монополия OpenAI на мощные модели искусственного интеллекта вызывает обеспокоенность по поводу прозрачности, подотчетности и этических соображений в более широком ландшафте искусственного интеллекта.

Ограничения модели Сора

Существующая модель Сора имеет определенные ограничения. Он сталкивается с трудностями при точном моделировании сложной физики сложной сцены, что часто приводит к неточностям в изображении конкретных причинно-следственных связей. Например, изображение человека, откусывающего кусок печенья, может не сработать, что приведет к несоответствию, когда на файле cookie отсутствует ожидаемый след откусывания.

Кроме того, модель может столкнуться с трудностями при поддержании пространственной точности в рамках заданной подсказки, иногда путая левую и правую ориентацию. Кроме того, ему может быть сложно обеспечить точное описание событий, разворачивающихся во времени, например, точное отслеживание определенной траектории камеры.

Подсказка: сцена бегущего человека с печатью шагов, кинематографический фильм, снятый на 35 мм.

Слабость: Сора иногда создает физически неправдоподобные движения.

Подсказка: баскетбольный мяч через кольцо взрывается.

Слабость: пример неточного физического моделирования и неестественного «морфинга» объекта.

Несмотря на эти недостатки, текущие исследования и разработки направлены на расширение возможностей модели, решение этих проблем и повышение ее квалификации в обеспечении более точного и детального моделирования различных сценариев.

Сравнение инструмента преобразования текста в видео: Люмьер против Соры

Googles-представляет-видео-модель-генерации-LUMIERE

Качество видео:
- Люмьер был недавно выпущен и может похвастаться превосходным качеством видео по сравнению со своими предшественниками.
- С другой стороны, Sora демонстрирует большую мощность, чем Lumiere, способную генерировать видео размером до 1920×1080 пикселей с универсальными соотношениями сторон, тогда как Lumiere ограничен разрешением 512×512 пикселей.
Продолжительность видео:
- Видео Люмьера ограничено примерно 5 секундами, тогда как Сора может создавать видео со значительно увеличенной длительностью — до 60 секунд.
Многокадровая композиция:
- Люмьеру не хватает возможности создавать видеоролики, состоящие из нескольких кадров, а Сора в этом преуспевает.
Возможности редактирования видео:
- Sora, как и другие модели, демонстрирует расширенные возможности редактирования видео, включая такие задачи, как создание видео из изображений или существующих видео, объединение элементов из разных источников и увеличение продолжительности видео.
Реализм и узнаваемость:
- Обе модели создают видео с более реалистичным внешним видом, но видеоролики, созданные Люмьером при помощи искусственного интеллекта, распознаются легче.
- Однако видео Соры демонстрируют динамичное качество с повышенным взаимодействием между элементами.

Решение между Люмьером и Сорой зависит от индивидуальных предпочтений и требований, включая такие аспекты, как разрешение видео, продолжительность и возможности редактирования. И Люмьер, и Сора демонстрируют несоответствия и сообщения о галлюцинациях в своих выводах; Постоянное развитие этих моделей может устранить текущие ограничения, способствуя постоянному совершенствованию производства видео, генерируемого искусственным интеллектом. Более того, Sora от OpenAI отличается улучшенным кадрированием и композицией, что позволяет создавать контент, адаптированный для различных устройств, сохраняя при этом их исходные соотношения сторон.

Этические ограничения в текущей модели Сора

Внедрение модели Sora компанией OpenAI вызывает серьезные опасения по поводу ее потенциального неправильного использования для создания вредоносного контента, включая, помимо прочего:

Создание порнографического контента:
- Способность Соры создавать реалистичные и высококачественные видеоролики на основе текстовых подсказок может представлять риск при создании откровенных или порнографических материалов. Злоумышленники могут использовать эту модель для создания нежелательного, эксплуататорского и вредного контента.
Распространение фейковых новостей и дезинформации:
- Возможности Sora по преобразованию текста в видео могут быть использованы не по назначению для создания убедительных фейковых новостей или дезинформации. Например, модель может генерировать реалистичные видеоролики, на которых политические лидеры делают ложные заявления, распространяют дезинформацию и потенциально наносят ущерб общественному восприятию и доверию.
Создание контента, ставящего под угрозу меры общественного здравоохранения:
- Способность Соры создавать видеоролики на основе подсказок вызывает опасения по поводу создания вводящего в заблуждение контента, связанного с мерами общественного здравоохранения. Злоумышленники могут использовать эту модель для создания видеороликов, препятствующих вакцинации, пропагандирующих ложные методы лечения или подрывающих рекомендации общественного здравоохранения, ставя под угрозу общественную безопасность.
Потенциал дисгармонии и социальных волнений:
- Реалистичный характер видеороликов, созданных Сорой, может быть использован для создания контента, разжигающего дисгармонию и социальные волнения. Например, модель может генерировать видеоролики, изображающие ложное насилие, дискриминацию или беспорядки, приводящие к напряженности и потенциальным последствиям в реальном мире.

OpenAI осознает возможность неправильного использования и предпринимает шаги для решения проблем безопасности. Мы обсудим это в разделе ниже.

Меры безопасности OpenAI для модели Sora

OpenAI реализует несколько важных мер безопасности перед выпуском модели Sora в своих продуктах. Ключевые моменты включают в себя:

Сотрудничество Red Teaming
- OpenAI сотрудничает с «красными командами», экспертами в таких областях, как дезинформация, разжигающий ненависть контент и предвзятость.
- Эти эксперты проведут состязательное тестирование, чтобы оценить надежность модели и выявить потенциальные риски.
Инструменты обнаружения вводящего в заблуждение контента
- OpenAI разрабатывает инструменты, в том числе классификатор обнаружения, для выявления вводящего в заблуждение контента, созданного Sora.
- Цель состоит в том, чтобы усилить проверку контента и обеспечить прозрачность в различении между созданным искусственным интеллектом и аутентичным контентом.
Интеграция метаданных C2PA
- OpenAI планирует включить Метаданные C2PA в будущем внедрении модели в свои продукты.
- Эти метаданные будут служить дополнительным уровнем информации, указывающим, было ли видео создано с помощью модели Sora.
Использование существующих методов безопасности
- OpenAI использует методы безопасности, уже установленные для продуктов, использующих DALL·E 3, которые актуальны для Sora.
- Методы включают в себя классификатор текста для отклонения запросов, нарушающих политику использования, и классификаторы изображений для проверки созданных видеокадров на предмет соблюдения политики.
Взаимодействие с заинтересованными сторонами
- OpenAI будет взаимодействовать с политиками, преподавателями и художниками по всему миру, чтобы понять проблемы и выявить положительные варианты использования.
- Цель состоит в том, чтобы собрать различные точки зрения и отзывы для информирования об ответственном развертывании и использовании технологии.
Реальный подход к обучению
- Несмотря на обширные исследования и испытания, OpenAI признает непредсказуемость использования технологий.
- Изучение опыта реального использования считается необходимым для постоянного повышения безопасности систем искусственного интеллекта с течением времени.

Кроме того, сотрудничество с внешними экспертами, внедрение фильтров и добавление метаданных, сгенерированных ИИ, к помеченным видео. Однако сохраняется риск того, что Sora может способствовать распространению вредоносного контента, подчеркивая необходимость ответственного использования и постоянного мониторинга его распространения в различных контекстах.

Заключение

Короче говоря, Сора, диффузионная модель генерирует видео путем постепенного преобразования статического шума. Он может создавать целые видеоролики одновременно, расширять существующие видеоролики и поддерживать непрерывность сюжета даже во время временного отсутствия изображения. Похожий на GPT моделей Sora использует архитектуру трансформатора для превосходной производительности масштабирования. Видео и изображения представлены в виде патчей, что позволяет обучать диффузионных преобразователей более широкому спектру визуальных данных, включая различную продолжительность, разрешение и соотношение сторон. Опираясь на DALL · E и исследования GPT, Sora использует технику повторения из DALL·E 3, повышая точность пользовательских текстовых инструкций в создаваемых видеороликах. Модель может создавать видеоролики на основе текстовых инструкций, точно анимировать неподвижные изображения и расширять существующие видеоролики, заполняя недостающие кадры. Сора рассматривается как основополагающий шаг на пути к достижению Общий искусственный интеллект (AGI) путем понимания и моделирования реального мира.

Если вы найдете эту статью о последней модели — Sora от OpenAI, прокомментируйте раздел, приведенный ниже. Я буду признателен за ваше мнение.

Подкаст: Играть в новом окне | Скачать