Sora от OpenAI — создайте видео из текста!

Кадр из видео, сгенерированного системой Sora

Компания OpenAI анонсировала выход своего нового творения — системы Sora. Sora — это сервис на базе искусственного интеллекта, с помощью которого можно создавать реалистичные и фантастические видео на основе промптов (т.е. текстовых инструкций пользователя).

Если выразить это простыми словами, то вы пишете текст, а Sora на основе этого текста создает видео!

Пример промпта (с официальной страницы Sora)

A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights.

Как видно из этого примера, промпт должен быть очень точным и подробным.

Также на официальной страницы Sora вы можете увидеть видео, сгенерированное сервисом Sora на основе этого промпта. Скриншот этого видео показан на картинке сверху.

Нужно отметить, что результат очень впечатляет. Некоторые эксперты считают, что эти видео выглядят просто ошеломляюще реалистичными и правдоподобными!

Глядя на эти видео, трудно поверить, что они не сняты настоящими видеокамерами, а искусственно сгенерированы нейросетью! И, поскольку другие сервисы до такого уровня реалистичности пока не дотягивают, можно сказать, что в области развития систем ИИ взята очередная вершина!

В анонсе говорится, что специалисты компании OpenAI обучают искусственный интеллект (ИИ) понимать и моделировать физический мир в движении, чтобы создавать различные видео, которые помогут людям решать реальные проблемы.

В результате на свет появилась Sora — модель преобразования текста в видео. Sora может создавать видеоролики продолжительностью до минуты, сохраняя при этом визуальное качество и соответствие указаниям пользователя.

Сегодня Sora становится доступной для специалистов по кибербезопасности для оценки факторов риска и различных уязвимостей, а также возможностей нанесения вреда. Доступ также предоставляется ряду художников, дизайнеров и режиссеров, чтобы получить отзывы о том, как усовершенствовать модель, чтобы она была максимально полезна для представителей творческих профессий.

Таким образом, широкой публике сервис Sora пока еще не доступен.

Компания OpenAI хочет поделиться результатами своих исследований, чтобы начать работать и получать отзывы от людей, не связанных с OpenAI, а также дать общественности представление о том, какие возможности ИИ уже видны на горизонте.

Sora способна создавать сложные сцены с несколькими персонажами, определенными типами движения и точными деталями объекта и фона. Модель понимает не только то, что пользователь запросил в командной строке, но и то, как эти вещи существуют в физическом мире.

Sora обладает глубоким пониманием языка, что позволяет ей точно интерпретировать промпты и создавать убедительных персонажей, выражающие яркие эмоции. Sora также может создавать несколько кадров в одном видео, в которых точно сохраняются персонажи и визуальный стиль.

У текущей модели есть недостатки. Она может не справляться с точным моделированием физики сложной сцены и не понимать конкретные случаи причинно-следственных связей. Например, человек может откусить от печенья, но после этого на печенье может не остаться следа от укуса.

Модель также может путать пространственные детали промпта. Например, путать левое и правое, и испытывать трудности с точным описанием событий, происходящих во времени, например, следование по определенной траектории камеры.

Методы исследования

Sora — это диффузионная модель, которая генерирует видео, начиная с видео, похожего на статический шум, и постепенно преобразует его, удаляя шум в течение многих шагов.

Sora способна генерировать целые видео за один раз или удлинять сгенерированные видео, делая их длиннее. Предоставив модели возможность предвидеть множество кадров одновременно, мы решили сложную задачу — сделать так, чтобы объект оставался неизменным, даже если он на время пропадает из поля зрения.

Подобно моделям GPT, Sora использует архитектуру трансформера (преобразователя), позволяющую достигать превосходных результатов в масштабировании.

Видео и изображения представляются как наборы малых единиц данных, называемых патчами (patches), каждый из которых подобен токену в GPT. Унифицируя способ представления данных, можно обучать диффузионные преобразователи на более широком спектре визуальных данных, чем это было возможно раньше, т.е. с различной продолжительностью, разрешением и соотношением сторон (пропорциями кадра).

Sora опирается на предыдущие исследования в области моделей DALL-E и GPT. Она использует технику из DALL-E 3, которая заключается в создании очень детальных описаний к визуальным обучающим данным. В результате в сгенерированном видео Sora способна более точно следовать текстовым инструкциям пользователя.

Помимо возможности генерировать видео исключительно из текстовых инструкций, модель способна взять существующее неподвижное изображение и сгенерировать из него видео, «оживляя» содержимое изображения с точностью и вниманием к мелким деталям. Модель также может взять существующее видео и расширить его или заполнить недостающие кадры. Более подробно об этом вы можете узнать в техническом отчете.

Sora служит основой для создания моделей, способных понимать и моделировать реальный мир, что, по мнению компании OpenAI, станет важной вехой на пути к достижению AGI.

Справка

AGI (Artificial General Intelligence — Общий искусственный интеллект) – это предполагаемая система искусственного интеллекта, обладающая автономным самоконтролем, достаточной степенью самосознания и способностью осваивать новые навыки. Предполагается, что такие системы смогут решать сложные проблемы в условиях и контекстах, которым они не обучались во время создания.

Если Вас интересует раскрутка сайта:

Пишите: [email protected]

Или отправьте запрос на продвижение сайта, и я с Вами свяжусь.

Отправить запрос