Sora від OpenAI – створіть відео з тексту!

Кадр із відео, згенерованого системою Sora

Компанія OpenAI анонсувала вихід свого нового творіння – системи Sora. Sora — це сервіс на базі штучного інтелекту, за допомогою якого можна створювати реалістичні та фантастичні відео на основі промптів (тобто текстових інструкцій користувача).

Якщо висловити це простими словами, то ви пишете текст, а Sora на основі цього тексту створює відео!

Приклад промпту (з офіційної сторінки Sora):

A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights.

Як видно з цього прикладу, промпт має бути дуже точним і докладним.

Також на офіційній сторінці Sora ви можете побачити відео, згенероване сервісом Sora на основі цього промпта. Скріншот цього відео показано на зображенні зверху.

Потрібно зазначити, що результат дуже вражає. Деякі експерти вважають, що ці відео виглядають просто приголомшливо реалістичними і правдоподібними!

Фахівці компанії OpenAI навчають штучний інтелект (ШІ) розуміти та моделювати фізичний світ у русі, щоб створювати різноманітні відео, які допоможуть людям вирішувати реальні проблеми.

У результаті на світ з’явилася Sora – модель перетворення тексту на відео. Sora може створювати відеоролики тривалістю до хвилини, зберігаючи при цьому візуальну якість і відповідність вказівкам користувача.

Сьогодні Sora стає доступною для фахівців з кібербезпеки для оцінювання факторів ризику і різних вразливостей, а також можливостей нанесення шкоди. Доступ також надається низці художників, дизайнерів і режисерів, щоб отримати відгуки про те, як удосконалити модель, щоб вона була максимально корисна для представників творчих професій.

Компанія OpenAI хоче поділитися результатами своїх досліджень, щоб почати працювати й отримувати відгуки від людей, не пов’язаних з OpenAI, а також дати громадськості уявлення про те, які можливості ШІ вже видно на горизонті.

Sora здатна створювати складні сцени з кількома персонажами, певними типами руху і точними деталями об’єкта і фону. Модель розуміє не тільки те, що користувач запросив у командному рядку, а й те, як ці речі існують у фізичному світі.

Sora має глибоке розуміння мови, що дає їй змогу точно інтерпретувати промпти (підказки) і створювати переконливих персонажів, які виражають яскраві емоції. Sora також може створювати кілька кадрів в одному відео, в яких точно зберігаються персонажі та візуальний стиль.

У поточної моделі є недоліки. Вона може не справлятися з точним моделюванням фізики складної сцени і не розуміти конкретні випадки причинно-наслідкових зв’язків. Наприклад, людина може відкусити від печива, але після цього на печиві може не залишитися сліду від укусу.

Модель також може плутати просторові деталі промпта. Наприклад, плутати ліве і праве, і відчувати труднощі з точним описом подій, що відбуваються в часі, наприклад, проходження по певній траєкторії камери.

Методи дослідження

Sora – це дифузійна модель, яка генерує відео, починаючи з відео, схожого на статичний шум, і поступово перетворює його, видаляючи шум протягом багатьох кроків.

Sora здатна генерувати цілі відео за один раз або подовжувати згенеровані відео, роблячи їх довшими. Надавши моделі можливість передбачати безліч кадрів одночасно, ми розв’язали складну задачу – зробити так, щоб об’єкт залишався незмінним, навіть якщо він на деякий час зникає з поля зору.

Подібно до моделей GPT, Sora використовує архітектуру трансформера (перетворювача), що дає змогу досягати чудових результатів у масштабуванні.

Відео та зображення подаються як набори малих одиниць даних, званих патчами (patches), кожен з яких подібний до токена в GPT. Уніфікуючи спосіб подання даних, ми можемо навчати дифузійні перетворювачі на ширшому спектрі візуальних даних, ніж це було можливо раніше, тобто з різною тривалістю, роздільною здатністю і співвідношенням сторін (пропорціями кадру).

Sora спирається на попередні дослідження в галузі моделей DALL-E і GPT. Вона використовує техніку з DALL-E 3, яка полягає у створенні дуже детальних описів до візуальних навчальних даних. У результаті в згенерованому відео Sora здатна більш точно слідувати текстовим інструкціям користувача.

Крім можливості генерувати відео виключно з текстових інструкцій, модель здатна взяти наявне нерухоме зображення та згенерувати з нього відео, “оживляючи” вміст зображення з точністю та увагою до дрібних деталей. Модель також може взяти наявне відео і розширити його або заповнити відсутні кадри. Більш докладно про це ви можете дізнатися в технічному звіті.

Sora слугує основою для створення моделей, здатних розуміти і моделювати реальний світ, що, на нашу думку, стане важливою віхою на шляху до досягнення AGI.

Довідка

AGI (Artificial General Intelligence – Загальний штучний інтелект) – це система штучного інтелекту, що має автономний самоконтроль, достатній ступінь самосвідомості і здатність освоювати нові навички. Передбачається, що такі системи зможуть вирішувати складні проблеми в умовах і контекстах, яких вони не навчалися під час створення.

Якщо Вас цікавить розкрутка сайту:

Пишіть: [email protected]

Або надішліть нам запит на розкрутку сайту, і я з Вами зв’яжусь.

Відправити запит