Инновации в области видеоискусственного интеллекта: революция в бесконтактном розыгрыше карт -

Не удовлетворены просмотром «Игры кальмаров»? Создайте свою собственную концовку.

GIF-анимация пользовательской концовки игры Squid

Не можете дождаться «Дюны Часть 3»? Создайте свою собственную версию.

GIF-анимация пользовательской сцены Дюны

Раньше поддержание единообразия внешнего вида персонажей требовало значительного времени. Теперь, имея всего лишь скриншот, ИИ может начать создавать фильмы.

Это стало возможным благодаря функции Conch AI «Subject Reference», работающей на новой модели S2V-01. Она точно определяет объект в загруженных изображениях и устанавливает его в качестве персонажа в сгенерированных видео. Остальное просто: творите свободно с помощью базовых инструкций.

GIF-изображение, демонстрирующее точное сохранение информации о лице — _{Создание пользователя X @KarolineGeorges с точным сохранением информации о лице”}

GIF-анимация с изображением различных предметов — _{«Создание пользователя X @Apple_Dog_Sol, демонстрирующее разнообразные темы»}

Преимущества функции «Ссылка на тему»

Многие компании разрабатывают функции «Справочника по предмету», но не все могут справиться с проблемами стабильности и согласованности, особенно с сохранением последовательности в движении.

В то время как другие могут испытывать трудности, Conch AI превосходит все. Имея всего одно изображение, он точно распознает черты характера, идентифицирует их как субъектов и помещает их в различные сцены.

В один момент Человек-паук спасает мир, а в другой — едет на мотоцикле.

Мать драконов, которая должна была тренировать драконов в «Игре престолов», теперь играет с маленьким волчонком.

Прорыв в «референтности предмета» заключается в достижении баланса между творческой свободой и точностью. Это как дать создателям «универсального актера», внешность которого не искажается, а естественным образом меняется с действиями и позами, выполняя любое действие в любой сцене так, как того требует режиссер.

Не просто новая функция, а уникальное техническое решение

Реальный опыт испытаний показывает, что сопоставление субъектов — это другая функция, имеющая другие технические сложности и требования по сравнению с генерацией текста в изображение или изображения в изображение.

Традиционная генерация изображений в видео анимирует только статические изображения, в основном с частичными изменениями. Например, в этом кадре Сон Хе-кё, изображение в видео только превращает статическое изображение в динамическое с ограниченным диапазоном и без существенных движений.

Оригинальный кадр Сон Хе Гё — _{Оригинальный еще}

Анимированный кадр Сон Хе Гё — _{Видео, созданное из изображения-в-видео}

Используя ту же фотографию, «объектный ориентир» может создать полный сегмент на основе текстовых подсказок, обеспечивая свободное движение при сохранении стабильных черт лица.

Сгенерированное видео Сон Хе-Кё — _{Теплое внутреннее освещение, театральная публика, главный герой в черном костюме сидит в среднем ряду слева. Выражение ее лица сосредоточено, иногда она слегка улыбается, хлопает естественно и ритмично. Камера начинает с ее стороны, захватывая силуэты других зрителей и тусклые текстуры сидений, подчеркивая глубину окружения. По мере приближения камеры главный герой встает.}

В настоящее время существует два технических пути создания видео с темой. Один основан на технологии LoRA, которая тонко настраивает предварительно обученные большие генеративные модели. LoRA требует значительных вычислений при создании новых видео, что заставляет пользователей загружать несколько углов одного и того же объекта, даже указывая разные элементы для каждого сегмента, чтобы обеспечить качество. Это также потребляет много токенов и требует длительного времени ожидания.

После обширных технических исследований MiniMax выбрала путь, основанный на референсе изображения: изображения содержат наиболее точную визуальную информацию, соответствующую творческой логике физической съемки. В этом пути главный герой на изображении является главным приоритетом для модели для узнавания — независимо от последующих сцен или сюжета, объект должен оставаться последовательным.

Другая визуальная информация более открыта и контролируется текстовыми подсказками. Такой подход достигает цели «точного воспроизведения + высокой свободы».

Персонаж стоит перед драконом, его волосы и платье развеваются на ветру. — _{На поляне в долине главный герой стоит перед драконом, его длинные волосы развеваются на ветру. Камера постепенно отъезжает, захватывая главного героя, поворачивающегося, чтобы посмотреть вдаль. Крылья дракона расправляются, развевая волосы и платье главного героя, и сцена заканчивается видом сверху».}

В этом видео модели была предоставлена только одна фотография Королевы Драконов. Окончательное сгенерированное видео точно представило язык камеры и визуальные элементы, упомянутые в подсказке, демонстрируя прочное понимание.

По сравнению с решением LoRA этот технический подход значительно сокращает объем материала, который необходимо загрузить пользователям, преобразуя десятки видеофрагментов в одно изображение. Время ожидания измеряется секундами, ощущаясь как время, необходимое для генерации текста или изображений, — сочетая точность изображения в видео со свободой текста в видео.

Основные моменты китайского производства, отвечающие вашим многочисленным потребностям

Множественные потребности не являются чрезмерным требованием. Только одновременно достигая точных и последовательных изображений персонажей и свободного движения, модель может превзойти простые развлекательные применения и иметь более широкую ценность в промышленных приложениях.

Например, в рекламе продукции одно изображение модели может напрямую генерировать различные видеоролики о продукте путем простой замены слов-подсказок.

Бегун в движении, демонстрирующий динамическую генерацию видео.

Видеоролик об изделиях из стекла, демонстрирующий детальную визуальную генерацию.

Если использовать методы преобразования изображения в видео, то текущее основное решение заключается в установке первого и последнего кадров, при этом эффект ограничивается существующими изображениями. Это также требует повторных попыток собрать разные углы и затем сшить материалы вместе, чтобы завершить последовательность кадров.

Преимуществом «тематической привязки» является объединение характеристик различных технологий для лучшего соответствия рабочему процессу создания видео. В будущем более 80% специалистов по маркетингу будут использовать генеративные инструменты на разных этапах, сосредотачиваясь только на концепции истории и сюжета, что освободит им руки.

По данным Statista, объем рынка продуктов генеративного ИИ в рекламе и маркетинге превысил $15 млрд в 2021 году. К 2028 году эта цифра достигнет $107.5 млрд. В предыдущих рабочих процессах чистый текст в видео имел слишком много неконтролируемых факторов, подходящих для ранних стадий создания. В европейской и американской индустрии рекламы и маркетинга генеративный ИИ уже очень распространен, с 52% случаев использования для черновиков и планирования и 48% для мозгового штурма.

В настоящее время Hailuo AI впервые открывает возможность ссылки на одного персонажа. В будущем она будет расширена до нескольких персонажей, объектов, сцен и многого другого, еще больше раскрывая креативность, как и предполагает слоган Hailuo: «Каждая идея — это блокбастер».

С тех пор как MiniMax выпустила видеомодель в августе 2023 года, она постоянно привлекает большое количество пользователей по всему миру, благодаря качеству и плавности создаваемых изображений, а также последовательности и стабильности, получая множество положительных отзывов и профессионального признания.

В прошлом году технологической конкуренции изначально сформировался конкурентный ландшафт области генерации видео с использованием ИИ. Реализация Sora показала потенциал генерации видео, побудив крупные технологические компании вкладывать значительные средства в эту область.

Из-за задержки запуска продукта Sora в конце 2024 года и средних отзывов пользователей он не оправдал ожиданий рынка, что дало другим игрокам шанс захватить рынок.

Сейчас, когда генеративное видео вступает во вторую половину года, только три компании действительно демонстрируют техническую мощь и потенциал развития: Hailuo AI от MiniMax, Keling AI от Kuaishou и Jimeng AI от ByteDance.

Будучи стартапом, основанным всего три года назад, MiniMax представил продукты и технологии, которые могут конкурировать на высшем уровне с его небольшим стартапом. От модели преобразования изображения в видео I2V-01-Live в декабре 2023 года до новой модели S2V-01 они решали проблемы предыдущего поколения видео.

По мере того, как технологии продолжают развиваться, а сценарии применения расширяются, ИИ-генерация видео вызовет новую революцию в создании контента, кинопроизводстве, маркетинге и коммуникациях. Эти компании, представляющие высший уровень области ИИ-генерации видео в Китае, не только лидируют на китайском рынке, но и, как ожидается, будут конкурировать на глобальном уровне с международными гигантами. Между тем, обеспечение стабильности и управляемости продукта при сохранении технологических инноваций будет постоянной проблемой для этих предприятий.

Источник из ифанр

Отказ от ответственности: информация, изложенная выше, предоставлена ifanr.com независимо от Chovm.com. Chovm.com не делает никаких заявлений и не дает никаких гарантий относительно качества и надежности продавца и продукции. Chovm.com категорически отказывается от какой-либо ответственности за нарушения авторских прав на контент.

Новости

Инновации в области видеонаблюдения с использованием искусственного интеллекта: революция в бесконтактном розыгрыше карт

Преимущества функции «Ссылка на тему»

Не просто новая функция, а уникальное техническое решение

Основные моменты китайского производства, отвечающие вашим многочисленным потребностям

Об авторе

ифанр

Оставьте комментарий

Преимущества функции «Ссылка на тему»

Не просто новая функция, а уникальное техническое решение

Основные моменты китайского производства, отвечающие вашим многочисленным потребностям

Об авторе

ифанр

Похожие сообщения

Оставьте комментарий