"Искусственный интеллект"

Манипулируйте реальными изображениями с помощью текста

AI для творческих художников! Объяснение StyleCLIP

Первоначально опубликовано на louisbouchard.ai, прочтите его за 2 дня до этого в моем блоге!

Посмотрите видео и поддержите меня на YouTube:

Исследователи использовали ИИ для создания изображений. Затем они могли использовать его, чтобы взять изображение и отредактировать его в соответствии с определенным стилем, например, превратить его в мультяшного персонажа или превратить любое лицо в улыбающееся лицо. Для достижения чего-то реалистичного требовалось много доработок и проектирования моделей, а также множество проб и ошибок. В этой области было много достижений, в основном StyleGAN, который обладает невероятной способностью генерировать реалистичные изображения практически в любой области; реальные люди, мультфильмы, скетчи и т. д.

StyleGAN великолепен, но для того, чтобы результаты выглядели так, как задумано, ему все еще требуется довольно много работы, поэтому многие люди пытаются понять, как создаются эти изображения, и особенно как ими управлять. Это чрезвычайно сложно, поскольку представление, в котором мы редактируем изображения, не подходит для человека. Вместо того, чтобы быть обычными изображениями с тремя измерениями, красным, жадным и синим, они содержат чрезвычайно плотную информацию и, следовательно, содержат сотни измерений с информацией обо всех функциях, которые может содержать изображение. Вот почему понимание и локализация функций, которые мы хотим изменить для создания новой версии того же изображения, требует так много работы. Ключевые слова здесь - «одного и того же изображения». Задача состоит в том, чтобы отредактировать только нужные части, а все остальное оставить без изменений. Если мы изменим цвет глаз, мы хотим, чтобы все остальные черты лица остались такими же.

Недавно я рассмотрел различные методы, с помощью которых исследователи пытались упростить этот контроль для пользователя, используя лишь несколько примеров изображений или быстрые наброски того, чего мы хотим достичь.

Теперь вы можете сделать это, используя только текст. В этой новой статье Ор Паташник и др. создали модель, способную управлять процессом генерации изображения с помощью простого ввода текста. Вы можете отправить ему практически любое преобразование лица и с помощью StyleGAN и CLIP. Он поймет, что вы хотите, и изменит это.
Затем вы можете настроить некоторые параметры, чтобы получить наилучший результат, и это займет меньше секунды.

Я упомянул StyleGAN. StyleGAN - это современная архитектура GAN от NVIDIA для синтеза или генерации изображений. Я сделал много видео, посвященных этому в различных приложениях, которые вам обязательно стоит посмотреть, если вы с ним не знакомы.

Прежде чем вдаваться в подробности, единственное, что осталось рассмотреть, - это еще одна модель, о которой я говорил, с которой сочетается StyleGAN, а именно CLIP. Быстро, CLIP - это мощный язык для моделирования изображений, недавно опубликованный OpenAI. Как мы увидим, эта модель отвечает за управление модификациями изображения, используя только наше изображение и ввод текста. Он был обучен на множестве пар изображение-текст из Интернета и может в основном понимать, что появляется на изображении. Поскольку CLIP был обучен на таких парах изображение-текст, он может эффективно сопоставить текстовое описание с существующим изображением. Таким образом, мы можем использовать тот же принцип в нашей текущей модели, чтобы ориентировать изображение, созданное StyleGAN, на желаемое преобразование текста. Вам следует прочитать статью OpenAI's Distill, если вы хотите узнать больше о CLIP. Ссылки на него приведены в приведенных ниже ссылках. Он использовался для поиска определенных изображений на Unsplash с помощью ввода текста и других очень интересных приложений. Скоро станет ясно, чем может быть полезен CLIP в этом случае. Кстати, если вам это интересно, найдите секунду, чтобы поделиться забавой и отправить эту статью другу. Это очень помогает!

Как я уже сказал, исследователи использовали обе эти уже обученные модели, StyleGAN и CLIP, чтобы это произошло. Вот как…

Он принимает входное изображение, например, в данном случае человеческое лицо. Но это также может быть лошадь, кошка или машина… Все, что вы можете найти в модели StyleGAN, обученной на таких изображениях с достаточным количеством данных. Затем это изображение кодируется в скрытый код с помощью кодировщика, точно так же, здесь он называется w.

Этот скрытый код - просто сжатое представление изображения, созданного сверточной нейронной сетью. Он содержит самую полезную информацию об изображении, которая была идентифицирована во время обучения модели.
Если это уже слишком сложно, я настоятельно рекомендую приостановить чтение и посмотреть короткое 1-минутное видео I сделано для GAN, где я объясняю, как обычно работает кодировщик.

Этот скрытый код или новое представление изображения затем отправляется в три сети картографов, которые обучены манипулировать желаемыми атрибутами изображения при сохранении других функций. Каждая из этих сетей отвечает за обучение тому, как отображать определенный уровень детализации, от грубого до мелкого, который определяется при извлечении информации из кодировщика на разных глубинах в сети, как я объяснил в моем видео GAN. Таким образом, они могут индивидуально управлять общими или мелкими функциями. Здесь модель CLIP используется для управления этими сопоставлениями. Благодаря обучению сопоставления научатся перемещаться в соответствии с вводом текста, поскольку модель CLIP понимает содержимое изображений и кодирует текст так же, как кодируется изображение. Таким образом, CLIP может понимать переводы, сделанные из текста в другой, например «нейтральное лицо» в «удивленное лицо», и сообщать сетям картографии, как применить это же преобразование к сопоставлениям изображений. Это преобразование является здесь дельта-вектором, который контролируется CLIP и применяет те же относительные перемещения и вращения к скрытому коду w, что и для текста. Затем этот модифицированный скрытый код отправляется в генератор StyleGAN для создания нашего преобразованного изображения.

Таким образом, модель CLIP понимает изменения, происходящие в предложении, например «нейтральное лицо» на «удивленное лицо», и они применяют то же преобразование к закодированному представление изображения. Этот новый преобразованный скрытый код затем отправляется генератору StyleGAN для генерации нового изображения.

И вуаля! Вот как вы можете отправить изображение и изменить его на основе простого предложения с помощью этой новой модели. Они также создали google colab и локальный графический интерфейс, чтобы протестировать его на себе с любым изображением и легко поиграть с ним, используя ползунки для интуитивного управления изменениями.

Конечно, код доступен и на GitHub. Единственное ограничение для этого - то, что вам нужно обучать картографические сети, но они также затронули эту проблему в своей статье. Для более глубокого понимания того, как это работает, и просмотра этих двух других методов, они представили управление генерацией изображений с помощью CLIP без какого-либо обучения. Я настоятельно рекомендую прочитать их статью. Это стоит потраченного времени! Все ссылки есть в ссылках ниже.

Спасибо за чтение!

Если вам нравится моя работа и вы хотите быть в курсе событий с искусственным интеллектом, вы обязательно должны подписаться на меня в других моих учетных записях в социальных сетях (LinkedIn, Twitter) и подписаться на мою еженедельную информационную рассылку AI !

Чтобы поддержать меня:

  • Лучший способ поддержать меня - это стать участником этого веб-сайта или подписаться на мой канал на YouTube, если вам нравится формат видео. .
  • Поддержите мою работу над Patreon финансово
  • Следуйте за мной здесь, на medium

Использованная литература: