Подсказка по редактированию изображения в чате gpt для оформления фотографии в стиле рисунков студии ghibli

Понять, как ChatGPT создает изображения в стиле Studio Ghibli

Аватар Фелипе Фаустино
После масштабного обновления ChatGPT функциональность теперь позволяет создавать более сложные изображения. Посмотрите, как это работает

Среди напыщенности трендов фотографий в стиле аниме, вы могли бы задаться вопросом: как ChatGPT делает изображения в стиле Studio Ghibli? А раньше не мог? Ну... оказывается, что новая возможность генеративной визуализации OpenAI Это действительно что-то новое и связано с серьезным изменением принципа работы модели искусственного интеллекта компании. Поймите, в этом тексте, как ChatGPT удалось повторить искусство Studio Ghibli и основные отличия по сравнению с другими моделями.

Как ChatGPT создает изображения в стиле Ghibli?

Чтобы понять, как ChatGPT начал иметь возможность генерировать изображения, подобные тем, что были созданы в трендов do Studio Ghibli, необходимо знать основные изменения, вызванные OpenAI в модели ГПТ-4о, читайте ниже.

Что изменилось в модели GPT-4o?

Человек с компьютером, использующий chatgpt для генерации изображений
Изображение: Репродукция/OpenAI

Генерация изображений в ГПТ-4о основан на архитектуре Трансформатор, который анализирует закономерности и связывает текстовые описания с визуальными элементами. В отличие от «моделей диффузии», которые начинаются со случайного изображения и постепенно его уточняют, ГПТ-4о использует метод авторегрессии, создавая изображение последовательными шагами, что улучшает визуальную согласованность и точность соответствия желаемому стилю.

По мере того, как точность и отображение текста на изображениях улучшаются, а способность понимать и следовать подробным подсказкам улучшается, ChatGPT увеличилась его способность управлять количеством отдельных объектов в одной сцене (до 20 по сравнению с предыдущими 5–8 объектами) и может поддерживать правильные отношения между ними.

По сравнению с предыдущими моделями, такими как ДАЛЛ-Э 3, который использовал трубопроводов (набор шагов или процессов) отдельных для разных типов носителей, ГПТ-4о использует единый подход, позволяющий получать более быстрые ответы и изображения, которые лучше соответствуют текстовым командам, устраняя необходимость в многочисленных промежуточных процессах. Это означает, что модель может лучше интерпретировать нюансы подсказок, предоставляемых пользователями, гарантируя, что визуальный вывод будет в большей степени соответствовать первоначальному замыслу.

Вся эта мощь сопряжена с противоречивой проблемой: с ростом спроса на графическую обработку из-за бурного развития моды в Интернете, OpenAI необходимо ограничить использование инструмента на несколько дней, особенно для бесплатных пользователей ChatGPT, потому что их Графические процессоры «таяли», по словам генерального директора компании, Сэм Альтман. Несмотря на неудобства, компания уже запустила генерацию расширенных изображений для пользователей бесплатного плана, как сообщил руководитель.

Каким образом обновление позволяет использовать изображения в стиле Ghibli?

Двое мужчин и собака, слева, справа одно и то же фото, преобразованное в стиле аниме
Изображение: Личный архив/Бруно Мартинес

Но что все это означает для способности ИИ улавливать эстетику Studio Ghibli? Оказывается, с новым обновлением ГПТ-4о Он начинает лучше понимать шаблоны стиля на основе большого количества примеров изображений и учится воспроизводить эти характеристики на основе команд, предоставляемых пользователем.

Хотя OpenAI не указали явно, включал ли их обучающий набор данных конкретные произведения искусства Studio GhibliКак В Виагем де Тихиро ou Мальчик и журавль – преодолевая разрыв, который отличает воспроизведение студийных стилей от стилей ныне живущих художников, – мастерство модели в воспроизведении эстетики студии убедительно свидетельствует о том, что он был подвержен воздействию большого количества образцов фильмов и связанных с ними стилей.

Благодаря этой выставке, ГПТ-4о изучить основные визуальные характеристики, определяющие стиль Studio Ghibli, в том числе: ощущение рисованной анимации, часто напоминающее традиционную бумажную анимацию; фоны, вызывающие чувство удивления и спокойствия; выразительные персонажи, как правило, с большими, эмоциональными глазами; мягкая, естественная цветовая палитра, в которой преобладают пастельные, мягкие тона; детализированное окружение, которое часто сочетает в себе элементы фэнтези и реализма

Кроме того, ГПТ-4о Он также может обрабатывать входные данные изображений, позволяя пользователям преобразовывать существующие визуальные материалы или использовать их в качестве основы для создания нового контента. Таким образом, помимо того, что пользователям не нужно рассказывать все подробности о художественном стиле, который они хотят воспроизвести, им также не нужно описывать себя или фотографию, которую они хотят воссоздать, достаточно просто вставить фотографию в чат и попросить ИИ воспроизвести ее в стиле анимации — как вы можете видеть в нашей статье о Как создавать картинки в стиле Ghibli с помощью ChatGPT, с подсказками и подсказками.

Могут ли другие ИИ воспроизвести стиль Studio Ghibli?

Создавайте новые изображения, используя chatbots не является новинкой, однако, емкость, достигнутая за счет обновления ChatGPT При анализе и воспроизведении деталей, предложенных в подсказке, они заменяют ИИ OpenAI опережая своих основных конкурентов, таких как GeminiЯ Google, Grok, С XAi e Copilot, С Microsoft, с точки зрения генерации изображения.

Посмотрите на разницу между тем же изображением, преобразованным в рисунок с линией, вдохновленной Studio Ghibli следуя той же подсказке:

Crie uma imagem, inspirada nessa foto, com base no estilo do Studio Ghibli
Фотография мужчины в естественной среде, одетого в темно-синюю рубашку - узнайте, как chatgpt создает изображения в стиле студии ghibli
Разница в конечном качестве очевидна, особенно при создании букв и символов – Изображение: Личный архив/Фелипе Фаустино

Помимо лучшего захвата деталей исходного изображения, одним из величайших достижений в области генеративной визуализации является ГПТ-4о Это заметно по возможности воспроизвести логотип и буквы на футболке, что весьма затруднительно в других моделях.

В то время Grok удается, в некотором роде, воссоздать особенности стиля Studio Ghibli, хотя это и страдает от детализации изображения, Gemini идет полностью против течения, в результате чего получается пошлое искусство. Стоит помнить, что Google уже инвестирует в обновление генеративных изображений Gemini, позволяющий создавать сложные изображения и редактировать фотографии – инструменты, которые можно протестировать через AI Studio, Copilot, С Microsoft, не ответил на запрос.

Вы уже протестировали инструмент для входа в Тренд студии Ghibli? Сообщите нам в комментариях.

См. также

Текст отредактирован Александр Маркес от 01.

Fontes: Таймс оф Индия, Время Индостана, Economic Times


Узнайте больше о Showmetech

Подпишитесь, чтобы получать наши последние новости по электронной почте.

Похожие сообщения
Миссии Артемиды на Луну 3

Возвращение на Луну: узнайте о 5 этапах миссии «Артемида».

Программа НАСА предусматривает как высадку на Луну, так и создание постоянной базы на Луне. Ознакомьтесь с хронологией миссии и разберитесь в назначении каждого этапа.
Виктор Пачеко аватар
Читать дальше
Миссия «Артемида II» сегодня прибывает на Луну. Смотрите прямую трансляцию этого события.

Сегодня миссия «Артемида II» прибывает на Луну. Смотрите прямую трансляцию этого события.

Прямая трансляция Netflix покажет эксклюзивные ракурсы, ранее не публиковавшиеся кадры из поездки и обновления в режиме реального времени. Узнайте, как посмотреть.
Виктор Пачеко аватар
Читать дальше