Omost Art: Высококачественная генерация изображений ИИ с помощью кратчайших подсказок
Как использовать Omost Лучшие практики и объяснения
Prompt: Little witch in the woods
Prompt: a crowded expo
Prompt: the yellow river
Объяснение Omost
Omost — проект, разработанный для использования возможностей кодирования больших языковых моделей (LLM) для генерации и составления изображений.
Название проекта, Omost (произносится "почти"), отражает его цель: после использования Omost ваше изображение почти готово.
"О" означает "омни" (мультимодальный), а "most" обозначает цель максимизации его возможностей.
Как работает Omost
Основная концепция
Omost позволяет LLM писать код, который составляет визуальный контент на виртуальном холсте. Этот холст служит чертежом, который может быть преобразован в реальные изображения с помощью конкретных реализаций генераторов изображений. По сути, Omost выступает посредником между текстовыми описаниями и созданием визуального контента.
Обучение модели
Omost предоставляет три предварительно обученные модели LLM на основе вариаций Llama3 и Phi3. Эти модели обучаются с использованием различных источников данных:
Аннотации с точными данными: Данные из нескольких наборов данных, включая Open-Images, которые предоставляют точные аннотации.
Автоматически аннотированные изображения: Данные, извлеченные путем автоматической аннотации изображений.
Оптимизация предпочтений напрямую (DPO): Данные усиления на основе того, может ли код быть скомпилирован Python 3.10 или нет.
Настроечные данные: Небольшое количество данных от мультимодальных возможностей OpenAI GPT-4o.
Как развернуть Omost локально
Кто создал Omost
Люмин Чжан (Lyumin Zhang) — аспирант кафедры компьютерных наук Стэнфордского университета, работающий под руководством профессора Маниша Агравалы с 2022 года. Ранее он работал научным сотрудником в лаборатории профессора Тьен-Цин Вонга в Китайском университете Гонконга с 2021 года. Он сотрудничал во многих интересных проектах с профессором Эдгаром Симо-Серра. Люмин получил степень бакалавра инженерии в Сучжоусском университете в 2021 году под руководством профессоров Ии Дзи и Чуньпин Лю.
Исследовательские интересы Люмина охватывают вычислительное искусство и дизайн, интерактивное создание контента, компьютерную графику и обработку изображений и видео, с особой страстью к аниме. Отражая этот энтузиазм, он основал исследовательскую группу Style2Paints, которая сосредоточена на этих областях. Более того, он разработал программное обеспечение для рисования аниме под названием Style2Paints.