Omost Art: Высококачественная генерация изображений ИИ с помощью кратчайших подсказок

Как использовать Omost Лучшие практики и объяснения

Prompt: Little witch in the woods

Prompt: a crowded expo

Prompt: the yellow river

a crowded expo by omost
a crowded expo by omost
the_yellow_river_byOmost
the_yellow_river_byOmost

Try Omost

⚠️Due to the GPU limitaions of Huggingface, you might only try once or twice here.

Explore Omost Art Gallery

a-hyperrealistic-model-with-delicate-watercolor-inspired-makeup
a-hyperrealistic-model-with-delicate-watercolor-inspired-makeup
Protraits

Real results, no cherry picking

blurry-image-of-palm-leaves-white-and-emerald-nature-based-patterns-flower-and-nature-motifs-soft-tonal-range
blurry-image-of-palm-leaves-white-and-emerald-nature-based-patterns-flower-and-nature-motifs-soft-tonal-range
Products
Art
Abstract

Объяснение Omost

Omost — проект, разработанный для использования возможностей кодирования больших языковых моделей (LLM) для генерации и составления изображений.

Название проекта, Omost (произносится "почти"), отражает его цель: после использования Omost ваше изображение почти готово.

"О" означает "омни" (мультимодальный), а "most" обозначает цель максимизации его возможностей.

Как работает Omost

Основная концепция

Omost позволяет LLM писать код, который составляет визуальный контент на виртуальном холсте. Этот холст служит чертежом, который может быть преобразован в реальные изображения с помощью конкретных реализаций генераторов изображений. По сути, Omost выступает посредником между текстовыми описаниями и созданием визуального контента.

Обучение модели

Omost предоставляет три предварительно обученные модели LLM на основе вариаций Llama3 и Phi3. Эти модели обучаются с использованием различных источников данных:

  • Аннотации с точными данными: Данные из нескольких наборов данных, включая Open-Images, которые предоставляют точные аннотации.

  • Автоматически аннотированные изображения: Данные, извлеченные путем автоматической аннотации изображений.

  • Оптимизация предпочтений напрямую (DPO): Данные усиления на основе того, может ли код быть скомпилирован Python 3.10 или нет.

  • Настроечные данные: Небольшое количество данных от мультимодальных возможностей OpenAI GPT-4o.

Ограничения Omost

  • Ограничен определенными типами взаимодействий и сценариями.

  • Требует значительных вычислительных ресурсов.

  • Зависимость от производительности SDXL.

  • Возможные предвзятости в модели.

  • Ограниченная поддержка неанглийских языков.

  • Версия на Huggingface сильно цензурирована; вы не можете генерировать изображения знаменитостей.

  • Может выдавать менее точные результаты для сложных или нюансированных запросов.

2024 NBA final, made by Omost
2024 NBA final, made by Omost

Prompt: 2024 NBA FINAL

A FAILED example. See more examples: Omost Art Blog

Как развернуть Omost локально

Требования: 8ГБ видеопамяти Nvidia

Кто создал Omost

Люмин Чжан (Lyumin Zhang) — аспирант кафедры компьютерных наук Стэнфордского университета, работающий под руководством профессора Маниша Агравалы с 2022 года. Ранее он работал научным сотрудником в лаборатории профессора Тьен-Цин Вонга в Китайском университете Гонконга с 2021 года. Он сотрудничал во многих интересных проектах с профессором Эдгаром Симо-Серра. Люмин получил степень бакалавра инженерии в Сучжоусском университете в 2021 году под руководством профессоров Ии Дзи и Чуньпин Лю.

Исследовательские интересы Люмина охватывают вычислительное искусство и дизайн, интерактивное создание контента, компьютерную графику и обработку изображений и видео, с особой страстью к аниме. Отражая этот энтузиазм, он основал исследовательскую группу Style2Paints, которая сосредоточена на этих областях. Более того, он разработал программное обеспечение для рисования аниме под названием Style2Paints.

Другие проекты Чжана

Lvmin Zhang
Lvmin Zhang