Omost Art: Hochwertige KI-Bilderzeugung mit den kürzesten Prompts

Omost verwenden, Best Practices und Erklärungen

Prompt: Little witch in the woods

Prompt: a crowded expo

Prompt: the yellow river

a crowded expo by omost
a crowded expo by omost
the_yellow_river_byOmost
the_yellow_river_byOmost

Try Omost

⚠️Due to the GPU limitaions of Huggingface, you might only try once or twice here.

Erklärung von Omost

Omost ist ein Projekt, das darauf abzielt, die Codierungsfähigkeiten großer Sprachmodelle (LLM) zur Erstellung und Komposition von Bildern zu nutzen.

Der Projektname Omost (ausgesprochen "almost") spiegelt diesen Zweck wider: Nach der Verwendung von Omost ist dein Bild fast fertig.

Das "O" steht für "omni" (multimodal), und "most" bedeutet das Ziel, seine Fähigkeiten maximal zu nutzen.

Wie Omost funktioniert

Kernkonzept
Omost ermöglicht es LLMs, Code zu schreiben, der visuelle Inhalte auf einer virtuellen Leinwand komponiert. Diese Leinwand dient als Entwurf, der durch spezifische Implementierungen von Bildgeneratoren in reale Bilder gerendert werden kann. Im Wesentlichen fungiert Omost als Vermittler zwischen Textbeschreibungen und der Erstellung visueller Inhalte.

Modelltraining
Omost bietet drei vortrainierte LLM-Modelle, die auf Variationen von Llama3 und Phi3 basieren. Diese Modelle werden mit einer Kombination aus verschiedenen Datenquellen trainiert:

  • Ground-Truth-Anmerkungen: Daten aus mehreren Datensätzen, einschließlich Open-Images, die genaue Anmerkungen liefern.

  • Automatisch annotierte Bilder: Daten, die durch automatische Annotation von Bildern extrahiert wurden.

  • Direkte Präferenzoptimierung (DPO): Verstärkungsdaten, die darauf basieren, ob der Code von Python 3.10 kompiliert werden kann.

  • Feindaten: Eine kleine Menge von Daten aus den multimodalen Fähigkeiten von OpenAI GPT-4o.

Einschränkungen von Omost

  • Beschränkt auf bestimmte Arten von Interaktionen und Szenarien.

  • Erfordert erhebliche Rechenressourcen.

  • Abhängig von der Leistung von SDXL.

  • Potenzielle Verzerrungen im Modell.

  • Begrenzte Unterstützung für nicht-englische Sprachen.

  • Die Huggingface-Version ist stark zensiert und kann keine Prominentenbilder erzeugen.

  • Kann bei komplexen oder nuancierten Anfragen weniger genaue Ergebnisse liefern.

2024 NBA final, made by Omost
2024 NBA final, made by Omost

Prompt: 2024 NBA FINAL

A FAILED example. See more examples: Omost Art Blog

Wie man Omost lokal bereitstellt

Anforderungen: 8GB Nvidia VRAM

Wer hat Omost erstellt

Lvmin Zhang (Lyumin Zhang) ist seit 2022 Doktorand in Informatik an der Stanford University unter der Leitung von Professor Maneesh Agrawala. Zuvor war er ab 2021 Forschungsassistent im Labor von Professor Tien-Tsin Wong an der Chinesischen Universität Hongkong. Er hat an mehreren interessanten Projekten mit Professor Edgar Simo-Serra zusammengearbeitet. Lvmin hat 2021 seinen Bachelor in Ingenieurwissenschaften an der Soochow University unter der Leitung von Professor Yi Ji und Professor Chunping Liu erworben.

Lvmins Forschungsinteressen umfassen Computer-Kunst und -Design, interaktive Inhaltserstellung, Computergrafik sowie Bild- und Videobearbeitung, mit einer besonderen Leidenschaft für Anime. Diese Leidenschaft spiegelt sich in der Gründung der Forschungsgruppe Style2Paints wider, die sich auf diese Bereiche konzentriert. Darüber hinaus hat er die Anime-Zeichensoftware Style2Paints entwickelt.

Weitere Projekte von Zhang

Lvmin Zhang
Lvmin Zhang