Omost Art: Hochwertige KI-Bilderzeugung mit den kürzesten Prompts
Omost verwenden, Best Practices und Erklärungen
Prompt: Little witch in the woods
Prompt: a crowded expo
Prompt: the yellow river
Erklärung von Omost
Omost ist ein Projekt, das darauf abzielt, die Codierungsfähigkeiten großer Sprachmodelle (LLM) zur Erstellung und Komposition von Bildern zu nutzen.
Der Projektname Omost (ausgesprochen "almost") spiegelt diesen Zweck wider: Nach der Verwendung von Omost ist dein Bild fast fertig.
Das "O" steht für "omni" (multimodal), und "most" bedeutet das Ziel, seine Fähigkeiten maximal zu nutzen.
Wie Omost funktioniert
Kernkonzept
Omost ermöglicht es LLMs, Code zu schreiben, der visuelle Inhalte auf einer virtuellen Leinwand komponiert. Diese Leinwand dient als Entwurf, der durch spezifische Implementierungen von Bildgeneratoren in reale Bilder gerendert werden kann. Im Wesentlichen fungiert Omost als Vermittler zwischen Textbeschreibungen und der Erstellung visueller Inhalte.
Modelltraining
Omost bietet drei vortrainierte LLM-Modelle, die auf Variationen von Llama3 und Phi3 basieren. Diese Modelle werden mit einer Kombination aus verschiedenen Datenquellen trainiert:
Ground-Truth-Anmerkungen: Daten aus mehreren Datensätzen, einschließlich Open-Images, die genaue Anmerkungen liefern.
Automatisch annotierte Bilder: Daten, die durch automatische Annotation von Bildern extrahiert wurden.
Direkte Präferenzoptimierung (DPO): Verstärkungsdaten, die darauf basieren, ob der Code von Python 3.10 kompiliert werden kann.
Feindaten: Eine kleine Menge von Daten aus den multimodalen Fähigkeiten von OpenAI GPT-4o.
Wie man Omost lokal bereitstellt
Wer hat Omost erstellt
Lvmin Zhang (Lyumin Zhang) ist seit 2022 Doktorand in Informatik an der Stanford University unter der Leitung von Professor Maneesh Agrawala. Zuvor war er ab 2021 Forschungsassistent im Labor von Professor Tien-Tsin Wong an der Chinesischen Universität Hongkong. Er hat an mehreren interessanten Projekten mit Professor Edgar Simo-Serra zusammengearbeitet. Lvmin hat 2021 seinen Bachelor in Ingenieurwissenschaften an der Soochow University unter der Leitung von Professor Yi Ji und Professor Chunping Liu erworben.
Lvmins Forschungsinteressen umfassen Computer-Kunst und -Design, interaktive Inhaltserstellung, Computergrafik sowie Bild- und Videobearbeitung, mit einer besonderen Leidenschaft für Anime. Diese Leidenschaft spiegelt sich in der Gründung der Forschungsgruppe Style2Paints wider, die sich auf diese Bereiche konzentriert. Darüber hinaus hat er die Anime-Zeichensoftware Style2Paints entwickelt.