Omost Art:
Generación de Imágenes de Alta Calidad con IA utilizando las Indicaciones más Cortas
Cómo Usar Omost, Mejores Prácticas y Explicaciones
Prompt: Little witch in the woods
Prompt: a crowded expo
Prompt: the yellow river
Explicación de Omost
Omost es un proyecto diseñado para aprovechar las capacidades de codificación de los grandes modelos de lenguaje (LLM) para generar y componer imágenes.
El nombre del proyecto, Omost (pronunciado "almost"), refleja su propósito: después de usar Omost, tu imagen está casi terminada.
La "O" significa "omni" (multimodal), y "most" significa el objetivo de maximizar sus capacidades.
Cómo Funciona Omost
Concepto Principal
Omost permite a los LLM escribir código que compone contenido visual en un lienzo virtual. Este lienzo sirve como un plano que puede ser renderizado en imágenes reales mediante implementaciones específicas de generadores de imágenes. Esencialmente, Omost actúa como un mediador entre descripciones textuales y la creación de contenido visual.
Entrenamiento del Modelo
Omost proporciona tres modelos LLM preentrenados basados en variaciones de Llama3 y Phi3. Estos modelos se entrenan utilizando una mezcla de fuentes de datos:
Anotaciones de Verdad-Tierra: Datos de varios conjuntos de datos, incluyendo Open-Images, que proporcionan anotaciones precisas.
Imágenes Anotadas Automáticamente: Datos extraídos mediante la anotación automática de imágenes.
Optimización Directa de Preferencias (DPO): Datos de refuerzo basados en si los códigos pueden ser compilados por Python 3.10 o no.
Datos de Ajuste: Una pequeña cantidad de datos de las capacidades multimodales de OpenAI GPT-4o.
Cómo Desplegar Omost Localmente
Quién Hizo Omost
Lvmin Zhang (Lyumin Zhang) es un estudiante de doctorado en Ciencias de la Computación en la Universidad de Stanford, trabajando bajo la guía del Prof. Maneesh Agrawala desde 2022. Anteriormente, trabajó como Asistente de Investigación en el laboratorio del Prof. Tien-Tsin Wong en la Universidad China de Hong Kong desde 2021. Ha colaborado en numerosos proyectos interesantes con el Prof. Edgar Simo-Serra. Lvmin obtuvo su título de B.Eng. en la Universidad de Soochow en 2021, bajo la supervisión del Prof. Yi Ji y del Prof. Chunping Liu.
Los intereses de investigación de Lvmin abarcan el arte y diseño computacional, la creación de contenido interactivo, gráficos por computadora y el procesamiento de imágenes y videos, con una pasión particular por el anime. Reflejando este entusiasmo, fundó el grupo de investigación Style2Paints, enfocado en estas áreas. Además, desarrolló un software de dibujo de anime llamado Style2Paints.