Omost Art:
Generación de Imágenes de Alta Calidad con IA utilizando las Indicaciones más Cortas

Cómo Usar Omost, Mejores Prácticas y Explicaciones

Prompt: Little witch in the woods

Prompt: a crowded expo

Prompt: the yellow river

a crowded expo by omost
a crowded expo by omost
the_yellow_river_byOmost
the_yellow_river_byOmost

Try Omost

⚠️Due to the GPU limitaions of Huggingface, you might only try once or twice here.

Explicación de Omost

Omost es un proyecto diseñado para aprovechar las capacidades de codificación de los grandes modelos de lenguaje (LLM) para generar y componer imágenes.

El nombre del proyecto, Omost (pronunciado "almost"), refleja su propósito: después de usar Omost, tu imagen está casi terminada.

La "O" significa "omni" (multimodal), y "most" significa el objetivo de maximizar sus capacidades.

Cómo Funciona Omost

Concepto Principal
Omost permite a los LLM escribir código que compone contenido visual en un lienzo virtual. Este lienzo sirve como un plano que puede ser renderizado en imágenes reales mediante implementaciones específicas de generadores de imágenes. Esencialmente, Omost actúa como un mediador entre descripciones textuales y la creación de contenido visual.

Entrenamiento del Modelo
Omost proporciona tres modelos LLM preentrenados basados en variaciones de Llama3 y Phi3. Estos modelos se entrenan utilizando una mezcla de fuentes de datos:

  • Anotaciones de Verdad-Tierra: Datos de varios conjuntos de datos, incluyendo Open-Images, que proporcionan anotaciones precisas.

  • Imágenes Anotadas Automáticamente: Datos extraídos mediante la anotación automática de imágenes.

  • Optimización Directa de Preferencias (DPO): Datos de refuerzo basados en si los códigos pueden ser compilados por Python 3.10 o no.

  • Datos de Ajuste: Una pequeña cantidad de datos de las capacidades multimodales de OpenAI GPT-4o.

Limitaciones de Omos

  • Limitado a tipos específicos de interacciones y escenarios.

  • Requiere recursos computacionales significativos.

  • Dependencia del rendimiento de SDXL.

  • Posibles sesgos presentes en el modelo.

  • Soporte limitado para idiomas no ingleses.

  • La versión de Huggingface está fuertemente censurada; no se pueden generar imágenes de celebridades.

  • Puede producir resultados menos precisos para consultas complejas o matizadas.

2024 NBA final, made by Omost
2024 NBA final, made by Omost

Prompt: 2024 NBA FINAL

Un ejemplo FALLIDO. Ver más ejemplos: Blog de Omost Art

Cómo Desplegar Omost Localmente

Requisitos: 8GB de VRAM Nvidia

Quién Hizo Omost

Lvmin Zhang (Lyumin Zhang) es un estudiante de doctorado en Ciencias de la Computación en la Universidad de Stanford, trabajando bajo la guía del Prof. Maneesh Agrawala desde 2022. Anteriormente, trabajó como Asistente de Investigación en el laboratorio del Prof. Tien-Tsin Wong en la Universidad China de Hong Kong desde 2021. Ha colaborado en numerosos proyectos interesantes con el Prof. Edgar Simo-Serra. Lvmin obtuvo su título de B.Eng. en la Universidad de Soochow en 2021, bajo la supervisión del Prof. Yi Ji y del Prof. Chunping Liu.

Los intereses de investigación de Lvmin abarcan el arte y diseño computacional, la creación de contenido interactivo, gráficos por computadora y el procesamiento de imágenes y videos, con una pasión particular por el anime. Reflejando este entusiasmo, fundó el grupo de investigación Style2Paints, enfocado en estas áreas. Además, desarrolló un software de dibujo de anime llamado Style2Paints.

Otros Proyectos de Zhang

Lvmin Zhang
Lvmin Zhang