Omost Art: 最短のプロンプトで高品質なAI画像生成

Omostの使い方,ベストプラクティスと解説

Prompt: Little witch in the woods

Prompt: a crowded expo

Prompt: the yellow river

a crowded expo by omost
a crowded expo by omost
the_yellow_river_byOmost
the_yellow_river_byOmost

Try Omost

⚠️Due to the GPU limitaions of Huggingface, you might only try once or twice here.

Omostの説明

Omostは、大規模言語モデル(LLM)のコーディング能力を活用して、画像を生成および作成するために設計されたプロジェクトです。

プロジェクト名のOmost(「オモスト」と発音)は、その目的を反映しています:Omostを使用すると、画像はほぼ完成します。

「O」は「オムニ」(マルチモーダル)を意味し、「most」はその能力を最大限に活用する目標を示しています。

Omostの動作方法

コアコンセプト
Omostは、LLMが仮想キャンバス上でビジュアルコンテンツを作成するコードを書くことを可能にします。このキャンバスは、特定の画像生成器の実装によって実際の画像にレンダリングできる設計図として機能します。基本的に、Omostはテキストの説明とビジュアルコンテンツの作成の間の仲介役を果たします。

モデルのトレーニング
Omostは、Llama3とPhi3のバリエーションに基づく3つの事前訓練されたLLMモデルを提供します。これらのモデルは、さまざまなデータソースを組み合わせてトレーニングされています:

真実のアノテーション:Open-Imagesを含むいくつかのデータセットからの正確なアノテーションを提供するデータ。
自動アノテーションされた画像:画像を自動的にアノテーションすることによって取得されたデータ。
直接選好最適化(DPO):Python 3.10によってコードがコンパイルできるかどうかに基づく強化データ。
チューニングデータ:OpenAI GPT-4oのマルチモーダル機能からの少量のデータ。

Omostの制限

  • 定のタイプのインタラクションやシナリオに限定される。

  • かなりの計算リソースを必要とする。

  • SDXLの性能に依存。

  • モデルに存在する可能性のあるバイアス。

  • 非英語の言語に対するサポートが限定される。

  • Huggingfaceバージョンは厳しく検閲されており、有名人の画像を生成できない。

  • 複雑またはニュアンスのあるクエリに対して、精度が低い結果を生成する可能性がある。

2024 NBA final, made by Omost
2024 NBA final, made by Omost

Prompt: 2024 NBA FINAL

A FAILED example. See more examples: Omost Art Blog

Omostをローカルにデプロイする方法

必要条件:8GBのNvidia VRAM

Omostを作った人

Lvmin Zhang(Lyumin Zhang)は、2022年からスタンフォード大学のコンピュータサイエンスの博士課程の学生で、Maneesh Agrawala教授の指導の下で研究を行っています。以前は、2021年から香港中文大学のTien-Tsin Wong教授の研究室で研究助手として働いていました。彼はEdgar Simo-Serra教授とのいくつかの興味深いプロジェクトに協力しました。Lvminは、2021年に蘇州大学でYi Ji教授とChunping Liu教授の指導の下で工学士号を取得しました。

Lvminの研究分野は、計算芸術とデザイン、インタラクティブなコンテンツ作成、コンピュータグラフィックス、画像およびビデオの処理に及び、特にアニメに対して情熱を持っています。この情熱を反映して、彼はこれらの分野に焦点を当てたStyle2Paints研究グループを設立しました。さらに、彼はStyle2Paintsというアニメ描画ソフトウェアを開発しました。

Zhang's Other Projects

Lvmin Zhang
Lvmin Zhang