Omost Art: 最短のプロンプトで高品質なAI画像生成
Omostの使い方,ベストプラクティスと解説
Prompt: Little witch in the woods
Prompt: a crowded expo
Prompt: the yellow river
Omostの説明
Omostは、大規模言語モデル(LLM)のコーディング能力を活用して、画像を生成および作成するために設計されたプロジェクトです。
プロジェクト名のOmost(「オモスト」と発音)は、その目的を反映しています:Omostを使用すると、画像はほぼ完成します。
「O」は「オムニ」(マルチモーダル)を意味し、「most」はその能力を最大限に活用する目標を示しています。
Omostの動作方法
コアコンセプト
Omostは、LLMが仮想キャンバス上でビジュアルコンテンツを作成するコードを書くことを可能にします。このキャンバスは、特定の画像生成器の実装によって実際の画像にレンダリングできる設計図として機能します。基本的に、Omostはテキストの説明とビジュアルコンテンツの作成の間の仲介役を果たします。
モデルのトレーニング
Omostは、Llama3とPhi3のバリエーションに基づく3つの事前訓練されたLLMモデルを提供します。これらのモデルは、さまざまなデータソースを組み合わせてトレーニングされています:
真実のアノテーション:Open-Imagesを含むいくつかのデータセットからの正確なアノテーションを提供するデータ。
自動アノテーションされた画像:画像を自動的にアノテーションすることによって取得されたデータ。
直接選好最適化(DPO):Python 3.10によってコードがコンパイルできるかどうかに基づく強化データ。
チューニングデータ:OpenAI GPT-4oのマルチモーダル機能からの少量のデータ。
Omostをローカルにデプロイする方法
Omostを作った人
Lvmin Zhang(Lyumin Zhang)は、2022年からスタンフォード大学のコンピュータサイエンスの博士課程の学生で、Maneesh Agrawala教授の指導の下で研究を行っています。以前は、2021年から香港中文大学のTien-Tsin Wong教授の研究室で研究助手として働いていました。彼はEdgar Simo-Serra教授とのいくつかの興味深いプロジェクトに協力しました。Lvminは、2021年に蘇州大学でYi Ji教授とChunping Liu教授の指導の下で工学士号を取得しました。
Lvminの研究分野は、計算芸術とデザイン、インタラクティブなコンテンツ作成、コンピュータグラフィックス、画像およびビデオの処理に及び、特にアニメに対して情熱を持っています。この情熱を反映して、彼はこれらの分野に焦点を当てたStyle2Paints研究グループを設立しました。さらに、彼はStyle2Paintsというアニメ描画ソフトウェアを開発しました。