Omost Art: 최단 프롬프트로 고품질 AI 이미지 생성
Omost 사용 방법 최고의 실천 방법 및 설명서
Prompt: Little witch in the woods
Prompt: a crowded expo
Prompt: the yellow river
Omost 설명
Omost는 대형 언어 모델(LLM)의 코딩 능력을 활용하여 이미지를 생성하고 구성하기 위해 설계된 프로젝트입니다.
프로젝트 이름인 Omost(발음: "올모스트")는 그 목적을 반영합니다: Omost를 사용한 후, 이미지가 거의 완성됩니다.
"O"는 "옴니"(다중 모달)를 의미하며, "most"는 그 기능을 최대한 활용하는 목표를 나타냅니다.
Omost의 작동 방식
핵심 개념
Omost는 LLM이 가상 캔버스에서 비주얼 콘텐츠를 구성하는 코드를 작성할 수 있게 합니다. 이 캔버스는 특정 이미지 생성기 구현에 의해 실제 이미지로 렌더링될 수 있는 청사진 역할을 합니다. 본질적으로, Omost는 텍스트 설명과 비주얼 콘텐츠 생성 사이의 중재자 역할을 합니다.
모델 학습
Omost는 Llama3 및 Phi3의 변형을 기반으로 한 세 가지 사전 학습된 LLM 모델을 제공합니다. 이 모델들은 다양한 데이터 소스를 혼합하여 학습됩니다:
정확한 주석: Open-Images를 포함한 여러 데이터 세트에서 정확한 주석 데이터를 제공합니다.
자동 주석 이미지: 이미지를 자동으로 주석하여 추출된 데이터.
직접 선호 최적화(DPO): 코드가 Python 3.10에 의해 컴파일될 수 있는지 여부에 기반한 강화 데이터.
튜닝 데이터: OpenAI GPT-4o의 다중 모달 기능에서 가져온 소량의 데이터.
Omost를 로컬에서 배포하는 방법
Omost를 만든 사람
Lvmin Zhang(루민 장)은 2022년부터 스탠포드 대학교 컴퓨터 과학 박사 과정 학생으로, Maneesh Agrawala 교수의 지도 하에 연구하고 있습니다. 이전에는 2021년부터 홍콩 중문대학의 Tien-Tsin Wong 교수 연구실에서 연구 조교로 일했습니다. 그는 Edgar Simo-Serra 교수와 여러 흥미로운 프로젝트에 협력했습니다. Lvmin은 2021년에 Soochow University에서 Yi Ji 교수와 Chunping Liu 교수의 지도 하에 공학 학사 학위를 취득했습니다.
Lvmin의 연구 관심사는 계산 예술 및 디자인, 상호작용 콘텐츠 제작, 컴퓨터 그래픽스 및 이미지 및 비디오 처리에 걸쳐 있으며, 특히 애니메이션에 대한 열정을 가지고 있습니다. 이 열정을 반영하여, 그는 이러한 분야에 중점을 둔 Style2Paints 연구 그룹을 설립했습니다. 또한, 그는 Style2Paints라는 애니메이션 드로잉 소프트웨어를 개발했습니다.