ความรู้ทั่วไปเกี่ยวกับ Model

Model คืออะไร

Model ถ้าจะจัดหมวดหมู่สามารถจัดได้ง่าย ๆ เป็น 2 ประเภทคือ

โมเดลหลักหรือ Checkpoint ตัวอย่างง่าย ๆ ก็คือ Stable Diffusion เองที่มี prompt หลากหลายไว้ทำได้ทุกอย่างแต่ไม่เก่งสักอย่าง โดยเวลาใช้งานจะต้องมีโมเดลประเภทนี้เป็นฐานในการสร้างภาพ
โมเดลเสริมหรือ Finetune คือไว้จูนโมเดลหลักให้มีความเฉพาะตัวมากขึ้น โมเดลพวกนี้ที่นียมจะแบ่งย่อยเป็น 2 ตัวคือ
- Embedding (Textual Inversion,TI) - มีหลักการทำงานคือเมื่อสั่ง generate ภาพแล้วมีการเรียกใช้ ตัว TI จะทำการแทรก prompt ของตัวโมเดลเองเขาไปใน prompt หลักที่เรากรอกพร้อมแทรกภาพของ TI เข้าไปในการ gen แต่ละ step
- LoRA - มีหลักการทำงานคือเมื่อสั่ง generate แล้วจะอ่าน prompt หลักที่เรากรอกและส่งภาพแทรกเข้าไปในตัวโมเดลเลยทันที
ปัญหาของ Finetune กับ Checkpoint สามารถพบเจอได้เสมอ เช่นบางตัวใช้ด้วยกันไม่ได้ ใส่คำสั่งแล้วไม่ Tune ตาม Finetune ที่เราใส่ ไม่ก็ภาพเละภาพพัง ของพวกนี้ขึ้กับการลองผิดลองถูกไปเรื่อย ๆ บางตัวอาจปรับไปปรับมาก็อาจใช้ได้ อะไรทำนองนั้น
โมเดลแต่ละตัวมีวิธีใช้งานที่ไม่เหมือนกัน และ prompt ก็ไม่เหมือนกัน บางตัวมี prompt เฉพาะทางต่างหากอีก หรือ Checkpoint บางตัวมีการใช้ VAE ร่วมด้วย ดังนั้นก่อนที่จะโหลดมาใช้งานควรอ่านและทำความเข้าใจหลักการของ Model แต่ละตัว เพื่อให้งานออกมาดีที่สุด

Model ที่แนะนำ

Checkpoint

path: \stable-diffusion-webui\models\Stable-diffusion

ChilloutMix - สำหรับทำภาพแนว photorealistic, 3D
HassanBlend - สำหรับทำภาพแนว photorealistic, 3D
Realistic Vision- สำหรับทำภาพแนว realistic และ photorealistic
DreamShaper - สำหรับทำภาพแนว 3D และ Anime

LoRA

path: \stable-diffusion-webui\models\LoRA

ส่วนมากจะเป็นโมเดลหน้าตาหรือ art style บางอย่างที่เฉพาะเจาะจง

Japanese Doll Likeness - หน้าตาญี่ปุ่น
Korean Doll Likeness - หน้าตาเกาหลี
Taiwan Doll Likeness - หน้าตาไต้หวัน

Chinese Doll Likeness - หน้าตาจีน Aiyami - yami from weibo\twitter\ins

Textual Inversion

path: \stable-diffusion-webui\embeddings

ส่วนมากจะเป็นโมเดลหน้าตาหรือ art style บางอย่างที่เฉพาะเจาะจง

Ulzzang-6500 (Korean doll aesthetic) - ออลจัง พูดง่าย ๆ คือโมเดลรวมหน้าสาวเกาหลีหน้าตาดี
Pure Eros Face - รวมหน้าตาแนว kpop idol หรือสาวหน้าตาดีใน IG
Deep Negative - ใส่ใน Negative Prompt เพื่อป้องกันภาพประหลาด ๆ คน 3 ขา 4 แขน และอื่น ๆ โผล่ออกมา
EasyNegative - ใส่ใน Negative Prompt เพื่อป้องกันภาพประหลาด ๆ คน 3 ขา 4 แขน และอื่น ๆ โผล่ออกมา

Hypernetwork

path: \stable-diffusion-webui\models\hypernetworks

Water Elemental

VAE

path: \stable-diffusion-webui\models\VAE

Finetune อัพเดทย่อยของ Stable Diffusion ไว้แก้ปัญหาเรื่องหน้าตาเละ ๆ ไม่ควรเปิดทิ้งไว้ แต่ให้เปิดตามแนะนำของแต่ละโมเดล

https://huggingface.co/stabilityai/sd-vae-ft-mse-original/tree/main

แหล่งหา Models

ด้านล่าง คือร่างเฉย ๆ ยังทำไม่เสร็จ

Model Training

Embedding, Textual Inversion

อ่านต่อได้ที่ ฝึกโมเดลโดย Embedding Model Training

ความรู้ทั่วไปเกี่ยวกับ Model

Model คืออะไร

Model ถ้าจะจัดหมวดหมู่สามารถจัดได้ง่าย ๆ เป็น 2 ประเภทคือ

Model ที่แนะนำ

Checkpoint

LoRA

Textual Inversion

Hypernetwork

VAE

แหล่งหา Models

Model Training

Embedding, Textual Inversion

LoRA

GUI

Colab