ByteDance ปล่อย Lance โมเดล AI 3B Unified — ครบทั้งภาพและวิดีโอในตัวเดียว

ByteDance (บริษัทแม่ของ TikTok) ปล่อย Lance โมเดล multimodal ขนาด 3 พันล้านพารามิเตอร์ ที่รองรับงานทั้ง 6 ด้านในสถาปัตยกรรมเดียว — เข้าใจภาพ สร้างภาพ ตัดต่อภาพ เข้าใจวิดีโอ สร้างวิดีโอ และตัดต่อวิดีโอ

โมเดลนี้เผยแพร่บน GitHub และ Hugging Face เมื่อวันที่ 20 พฤษภาคม 2026

ทำไมถึงน่าสนใจ

การออกแบบแบบ Unified คือหัวใจหลักของ Lance ในขณะที่โมเดล multimodal ส่วนใหญ่ในปัจจุบันยังคงเป็นระบบต่อเชื่อม (stitched together):

Google Gemini แยก pipeline สำหรับการเข้าใจภาพและการสร้างภาพออกจากกัน
Meta MovieGen จัดการสร้างวิดีโอแต่ไม่ครอบคลุมทั้งการเข้าใจ-แก้ไขแบบครบวงจร

Lance พับงานทั้ง 6 ด้านเข้าไว้ใน Transformer backbone ตัวเดียวที่เทรนจากศูนย์ (trained from scratch) โดยยืมเฉพาะ ViT และ VAE encoder จากงานก่อนหน้าเท่านั้น

การเทรนที่คุ้มค่า

การเทรน Lance ใช้ GPU เพียง 128 A100 — ซึ่งถือว่าจำกัดมากเมื่อเทียบกับมาตรฐาน Frontier AI ปัจจุบัน ByteDance ใช้เทคนิค Staged Multi-task Training เพื่อป้องกันการรบกวนระหว่างงาน (task interference) ซึ่งเป็นปัญหาที่รู้จักกันดีเมื่อฝึกโมเดลเพื่อทั้งการสร้างและทำความเข้าใจพร้อมกัน

ขนาดที่ deploy ได้

ขนาด 3 พันล้านพารามิเตอร์ (3B) คือสัญญาณเชิงปฏิบัติสำหรับนักพัฒนา:

รันบน GPU ขนาด 40GB ได้สบาย
ไม่ต้องใช้โมเดล Specialist หลายตัวแยกกัน
ครอบคลุมทั้งงานภาพและวิดีโอในการเรียกใช้งานครั้งเดียว
ลดค่าใช้จ่ายและโครงสร้างพื้นฐานด้านการดำเนินโมเดล

โอกาสสำหรับนักพัฒนา

Lance เหมาะสำหรับทีมที่ทำงานกับ Content Pipeline ที่ต้องจัดการทั้งภาพและวิดีโอ:

สร้างภาพจากข้อความและสร้างวิดีโอต่อเนื่องได้ในระบบเดียว
แก้ไขส่วนที่ต้องการทั้งในภาพและวิดีโอด้วยคำสั่งธรรมชาติ
วิเคราะห์และทำความเข้าใจเนื้อหามัลติมีเดีย

มุมมองของผู้เขียน: โมเดล 3B ที่เทรนด้วย GPU แค่ 128 ตัว แต่ครบ 6 งาน ถือเป็นความคุ้มค่าที่น่าประทับใจ นักพัฒนาไทยที่ทำคอนเทนต์หรือแอปเกี่ยวกับภาพและวิดีโอ ควรลองเทสต์ Lance ดู เพราะลดค่าใช้จ่ายจากการต้องจ้างโมเดลแยกหลายตัวได้มาก

ที่มา: