ByteDance (บริษัทแม่ของ TikTok) ปล่อย Lance โมเดล multimodal ขนาด 3 พันล้านพารามิเตอร์ ที่รองรับงานทั้ง 6 ด้านในสถาปัตยกรรมเดียว — เข้าใจภาพ สร้างภาพ ตัดต่อภาพ เข้าใจวิดีโอ สร้างวิดีโอ และตัดต่อวิดีโอ
โมเดลนี้เผยแพร่บน GitHub และ Hugging Face เมื่อวันที่ 20 พฤษภาคม 2026
ทำไมถึงน่าสนใจ
การออกแบบแบบ Unified คือหัวใจหลักของ Lance ในขณะที่โมเดล multimodal ส่วนใหญ่ในปัจจุบันยังคงเป็นระบบต่อเชื่อม (stitched together):
- Google Gemini แยก pipeline สำหรับการเข้าใจภาพและการสร้างภาพออกจากกัน
- Meta MovieGen จัดการสร้างวิดีโอแต่ไม่ครอบคลุมทั้งการเข้าใจ-แก้ไขแบบครบวงจร
Lance พับงานทั้ง 6 ด้านเข้าไว้ใน Transformer backbone ตัวเดียวที่เทรนจากศูนย์ (trained from scratch) โดยยืมเฉพาะ ViT และ VAE encoder จากงานก่อนหน้าเท่านั้น
การเทรนที่คุ้มค่า
การเทรน Lance ใช้ GPU เพียง 128 A100 — ซึ่งถือว่าจำกัดมากเมื่อเทียบกับมาตรฐาน Frontier AI ปัจจุบัน ByteDance ใช้เทคนิค Staged Multi-task Training เพื่อป้องกันการรบกวนระหว่างงาน (task interference) ซึ่งเป็นปัญหาที่รู้จักกันดีเมื่อฝึกโมเดลเพื่อทั้งการสร้างและทำความเข้าใจพร้อมกัน
ขนาดที่ deploy ได้
ขนาด 3 พันล้านพารามิเตอร์ (3B) คือสัญญาณเชิงปฏิบัติสำหรับนักพัฒนา:
- รันบน GPU ขนาด 40GB ได้สบาย
- ไม่ต้องใช้โมเดล Specialist หลายตัวแยกกัน
- ครอบคลุมทั้งงานภาพและวิดีโอในการเรียกใช้งานครั้งเดียว
- ลดค่าใช้จ่ายและโครงสร้างพื้นฐานด้านการดำเนินโมเดล
โอกาสสำหรับนักพัฒนา
Lance เหมาะสำหรับทีมที่ทำงานกับ Content Pipeline ที่ต้องจัดการทั้งภาพและวิดีโอ:
- สร้างภาพจากข้อความและสร้างวิดีโอต่อเนื่องได้ในระบบเดียว
- แก้ไขส่วนที่ต้องการทั้งในภาพและวิดีโอด้วยคำสั่งธรรมชาติ
- วิเคราะห์และทำความเข้าใจเนื้อหามัลติมีเดีย
มุมมองของผู้เขียน: โมเดล 3B ที่เทรนด้วย GPU แค่ 128 ตัว แต่ครบ 6 งาน ถือเป็นความคุ้มค่าที่น่าประทับใจ นักพัฒนาไทยที่ทำคอนเทนต์หรือแอปเกี่ยวกับภาพและวิดีโอ ควรลองเทสต์ Lance ดู เพราะลดค่าใช้จ่ายจากการต้องจ้างโมเดลแยกหลายตัวได้มาก
ที่มา:
