Gemma 4 12B โมเดลมัลติโมดัลแบบเปิดของ Google รันบนแลปท็อป 16GB ได้จริง
Gemma 4 12B คือโมเดล AI รุ่นใหม่ของ Google ที่อ่านข้อความ ภาพ และเสียงได้ในตัวเดียว แต่เล็กพอจะรันบนแลปท็อปที่มี RAM 16GB โดยไม่ต้องพึ่งคลาวด์ เพราะถอดชิ้นส่วนที่หนักที่สุดของโมเดลมัลติโมดัลออกไป

Gemma 4 12B คือโมเดล AI รุ่นใหม่ของ Google ที่อ่านได้ทั้งข้อความ ภาพ และเสียงในตัวเดียว จุดที่น่าสนใจไม่ใช่แค่ว่ามันทำอะไรได้ แต่อยู่ที่มัน เล็กพอจะรันบนแลปท็อปที่มี RAM หรือ VRAM แค่ 16GB โดยไม่ต้องส่งข้อมูลขึ้นคลาวด์เลยสักนิด
นี่คือโมเดลขนาดกลางตัวแรกของ Google ที่รับเสียงเข้าได้แบบ native และทำคะแนน benchmark เกือบเทียบเท่ารุ่นพี่ขนาด 26B ทั้งที่ใช้หน่วยความจำไม่ถึงครึ่ง เปิดให้ใช้ภายใต้สัญญาอนุญาต Apache 2.0 ดาวน์โหลดน้ำหนักโมเดลไปใช้ได้ฟรี และตระกูล Gemma 4 ทั้งหมดมียอดดาวน์โหลดทะลุ 150 ล้านครั้งไปแล้ว ณ วันที่แถลง คำถามที่ทุกคนอยากรู้คือ โมเดลที่อ่านภาพและฟังเสียงได้ย่อตัวลงมาอยู่บนเครื่องเล็กๆ ได้อย่างไร
เคล็ดอยู่ที่การถอดชิ้นส่วนที่หนักที่สุดออก

โมเดลมัลติโมดัลแบบเดิมทำงานเป็นทอดๆ ภาพหนึ่งใบต้องผ่าน encoder ของภาพก่อน ส่วนเสียงก็ผ่าน encoder ของเสียงอีกตัว encoder แต่ละตัวแปลงข้อมูลให้อยู่ในรูปแบบที่โมเดลภาษาเข้าใจ แล้วค่อยส่งต่อให้สมองหลักของโมเดลคิด ชิ้นส่วนที่คอยแปลงให้เข้าภาษากลางนี่แหละที่กินหน่วยความจำและถ่วงความเร็ว
Gemma 4 12B เลือกเส้นทางตรงข้าม มันชื่อเต็มว่า Gemma 4 12B Unified และคำว่า Unified ก็คือหัวใจของเรื่องนี้ Google ถอด encoder ทิ้งทั้งหมด แล้วป้อนภาพกับเสียงเข้าสมองหลักของโมเดลโดยตรง
ฝั่งภาพใช้แค่การคูณเมทริกซ์หนึ่งครั้ง บวกกับ positional embedding และการ normalize เท่านั้น ไม่มี encoder ของภาพแยกอีกแล้ว ฝั่งเสียงยิ่งสั้นกว่าเดิม เพราะเอาสัญญาณเสียงดิบไปไว้ในปริภูมิเดียวกับ token ข้อความได้ทันที พอไม่ต้องแบกชิ้นส่วนแปลภาษากลาง โมเดลก็เบาลงและเร็วขึ้น นี่คือเหตุผลที่มันลงมาอยู่บนแลปท็อปได้
ผลพลอยได้คือ fine-tune ได้ในรอบเดียวจบ เพราะไม่มี encoder แยกให้ต้องปรับจูนเป็นชั้นๆ อีก
เล็กแต่ไม่ได้อ่อน

สิ่งที่ทำให้ข่าวนี้น่าตื่นเต้นไม่ใช่แค่ขนาด แต่เป็นคะแนนที่ออกมา Gemma 4 12B มีพารามิเตอร์ราว 11.95B หน้าต่างบริบทยาวถึง 256K tokens รองรับภาษามากกว่า 140 ภาษาตั้งแต่ตอนเทรน และพร้อมใช้งานทันทีมากกว่า 35 ภาษา ข้อมูลเทรนตัดถึงเดือนมกราคม 2025
เทียบกับรุ่นพี่ตัวใหญ่กว่าเกือบเท่าตัว คะแนนของมันแทบไม่น้อยหน้า
| งานทดสอบ | Gemma 4 12B | Gemma 4 26B A4B |
|---|---|---|
| MMLU Pro (ความรู้รวม) | 77.2% | 82.6% |
| AIME 2026 (คณิต) | 77.5% | 88.3% |
| GPQA Diamond (เหตุผลระดับสูง) | 78.8% | 82.3% |
| LiveCodeBench v6 (เขียนโค้ด) | 72.0% | 77.1% |
| MMMU Pro (อ่านภาพ) | 69.1% | 73.8% |
ตัวเลขที่น่าจับตาคือ AIME 2026 ซึ่งเป็นข้อสอบคณิตศาสตร์ระดับแข่งขัน Gemma 3 รุ่นก่อนหน้าขนาด 27B ทำได้แค่ 20.8% ขณะที่ Gemma 4 12B ตัวเล็กกว่าพุ่งขึ้นไปถึง 77.5% นี่ไม่ใช่การขยับทีละนิด แต่เป็นการกระโดดข้ามรุ่นจริงๆ และเกิดบนโมเดลที่เล็กลง ไม่ใช่ใหญ่ขึ้น
เลือกตัวไหนในตระกูล Gemma 4
Gemma 4 ไม่ได้มีแค่ตัวเดียว มันมาเป็นตระกูล และแต่ละตัวเกิดมาเพื่องานคนละแบบ การเลือกให้ตรงสำคัญกว่าการเลือกตัวที่ใหญ่ที่สุด
- E2B และ E4B — ตัวจิ๋วสำหรับงานบนมือถือหรือเครื่องเล็กๆ ที่ทรัพยากรจำกัด รับเสียงได้ บริบท 128K เหมาะถ้าเครื่องเล็กมากและต้องการแค่งานเบาๆ
- 12B Unified — ตัวที่ข่าวนี้พูดถึง รับข้อความ ภาพ เสียง บริบท 256K เหมาะกับคนที่มีแลปท็อป 16GB และอยากได้ผู้ช่วยมัลติโมดัลครบเครื่องบนเครื่องตัวเอง
- 26B A4B และ 31B — ตัวใหญ่ที่แรงกว่า แต่กินหน่วยความจำมากกว่ามาก เหมาะกับเครื่องเวิร์กสเตชันหรือเซิร์ฟเวอร์ที่เน้นความแม่นยำสูงสุด และทั้งคู่ไม่รับเสียง
สรุปแบบสั้นที่สุด ถ้าใช้แลปท็อปทั่วไปและอยากให้มันอ่านภาพ ฟังเสียง คิดเป็นเหตุเป็นผลได้ในตัวเดียว ตัว 12B Unified คือจุดที่คุ้มที่สุดระหว่างพลังกับขนาด
โมเดลฝาแฝดที่แลกความแม่นเพื่อความเร็ว
พร้อมกับ Gemma 4 12B Google ยังปล่อยโมเดลอีกตัวชื่อ DiffusionGemma 26B A4B ที่ออกแบบมาเพื่อเรื่องเดียวคือ ความเร็ว
โมเดลภาษาทั่วไปสร้างคำตอบทีละ token ต่อกันไปเรื่อยๆ เหมือนพิมพ์ทีละตัวอักษร แต่ DiffusionGemma ใช้วิธี discrete diffusion โดยค่อยๆ ปรับข้อความทั้งบล็อกขนาด 256 tokens ให้ชัดขึ้นพร้อมกัน คล้ายภาพที่เบลออยู่แล้วถูกปรับให้คมขึ้นทีละรอบ ผลคือมันทำความเร็วได้เกิน 1,100 tokens ต่อวินาทีบนการ์ด H100
แต่ความเร็วนี้มีราคา DiffusionGemma ทำคะแนน MMLU Pro ได้ 77.6% ขณะที่ Gemma 4 26B A4B ตัวปกติทำได้ 82.6% นั่นคือมันยอมลดความแม่นยำลงนิดหน่อยเพื่อให้เร็วขึ้นมาก เหมาะกับงานที่ต้องการคำตอบไหลออกมาเร็วๆ มากกว่างานที่ต้องการความถูกต้องสูงสุดทุกคำ
เริ่มรันบนเครื่องตัวเองใน 2 บรรทัด
ข่าวดีคือลองรันตัว 12B บนเครื่องตัวเองไม่ได้ยากอย่างที่คิด วิธีที่สั้นที่สุดคือใช้ llama.cpp ซึ่งเป็นเครื่องมือรันโมเดลภาษาบนเครื่องที่รองรับทั้ง Apple Silicon, ชิป x86 และการ์ดจอ NVIDIA กับ AMD
บนเครื่อง Mac เริ่มได้สองบรรทัด บรรทัดแรกติดตั้ง บรรทัดที่สองสั่งรันโมเดลพร้อมเปิดหน้าเซิร์ฟเวอร์ให้คุยได้เลย
brew install llama.cpp
llama-server -hf unsloth/gemma-4-12b-it-GGUF:UD-Q4_K_XL
ตรงท้ายคำสั่งคือชื่อไฟล์โมเดลรุ่นย่อขนาดในฟอร์แมต GGUF ที่ทีม Unsloth ทำไว้ให้ดาวน์โหลดฟรี ตัวที่แนะนำคือ UD-Q4_K_XL ซึ่งเป็นการบีบขนาดแบบ Dynamic 2.0 ที่ย่อโมเดลให้พอดีกับเครื่อง 16GB โดยยังรักษาคุณภาพไว้ได้ดี ถ้าถนัด Ollama ซึ่งเป็นอีกหนึ่งเครื่องมือยอดนิยมสำหรับรันโมเดลบนเครื่องตัวเอง ก็สั่งบรรทัดเดียวจบได้เหมือนกัน
ollama run hf.co/unsloth/gemma-4-12b-it-GGUF:UD-Q4_K_XL
ถ้าแค่อยากลองเล่นโดยไม่แตะ command line เลย ก็เปิดผ่านแอปอย่าง LM Studio ได้ในไม่กี่คลิก หรือถ้าจะต่อยอดเป็นโค้ด Python น้ำหนักโมเดลตัวเต็มอยู่บน Hugging Face พร้อมให้โหลด ทั้งหมดนี้รันอยู่บนเครื่องตัวเอง ข้อมูลที่ป้อนเข้าไปไม่ต้องเดินทางออกจากเครื่องเลย
เมื่อโมเดลที่ดีพอย้ายลงมาอยู่ในมือเรา
สิ่งที่ Gemma 4 12B บอกเราจริงๆ ไม่ใช่แค่เรื่องโมเดลตัวหนึ่งเก่งขึ้น แต่เป็นเรื่องของเส้นแบ่งที่กำลังเลื่อน งานที่เมื่อก่อนต้องส่งขึ้นคลาวด์ของบริษัทใหญ่เท่านั้น วันนี้ย่อตัวลงมานั่งอยู่บนแลปท็อปบนโต๊ะทำงานได้แล้ว ยิ่งโมเดลที่ดีพอย้ายลงมาอยู่ในมือเราเองเท่าไร คำถามก็ยิ่งเปลี่ยนจาก “เครื่องเราไหวไหม” ไปเป็น “เราจะเอามันไปทำอะไร”
ที่มา: บทความ Introducing Gemma 4 12B: a unified, encoder-free multimodal model จาก Google
vibecodingth
ทีมผู้เขียน Vibe Coding Thailand



