$ loading

$ loading ~/vibecoding

$ cat blog/gemma-4-12b.md

Gemma 4 12B โมเดลมัลติโมดัลแบบเปิดของ Google รันบนแลปท็อป 16GB ได้จริง

Gemma 4 12B คือโมเดล AI รุ่นใหม่ของ Google ที่อ่านข้อความ ภาพ และเสียงได้ในตัวเดียว แต่เล็กพอจะรันบนแลปท็อปที่มี RAM 16GB โดยไม่ต้องพึ่งคลาวด์ เพราะถอดชิ้นส่วนที่หนักที่สุดของโมเดลมัลติโมดัลออกไป

14 มิถุนายน 2569 · 7 นาที · อ่าน 122 ครั้ง

Gemma 4 12B โมเดลมัลติโมดัลแบบเปิดของ Google รันบนแลปท็อป 16GB ได้จริง — Gemma 4 12B โมเดลมัลติโมดัลแบบ encoder-free ที่รันบนเครื่องตัวเองได้

Gemma 4 12B คือโมเดล AI รุ่นใหม่ของ Google ที่อ่านได้ทั้งข้อความ ภาพ และเสียงในตัวเดียว จุดที่น่าสนใจไม่ใช่แค่ว่ามันทำอะไรได้ แต่อยู่ที่มัน เล็กพอจะรันบนแลปท็อปที่มี RAM หรือ VRAM แค่ 16GB โดยไม่ต้องส่งข้อมูลขึ้นคลาวด์เลยสักนิด

นี่คือโมเดลขนาดกลางตัวแรกของ Google ที่รับเสียงเข้าได้แบบ native และทำคะแนน benchmark เกือบเทียบเท่ารุ่นพี่ขนาด 26B ทั้งที่ใช้หน่วยความจำไม่ถึงครึ่ง เปิดให้ใช้ภายใต้สัญญาอนุญาต Apache 2.0 ดาวน์โหลดน้ำหนักโมเดลไปใช้ได้ฟรี และตระกูล Gemma 4 ทั้งหมดมียอดดาวน์โหลดทะลุ 150 ล้านครั้งไปแล้ว ณ วันที่แถลง คำถามที่ทุกคนอยากรู้คือ โมเดลที่อ่านภาพและฟังเสียงได้ย่อตัวลงมาอยู่บนเครื่องเล็กๆ ได้อย่างไร

เคล็ดอยู่ที่การถอดชิ้นส่วนที่หนักที่สุดออก

ผังเทียบสองเส้นทาง แบบเดิมมีขั้น encoder คั่นก่อนถึงสมองหลัก ส่วน Unified ป้อนภาพและเสียงเข้าสมองหลักตรง ๆ ไม่ผ่าน encoder — ถอด encoder ที่คอยแปลงให้เป็นภาษากลางออก แล้วป้อนภาพกับเสียงเข้าสมองหลักตรง ๆ โมเดลเลยเบาพอจะรันบนแลปท็อปได้

โมเดลมัลติโมดัลแบบเดิมทำงานเป็นทอดๆ ภาพหนึ่งใบต้องผ่าน encoder ของภาพก่อน ส่วนเสียงก็ผ่าน encoder ของเสียงอีกตัว encoder แต่ละตัวแปลงข้อมูลให้อยู่ในรูปแบบที่โมเดลภาษาเข้าใจ แล้วค่อยส่งต่อให้สมองหลักของโมเดลคิด ชิ้นส่วนที่คอยแปลงให้เข้าภาษากลางนี่แหละที่กินหน่วยความจำและถ่วงความเร็ว

Gemma 4 12B เลือกเส้นทางตรงข้าม มันชื่อเต็มว่า Gemma 4 12B Unified และคำว่า Unified ก็คือหัวใจของเรื่องนี้ Google ถอด encoder ทิ้งทั้งหมด แล้วป้อนภาพกับเสียงเข้าสมองหลักของโมเดลโดยตรง

ฝั่งภาพใช้แค่การคูณเมทริกซ์หนึ่งครั้ง บวกกับ positional embedding และการ normalize เท่านั้น ไม่มี encoder ของภาพแยกอีกแล้ว ฝั่งเสียงยิ่งสั้นกว่าเดิม เพราะเอาสัญญาณเสียงดิบไปไว้ในปริภูมิเดียวกับ token ข้อความได้ทันที พอไม่ต้องแบกชิ้นส่วนแปลภาษากลาง โมเดลก็เบาลงและเร็วขึ้น นี่คือเหตุผลที่มันลงมาอยู่บนแลปท็อปได้

ผลพลอยได้คือ fine-tune ได้ในรอบเดียวจบ เพราะไม่มี encoder แยกให้ต้องปรับจูนเป็นชั้นๆ อีก

เล็กแต่ไม่ได้อ่อน

ตารางเทียบคะแนน 5 งานทดสอบระหว่าง Gemma 4 12B กับ 26B A4B โดยเน้นช่อง AIME 2026 ของตัว 12B ที่ 77.5% เป็นจุดเด่น — ตัว 12B ทำคะแนนเกาะติด 26B แทบทุกงาน · ที่สะดุดตาคือ AIME คณิตที่กระโดดจาก 20.8% ของรุ่นก่อนมาเป็น 77.5%

สิ่งที่ทำให้ข่าวนี้น่าตื่นเต้นไม่ใช่แค่ขนาด แต่เป็นคะแนนที่ออกมา Gemma 4 12B มีพารามิเตอร์ราว 11.95B หน้าต่างบริบทยาวถึง 256K tokens รองรับภาษามากกว่า 140 ภาษาตั้งแต่ตอนเทรน และพร้อมใช้งานทันทีมากกว่า 35 ภาษา ข้อมูลเทรนตัดถึงเดือนมกราคม 2025

เทียบกับรุ่นพี่ตัวใหญ่กว่าเกือบเท่าตัว คะแนนของมันแทบไม่น้อยหน้า

งานทดสอบ	Gemma 4 12B	Gemma 4 26B A4B
MMLU Pro (ความรู้รวม)	77.2%	82.6%
AIME 2026 (คณิต)	77.5%	88.3%
GPQA Diamond (เหตุผลระดับสูง)	78.8%	82.3%
LiveCodeBench v6 (เขียนโค้ด)	72.0%	77.1%
MMMU Pro (อ่านภาพ)	69.1%	73.8%

ตัวเลขที่น่าจับตาคือ AIME 2026 ซึ่งเป็นข้อสอบคณิตศาสตร์ระดับแข่งขัน Gemma 3 รุ่นก่อนหน้าขนาด 27B ทำได้แค่ 20.8% ขณะที่ Gemma 4 12B ตัวเล็กกว่าพุ่งขึ้นไปถึง 77.5% นี่ไม่ใช่การขยับทีละนิด แต่เป็นการกระโดดข้ามรุ่นจริงๆ และเกิดบนโมเดลที่เล็กลง ไม่ใช่ใหญ่ขึ้น

เลือกตัวไหนในตระกูล Gemma 4

Gemma 4 ไม่ได้มีแค่ตัวเดียว มันมาเป็นตระกูล และแต่ละตัวเกิดมาเพื่องานคนละแบบ การเลือกให้ตรงสำคัญกว่าการเลือกตัวที่ใหญ่ที่สุด

E2B และ E4B — ตัวจิ๋วสำหรับงานบนมือถือหรือเครื่องเล็กๆ ที่ทรัพยากรจำกัด รับเสียงได้ บริบท 128K เหมาะถ้าเครื่องเล็กมากและต้องการแค่งานเบาๆ
12B Unified — ตัวที่ข่าวนี้พูดถึง รับข้อความ ภาพ เสียง บริบท 256K เหมาะกับคนที่มีแลปท็อป 16GB และอยากได้ผู้ช่วยมัลติโมดัลครบเครื่องบนเครื่องตัวเอง
26B A4B และ 31B — ตัวใหญ่ที่แรงกว่า แต่กินหน่วยความจำมากกว่ามาก เหมาะกับเครื่องเวิร์กสเตชันหรือเซิร์ฟเวอร์ที่เน้นความแม่นยำสูงสุด และทั้งคู่ไม่รับเสียง

สรุปแบบสั้นที่สุด ถ้าใช้แลปท็อปทั่วไปและอยากให้มันอ่านภาพ ฟังเสียง คิดเป็นเหตุเป็นผลได้ในตัวเดียว ตัว 12B Unified คือจุดที่คุ้มที่สุดระหว่างพลังกับขนาด

โมเดลฝาแฝดที่แลกความแม่นเพื่อความเร็ว

พร้อมกับ Gemma 4 12B Google ยังปล่อยโมเดลอีกตัวชื่อ DiffusionGemma 26B A4B ที่ออกแบบมาเพื่อเรื่องเดียวคือ ความเร็ว

โมเดลภาษาทั่วไปสร้างคำตอบทีละ token ต่อกันไปเรื่อยๆ เหมือนพิมพ์ทีละตัวอักษร แต่ DiffusionGemma ใช้วิธี discrete diffusion โดยค่อยๆ ปรับข้อความทั้งบล็อกขนาด 256 tokens ให้ชัดขึ้นพร้อมกัน คล้ายภาพที่เบลออยู่แล้วถูกปรับให้คมขึ้นทีละรอบ ผลคือมันทำความเร็วได้เกิน 1,100 tokens ต่อวินาทีบนการ์ด H100

แต่ความเร็วนี้มีราคา DiffusionGemma ทำคะแนน MMLU Pro ได้ 77.6% ขณะที่ Gemma 4 26B A4B ตัวปกติทำได้ 82.6% นั่นคือมันยอมลดความแม่นยำลงนิดหน่อยเพื่อให้เร็วขึ้นมาก เหมาะกับงานที่ต้องการคำตอบไหลออกมาเร็วๆ มากกว่างานที่ต้องการความถูกต้องสูงสุดทุกคำ

เริ่มรันบนเครื่องตัวเองใน 2 บรรทัด

ข่าวดีคือลองรันตัว 12B บนเครื่องตัวเองไม่ได้ยากอย่างที่คิด วิธีที่สั้นที่สุดคือใช้ llama.cpp ซึ่งเป็นเครื่องมือรันโมเดลภาษาบนเครื่องที่รองรับทั้ง Apple Silicon, ชิป x86 และการ์ดจอ NVIDIA กับ AMD

บนเครื่อง Mac เริ่มได้สองบรรทัด บรรทัดแรกติดตั้ง บรรทัดที่สองสั่งรันโมเดลพร้อมเปิดหน้าเซิร์ฟเวอร์ให้คุยได้เลย

brew install llama.cpp
llama-server -hf unsloth/gemma-4-12b-it-GGUF:UD-Q4_K_XL

ตรงท้ายคำสั่งคือชื่อไฟล์โมเดลรุ่นย่อขนาดในฟอร์แมต GGUF ที่ทีม Unsloth ทำไว้ให้ดาวน์โหลดฟรี ตัวที่แนะนำคือ UD-Q4_K_XL ซึ่งเป็นการบีบขนาดแบบ Dynamic 2.0 ที่ย่อโมเดลให้พอดีกับเครื่อง 16GB โดยยังรักษาคุณภาพไว้ได้ดี ถ้าถนัด Ollama ซึ่งเป็นอีกหนึ่งเครื่องมือยอดนิยมสำหรับรันโมเดลบนเครื่องตัวเอง ก็สั่งบรรทัดเดียวจบได้เหมือนกัน

ollama run hf.co/unsloth/gemma-4-12b-it-GGUF:UD-Q4_K_XL

ถ้าแค่อยากลองเล่นโดยไม่แตะ command line เลย ก็เปิดผ่านแอปอย่าง LM Studio ได้ในไม่กี่คลิก หรือถ้าจะต่อยอดเป็นโค้ด Python น้ำหนักโมเดลตัวเต็มอยู่บน Hugging Face พร้อมให้โหลด ทั้งหมดนี้รันอยู่บนเครื่องตัวเอง ข้อมูลที่ป้อนเข้าไปไม่ต้องเดินทางออกจากเครื่องเลย

เมื่อโมเดลที่ดีพอย้ายลงมาอยู่ในมือเรา

สิ่งที่ Gemma 4 12B บอกเราจริงๆ ไม่ใช่แค่เรื่องโมเดลตัวหนึ่งเก่งขึ้น แต่เป็นเรื่องของเส้นแบ่งที่กำลังเลื่อน งานที่เมื่อก่อนต้องส่งขึ้นคลาวด์ของบริษัทใหญ่เท่านั้น วันนี้ย่อตัวลงมานั่งอยู่บนแลปท็อปบนโต๊ะทำงานได้แล้ว ยิ่งโมเดลที่ดีพอย้ายลงมาอยู่ในมือเราเองเท่าไร คำถามก็ยิ่งเปลี่ยนจาก “เครื่องเราไหวไหม” ไปเป็น “เราจะเอามันไปทำอะไร”

ที่มา: บทความ Introducing Gemma 4 12B: a unified, encoder-free multimodal model จาก Google

models

แชร์Facebook X LINE

อีบุ๊คฟรี

ชอบเรื่องแนวนี้ มีอีบุ๊คฟรีให้อ่านต่อ

Local LLM ฉบับเข้าใจง่าย รัน AI ไว้ในเครื่องตัวเอง ติดตั้ง อัปเดต จัดการ ลบ ครบวงจรด้วย Ollama

กดสมัครแล้วเราจะส่งเทคนิค AI และของแจกใหม่ๆ ให้ทางอีเมล เลิกรับได้ตลอด

หนังสือแนะนำ

Claude Cowork · The Business Playbook

ลด 44%

ฉบับภาษาไทย 15 บท เรียนรู้ผ่านโปรเจกต์จำลองต่อเนื่องทั้งเล่ม ตั้งแต่ตั้งค่า Workspace จัดการไฟล์ เชื่อมแอป ตั้งระบบอัตโนมัติ จนถึงสร้าง Plugin

฿1,400฿2,500

สั่งซื้อหนังสือ

ทีมผู้เขียน Vibe Coding Thailandvibecodingth

สอนใช้ AI กับงานจริงเป็นภาษาไทย ผ่านบทความ คอร์ส และเครื่องมือที่สร้างด้วย AI

$ tail -f journal.log

อ่านต่อจากเรื่องนี้

MODELS

Claude Opus 5 ใช้ได้ที่ไหนบ้างแล้ว คุ้มโทเคนแค่ไหน · ผู้ใช้แพลน Max ลองอัดงานหนักแล้วโควตายังเหลือ 95%

26 ก.ค. 2569 · 11 นาที · อ่าน 88 ครั้ง

คุยกันต่อในกลุ่ม

ถาม-ตอบเรื่องการใช้ AI กับงานจริง กันทุกวัน · เข้าฟรี

เข้ากลุ่ม Facebook

$ cat blog/[slug].md

$ cat blog/gemma-4-12b.md

Gemma 4 12B โมเดลมัลติโมดัลแบบเปิดของ Google รันบนแลปท็อป 16GB ได้จริง

14 มิถุนายน 2569 · 7 นาที · อ่าน 122 ครั้ง

เคล็ดอยู่ที่การถอดชิ้นส่วนที่หนักที่สุดออก

เล็กแต่ไม่ได้อ่อน

เทียบกับรุ่นพี่ตัวใหญ่กว่าเกือบเท่าตัว คะแนนของมันแทบไม่น้อยหน้า

งานทดสอบ	Gemma 4 12B	Gemma 4 26B A4B
MMLU Pro (ความรู้รวม)	77.2%	82.6%
AIME 2026 (คณิต)	77.5%	88.3%
GPQA Diamond (เหตุผลระดับสูง)	78.8%	82.3%
LiveCodeBench v6 (เขียนโค้ด)	72.0%	77.1%
MMMU Pro (อ่านภาพ)	69.1%	73.8%

เลือกตัวไหนในตระกูล Gemma 4

E2B และ E4B — ตัวจิ๋วสำหรับงานบนมือถือหรือเครื่องเล็กๆ ที่ทรัพยากรจำกัด รับเสียงได้ บริบท 128K เหมาะถ้าเครื่องเล็กมากและต้องการแค่งานเบาๆ
12B Unified — ตัวที่ข่าวนี้พูดถึง รับข้อความ ภาพ เสียง บริบท 256K เหมาะกับคนที่มีแลปท็อป 16GB และอยากได้ผู้ช่วยมัลติโมดัลครบเครื่องบนเครื่องตัวเอง
26B A4B และ 31B — ตัวใหญ่ที่แรงกว่า แต่กินหน่วยความจำมากกว่ามาก เหมาะกับเครื่องเวิร์กสเตชันหรือเซิร์ฟเวอร์ที่เน้นความแม่นยำสูงสุด และทั้งคู่ไม่รับเสียง

โมเดลฝาแฝดที่แลกความแม่นเพื่อความเร็ว

เริ่มรันบนเครื่องตัวเองใน 2 บรรทัด

brew install llama.cpp
llama-server -hf unsloth/gemma-4-12b-it-GGUF:UD-Q4_K_XL

ollama run hf.co/unsloth/gemma-4-12b-it-GGUF:UD-Q4_K_XL

เมื่อโมเดลที่ดีพอย้ายลงมาอยู่ในมือเรา

ที่มา: บทความ Introducing Gemma 4 12B: a unified, encoder-free multimodal model จาก Google

models

แชร์Facebook X LINE

อีบุ๊คฟรี

ชอบเรื่องแนวนี้ มีอีบุ๊คฟรีให้อ่านต่อ

กดสมัครแล้วเราจะส่งเทคนิค AI และของแจกใหม่ๆ ให้ทางอีเมล เลิกรับได้ตลอด

หนังสือแนะนำ

Claude Cowork · The Business Playbook

ลด 44%

฿1,400฿2,500

สั่งซื้อหนังสือ

ทีมผู้เขียน Vibe Coding Thailandvibecodingth

$ tail -f journal.log

อ่านต่อจากเรื่องนี้

MODELS

26 ก.ค. 2569 · 11 นาที · อ่าน 88 ครั้ง

คุยกันต่อในกลุ่ม

ถาม-ตอบเรื่องการใช้ AI กับงานจริง กันทุกวัน · เข้าฟรี

เข้ากลุ่ม Facebook

Gemma 4 12B โมเดลมัลติโมดัลแบบเปิดของ Google รันบนแลปท็อป 16GB ได้จริง

เคล็ดอยู่ที่การถอดชิ้นส่วนที่หนักที่สุดออก

เล็กแต่ไม่ได้อ่อน

เลือกตัวไหนในตระกูล Gemma 4

โมเดลฝาแฝดที่แลกความแม่นเพื่อความเร็ว

เริ่มรันบนเครื่องตัวเองใน 2 บรรทัด

เมื่อโมเดลที่ดีพอย้ายลงมาอยู่ในมือเรา

ชอบเรื่องแนวนี้ มีอีบุ๊คฟรีให้อ่านต่อ

Claude Cowork · The Business Playbook

อ่านต่อจากเรื่องนี้

Claude Opus 5 ใช้ได้ที่ไหนบ้างแล้ว คุ้มโทเคนแค่ไหน · ผู้ใช้แพลน Max ลองอัดงานหนักแล้วโควตายังเหลือ 95%

Claude Opus 5 เปิดตัวแล้ว: โค้ดเก่งขึ้นเกินสองเท่า ในราคาต่อ token เท่าเดิม

Fara1.5-27B: Computer Use Agent จาก Microsoft ที่คุมเบราว์เซอร์ทำงานแทนเรา

คุยกันต่อในกลุ่ม

Gemma 4 12B โมเดลมัลติโมดัลแบบเปิดของ Google รันบนแลปท็อป 16GB ได้จริง

เคล็ดอยู่ที่การถอดชิ้นส่วนที่หนักที่สุดออก

เล็กแต่ไม่ได้อ่อน

เลือกตัวไหนในตระกูล Gemma 4

โมเดลฝาแฝดที่แลกความแม่นเพื่อความเร็ว

เริ่มรันบนเครื่องตัวเองใน 2 บรรทัด

เมื่อโมเดลที่ดีพอย้ายลงมาอยู่ในมือเรา

ชอบเรื่องแนวนี้ มีอีบุ๊คฟรีให้อ่านต่อ

Claude Cowork · The Business Playbook

อ่านต่อจากเรื่องนี้

Claude Opus 5 ใช้ได้ที่ไหนบ้างแล้ว คุ้มโทเคนแค่ไหน · ผู้ใช้แพลน Max ลองอัดงานหนักแล้วโควตายังเหลือ 95%

Claude Opus 5 เปิดตัวแล้ว: โค้ดเก่งขึ้นเกินสองเท่า ในราคาต่อ token เท่าเดิม

Fara1.5-27B: Computer Use Agent จาก Microsoft ที่คุมเบราว์เซอร์ทำงานแทนเรา

คุยกันต่อในกลุ่ม