$ loading

$ loading ~/vibecoding

$ cat blog/ollama-gemma4-mtp.md

อัปเดต Ollama เป็น 0.31 แล้ว Gemma 4 บน Mac ตอบเร็วขึ้นเกือบ 90% โดยไม่ต้องเปลี่ยนเครื่อง

Ollama 0.31 ทำให้โมเดล Gemma 4 บน Mac ชิป Apple Silicon ตอบได้เร็วขึ้นเกือบ 90% ด้วยเทคนิค multi-token prediction ความสามารถใหม่นี้ทำงานเองโดยอัตโนมัติ ไม่ต้องเปลี่ยนเครื่องหรือตั้งค่าอะไร แค่กดอัปเดต

1 กรกฎาคม 2569 · 7 นาที · อ่าน 1 ครั้ง

อัปเดต Ollama เป็น 0.31 แล้ว Gemma 4 บน Mac ตอบเร็วขึ้นเกือบ 90% โดยไม่ต้องเปลี่ยนเครื่อง — อัปเดต Ollama 0.31 แล้ว Gemma 4 บน Mac เร็วขึ้นเกือบ 90% ด้วย multi-token prediction

Ollama แอปยอดนิยมสำหรับรันโมเดล AI (LLM) ในเครื่องตัวเองแบบฟรีและออฟไลน์ เพิ่งปล่อยเวอร์ชัน 0.31 ออกมา รอบนี้จุดเด่นอยู่ที่ความเร็ว เพราะโมเดล Gemma 4 ที่รันอยู่บน Mac ชิป Apple Silicon ตอบได้เร็วขึ้นเกือบ 90% โดยเฉลี่ยบน benchmark ของงานเขียนโค้ด

จุดที่ทำให้ข่าวนี้น่าสนใจกว่าปกติ คือความเร็วที่เพิ่มขึ้นไม่ได้มาจากการเปลี่ยนเครื่องหรือซื้อการ์ดจอที่แพงขึ้น เครื่องเดิม · โมเดลเดิม · ไม่ต้องตั้งค่าอะไรเพิ่ม แค่กดอัปเดต Ollama เป็น 0.31 แล้วความเร็วก็เพิ่มขึ้นเองโดยอัตโนมัติ

รันโมเดลในเครื่องเอง ดีทุกอย่าง ยกเว้นตอนมันช้า

คนที่รันโมเดล AI ในเครื่องตัวเองรู้ปัญหานี้ดี ข้อดีมีเยอะ ทั้งฟรี · ใช้ออฟไลน์ได้ · ข้อมูลไม่หลุดออกนอกเครื่อง แต่จุดที่มักสู้บริการบนคลาวด์ไม่ได้คือความเร็ว โมเดลบนเครื่องเรากว่าจะพิมพ์คำตอบออกมาจนจบก็ต้องรอนานกว่า

Ollama ทำให้เรื่องนี้ง่ายลง เพราะเป็นเครื่องมือสำหรับโหลดและรันโมเดลภาษาขนาดใหญ่ (LLM) ในเครื่องตัวเอง โดยไม่ต้องต่อเน็ตไปหาเซิร์ฟเวอร์ของใคร ส่วน Gemma 4 คือโมเดลโอเพนของ Google ที่ใครก็โหลดมารันบน Ollama ได้ฟรี พอสองอย่างนี้มารวมกัน เราก็ได้ผู้ช่วย AI ที่ทำงานอยู่ในเครื่องเราเองทั้งหมด เหลือปัญหาเดียวที่คนใช้อยากให้ดีขึ้นมาตลอด คือ "มันน่าจะเร็วกว่านี้ได้อีก" และนั่นคือสิ่งที่ 0.31 มาแก้

เกิดอะไรขึ้นในเวอร์ชัน 0.31

หัวใจของเวอร์ชันนี้คือเทคนิคชื่อ multi-token prediction (เรียกสั้น ๆ ว่า MTP) ที่ทำงานผ่าน MLX เฟรมเวิร์กประมวลผลของ Apple เอง ตัวเลขที่ Ollama ให้ไว้คือ Gemma 4 บนชิป Apple Silicon "สร้างโทเคนได้เร็วขึ้นเกือบ 90% โดยเฉลี่ย บน benchmark ของ coding agent"

มีสองข้อที่ควรรู้ตั้งแต่ต้น ข้อแรก ระบบเปิดใช้ MTP ให้ตั้งแต่แรก ไม่ต้องไปตั้งค่าเอง ข้อสอง มันไม่ได้เปลี่ยนคำตอบของโมเดล คำตอบที่ได้ยังเหมือนเดิมทุกอย่าง แค่ออกมาเร็วขึ้นเท่านั้น ไม่ใช่การเร่งความเร็วด้วยการยอมลดคุณภาพคำตอบลง

MTP ทำงานยังไง แบบภาษาคน

ภาพเปรียบเทียบการสร้างคำตอบแบบเดิมทีละโทเคน กับแบบ MTP ที่ร่างหลายโทเคนล่วงหน้าแล้วตรวจในรอบเดียว พร้อมผลลัพธ์ว่าเร็วขึ้นเกือบ 90% โดยคำตอบเหมือนเดิม — แทนที่จะรอสร้างทีละโทเคน MTP ให้โมเดลตัวเล็กร่างหลายโทเคนล่วงหน้าแล้วตรวจทีเดียว ถ้าเดาถูกก็เดินหน้าได้หลายโทเคนในคราวเดียว คำตอบจึงออกมาเร็วขึ้นทั้งที่ยังเหมือนเดิมทุกอย่าง

ปกติโมเดลภาษาสร้างคำตอบทีละโทเคน (token คือชิ้นส่วนของข้อความ อาจเป็นคำ · ส่วนของคำ · หรือเครื่องหมาย) มันทำนายชิ้นถัดไปหนึ่งชิ้น แล้วค่อยทำนายชิ้นต่อไป เรียงกันไปเรื่อย ๆ ทีละชิ้น ยิ่งคำตอบยาว ก็ยิ่งต้องรอนาน

MTP ทำงานต่างออกไป Gemma 4 เวอร์ชันใหม่มาพร้อมโมเดลตัวเล็กจิ๋วอีกตัวที่ทำงานคู่ไปกับโมเดลหลัก หน้าที่ของมันคือ "ร่าง" โทเคนถัดไปล่วงหน้าทีละหลายชิ้น จากนั้นโมเดลหลักตรวจทั้งชุดในรอบเดียว ชิ้นไหนที่ร่างมาตรงกับที่โมเดลหลักจะตอบอยู่แล้ว ก็ใช้ชิ้นนั้นได้ทันที ไม่ต้องเสียเวลามาสร้างใหม่ทีละชิ้น

เดาถูกเมื่อไร ตรวจแค่รอบเดียวก็ได้คำตอบทีเดียวหลายชิ้น

เหตุผลที่มันเวิร์กเป็นพิเศษกับงานเขียนโค้ด คือโค้ดเดาง่าย ทั้งวงเล็บที่ต้องปิด · ชื่อตัวแปรที่ใช้ซ้ำ · โครงสร้างที่วนซ้ำเดิม ๆ โมเดลตัวเล็กที่คอยร่างจึงเดาถูกบ่อย และเมื่อเดาถูกบ่อย ก็ใช้ชิ้นที่ร่างไว้ได้บ่อย ความเร็วเลยเห็นผลชัดกับ coding agent (ผู้ช่วย AI สายเขียนโค้ด) ที่เรียกใช้โมเดลถี่ ๆ ตลอดเวลา ทั้งตอนอ่านไฟล์ · สั่งรันเครื่องมือ · ไล่ทำงานทีละสเต็ป

แล้วถ้าเดาผิดล่ะ จุดนี้ Ollama ออกแบบมาให้ฉลาดพอ เพราะจำนวนโทเคนที่ควรร่างล่วงหน้าไม่ได้คงที่ ถ้าร่างเยอะเกินไปในช่วงที่เดาผิดบ่อย กลับทำให้ช้ากว่าเดิมด้วยซ้ำ Ollama เลยคอยดูว่าที่ร่างไปถูกบ่อยแค่ไหน แล้วปรับจำนวนที่ร่างขึ้นลงเองตลอดเวลาเพื่อให้ได้ความเร็วสูงสุด และถ้าช่วงไหนเดาไม่ค่อยถูกเลย มันก็กลับไปสร้างทีละโทเคนแบบเดิม ทั้งหมดนี้เกิดขึ้นเองระหว่างรัน โดยที่เราไม่ต้องแตะอะไร

ต้องมีอะไรถึงจะได้ความเร็วนี้

ภาพเช็กลิสต์สองฝั่ง โดยฝั่งเข้าเงื่อนไขคือ Mac ชิป Apple Silicon ใช้ Ollama เวอร์ชัน 0.31 ขึ้นไป และรันโมเดล Gemma 4 ส่วนฝั่งไม่เข้าข่ายคือชิป Intel โมเดลอื่น และ Ollama รุ่นเก่า — ถ้าเครื่องตรงครบทั้งสามข้อนี้ ก็เร็วขึ้นเองทันทีหลังกดอัปเดต แต่ถ้ายังใช้ชิป Intel หรือรันโมเดลอื่นที่ไม่ใช่ Gemma 4 รอบนี้ก็ยังไม่เข้าข่าย

ก่อนจะตื่นเต้นเกินไป เช็กก่อนว่าเข้าเงื่อนไขครบไหม เพราะรอบนี้ Ollama ระบุขอบเขตไว้ค่อนข้างชัด

Mac ที่ใช้ชิป Apple Silicon (ชิปตระกูล M)
Ollama เวอร์ชัน 0.31 ขึ้นไป
รันโมเดล Gemma 4 (เช่นตัว gemma4:12b-mlx ที่เป็น build สำหรับ MLX)

ครบสามข้อนี้ถึงจะได้ความเร็วที่ว่า ถ้าเครื่องเป็น Mac รุ่นเก่าที่ยังใช้ชิป Intel หรือรันโมเดลตัวอื่นที่ไม่ใช่ Gemma 4 ก็ยังไม่เข้าข่ายในรอบนี้

อัปเดตแล้วเริ่มใช้ยังไง

ขั้นตอนจริงสั้นมาก ถ้าเคยใช้ Ollama อยู่แล้ว แทบจะแค่กดอัปเดต

ดาวน์โหลด Ollama เวอร์ชัน 0.31 ขึ้นไปสำหรับ macOS (คนที่มีอยู่แล้วก็อัปเดตแอปให้เป็นเวอร์ชันนี้)
ถ้าเคยโหลด Gemma 4 ไว้ก่อนเวอร์ชันนี้ ต้องโหลดโมเดลลงมาใหม่อีกรอบ เพื่อให้ได้ตัวที่รองรับ MTP

ollama pull gemma4:12b-mlx

เปิด coding agent ที่ใช้ Gemma 4 ในเครื่อง

ollama launch claude --model gemma4:12b-mlx

คำสั่ง ollama launch ใช้ได้กับ coding agent หลายตัว ไม่ใช่แค่ claude เท่านั้น เช่น Codex · Droid · OpenCode · Copilot และตัวอื่น ๆ เลือกตัวที่ถนัด แล้วตั้งให้ใช้โมเดล Gemma 4 ในเครื่องได้เลย ส่วนคนที่เพิ่งโหลด Gemma 4 ครั้งแรกในเวอร์ชันนี้ ไม่ต้องทำอะไรเพิ่ม เพราะโมเดลที่โหลดมารองรับ MTP ตั้งแต่แรกแล้ว

ตัวเลข 90% มาจากไหน และได้ไม่เท่ากันทุกงาน

เลขเกือบ 90% ฟังดูเยอะ แต่ต้องเข้าใจให้ตรงว่ามันมาจากไหน ตัวเลขนี้เป็นค่าเฉลี่ยที่วัดบน benchmark ชื่อ Aider polyglot ซึ่งจำลองการให้ coding agent ตัวจริงทำงานเขียนโปรแกรมจริง ไม่ใช่ตัวเลขตายตัวที่จะได้เท่ากันในทุกงาน

เรื่องนี้ ollama.com เขียนเตือนไว้เองในบล็อกตรง ๆ ว่าประโยชน์จาก MTP ขึ้นอยู่กับลักษณะงานอย่างมาก และถ้าตั้งโจทย์ทดสอบเอง ก็ทำให้ตัวเลขออกมาแบบไหนก็ได้ พูดง่าย ๆ คืองานที่เดาทางยากกว่าการเขียนโค้ด เช่น งานเขียนสร้างสรรค์ที่คำถัดไปเดายาก ก็จะได้ความเร็วเพิ่มน้อยกว่านี้

อีกข้อที่ควรรู้คือขอบเขตของมันในตอนนี้ Gemma 4 เป็นโมเดลตัวแรกที่รองรับการเร่งความเร็วนี้ Ollama บอกว่าจะทยอยขยายไปโมเดลอื่นต่อ แต่ยังไม่ระบุว่าเป็นตัวไหน ใครที่รันโมเดลอื่นอยู่จึงยังต้องรอไปก่อน

ที่น่าคิดกว่าตัวเลข 90% คือมันมาจากซอฟต์แวร์ล้วน ๆ ฮาร์ดแวร์ในเครื่องที่เรามีอยู่วันนี้อาจจะเร็วกว่าที่เคยคิด เพียงแต่รอให้ซอฟต์แวร์รุ่นใหม่ทำให้มันทำงานได้เต็มประสิทธิภาพ

ที่มา:

บทความ Faster Gemma 4 on MLX with multi-token prediction จาก ollama.com
Release v0.31.1 · ollama/ollama จาก GitHub

updates

ทีมผู้เขียน Vibe Coding Thailandvibecodingth

สอนใช้ AI กับงานจริงเป็นภาษาไทย ผ่านบทความ คอร์ส และเครื่องมือที่สร้างด้วย AI

หนังสือแนะนำ

Claude Cowork · The Business Playbook

฿1,400฿2,500ลด 44%

สั่งซื้อหนังสือ

$ tail -f journal.log

อ่านต่อจากเรื่องนี้

UPDATES

Vercel ให้ใช้ Dockerfile กับภาษาไหนก็ได้แล้ว แถมรวมหลายเฟรมเวิร์กไว้ในโปรเจกต์เดียวเพื่อ deploy พร้อมกัน

30 มิ.ย. 2569 · 9 นาที · อ่าน 4 ครั้ง

คุยกันต่อในกลุ่ม

ถาม-ตอบเรื่องการใช้ AI กับงานจริง กันทุกวัน · เข้าฟรี

เข้ากลุ่ม Facebook

Claude Cowork

฿1,400฿2,500

ซื้อหนังสือ

$ cat blog/[slug].md

$ cat blog/ollama-gemma4-mtp.md

อัปเดต Ollama เป็น 0.31 แล้ว Gemma 4 บน Mac ตอบเร็วขึ้นเกือบ 90% โดยไม่ต้องเปลี่ยนเครื่อง

1 กรกฎาคม 2569 · 7 นาที · อ่าน 1 ครั้ง

รันโมเดลในเครื่องเอง ดีทุกอย่าง ยกเว้นตอนมันช้า

เกิดอะไรขึ้นในเวอร์ชัน 0.31

MTP ทำงานยังไง แบบภาษาคน

เดาถูกเมื่อไร ตรวจแค่รอบเดียวก็ได้คำตอบทีเดียวหลายชิ้น

ต้องมีอะไรถึงจะได้ความเร็วนี้

Mac ที่ใช้ชิป Apple Silicon (ชิปตระกูล M)
Ollama เวอร์ชัน 0.31 ขึ้นไป
รันโมเดล Gemma 4 (เช่นตัว gemma4:12b-mlx ที่เป็น build สำหรับ MLX)

อัปเดตแล้วเริ่มใช้ยังไง

ขั้นตอนจริงสั้นมาก ถ้าเคยใช้ Ollama อยู่แล้ว แทบจะแค่กดอัปเดต

ดาวน์โหลด Ollama เวอร์ชัน 0.31 ขึ้นไปสำหรับ macOS (คนที่มีอยู่แล้วก็อัปเดตแอปให้เป็นเวอร์ชันนี้)
ถ้าเคยโหลด Gemma 4 ไว้ก่อนเวอร์ชันนี้ ต้องโหลดโมเดลลงมาใหม่อีกรอบ เพื่อให้ได้ตัวที่รองรับ MTP

ollama pull gemma4:12b-mlx

เปิด coding agent ที่ใช้ Gemma 4 ในเครื่อง

ollama launch claude --model gemma4:12b-mlx

ตัวเลข 90% มาจากไหน และได้ไม่เท่ากันทุกงาน

ที่มา:

บทความ Faster Gemma 4 on MLX with multi-token prediction จาก ollama.com
Release v0.31.1 · ollama/ollama จาก GitHub

updates

ทีมผู้เขียน Vibe Coding Thailandvibecodingth

หนังสือแนะนำ

Claude Cowork · The Business Playbook

฿1,400฿2,500ลด 44%

สั่งซื้อหนังสือ

$ tail -f journal.log

อ่านต่อจากเรื่องนี้

UPDATES

30 มิ.ย. 2569 · 9 นาที · อ่าน 4 ครั้ง

คุยกันต่อในกลุ่ม

ถาม-ตอบเรื่องการใช้ AI กับงานจริง กันทุกวัน · เข้าฟรี

เข้ากลุ่ม Facebook

Claude Cowork

฿1,400฿2,500

ซื้อหนังสือ

อัปเดต Ollama เป็น 0.31 แล้ว Gemma 4 บน Mac ตอบเร็วขึ้นเกือบ 90% โดยไม่ต้องเปลี่ยนเครื่อง

รันโมเดลในเครื่องเอง ดีทุกอย่าง ยกเว้นตอนมันช้า

เกิดอะไรขึ้นในเวอร์ชัน 0.31

MTP ทำงานยังไง แบบภาษาคน

ต้องมีอะไรถึงจะได้ความเร็วนี้

อัปเดตแล้วเริ่มใช้ยังไง

ตัวเลข 90% มาจากไหน และได้ไม่เท่ากันทุกงาน

Claude Cowork · The Business Playbook

อ่านต่อจากเรื่องนี้

Vercel ให้ใช้ Dockerfile กับภาษาไหนก็ได้แล้ว แถมรวมหลายเฟรมเวิร์กไว้ในโปรเจกต์เดียวเพื่อ deploy พร้อมกัน

Cursor for iOS: ปล่อย AI agent เขียนโค้ดต่อตอนไม่อยู่หน้าคอม แล้วกด merge PR จากมือถือได้เลย

Claude Design อัปเดตใหม่ · ดึง design system ของเราเองเข้ามา และส่งงานต่อให้ Claude Code ได้สองทาง

คุยกันต่อในกลุ่ม

อัปเดต Ollama เป็น 0.31 แล้ว Gemma 4 บน Mac ตอบเร็วขึ้นเกือบ 90% โดยไม่ต้องเปลี่ยนเครื่อง

รันโมเดลในเครื่องเอง ดีทุกอย่าง ยกเว้นตอนมันช้า

เกิดอะไรขึ้นในเวอร์ชัน 0.31

MTP ทำงานยังไง แบบภาษาคน

ต้องมีอะไรถึงจะได้ความเร็วนี้

อัปเดตแล้วเริ่มใช้ยังไง

ตัวเลข 90% มาจากไหน และได้ไม่เท่ากันทุกงาน

Claude Cowork · The Business Playbook

อ่านต่อจากเรื่องนี้

Vercel ให้ใช้ Dockerfile กับภาษาไหนก็ได้แล้ว แถมรวมหลายเฟรมเวิร์กไว้ในโปรเจกต์เดียวเพื่อ deploy พร้อมกัน

Cursor for iOS: ปล่อย AI agent เขียนโค้ดต่อตอนไม่อยู่หน้าคอม แล้วกด merge PR จากมือถือได้เลย

Claude Design อัปเดตใหม่ · ดึง design system ของเราเองเข้ามา และส่งงานต่อให้ Claude Code ได้สองทาง

คุยกันต่อในกลุ่ม