อัปเดต Ollama เป็น 0.31 แล้ว Gemma 4 บน Mac ตอบเร็วขึ้นเกือบ 90% โดยไม่ต้องเปลี่ยนเครื่อง
Ollama 0.31 ทำให้โมเดล Gemma 4 บน Mac ชิป Apple Silicon ตอบได้เร็วขึ้นเกือบ 90% ด้วยเทคนิค multi-token prediction ความสามารถใหม่นี้ทำงานเองโดยอัตโนมัติ ไม่ต้องเปลี่ยนเครื่องหรือตั้งค่าอะไร แค่กดอัปเดต

Ollama แอปยอดนิยมสำหรับรันโมเดล AI (LLM) ในเครื่องตัวเองแบบฟรีและออฟไลน์ เพิ่งปล่อยเวอร์ชัน 0.31 ออกมา รอบนี้จุดเด่นอยู่ที่ความเร็ว เพราะโมเดล Gemma 4 ที่รันอยู่บน Mac ชิป Apple Silicon ตอบได้เร็วขึ้นเกือบ 90% โดยเฉลี่ยบน benchmark ของงานเขียนโค้ด
จุดที่ทำให้ข่าวนี้น่าสนใจกว่าปกติ คือความเร็วที่เพิ่มขึ้นไม่ได้มาจากการเปลี่ยนเครื่องหรือซื้อการ์ดจอที่แพงขึ้น เครื่องเดิม · โมเดลเดิม · ไม่ต้องตั้งค่าอะไรเพิ่ม แค่กดอัปเดต Ollama เป็น 0.31 แล้วความเร็วก็เพิ่มขึ้นเองโดยอัตโนมัติ
รันโมเดลในเครื่องเอง ดีทุกอย่าง ยกเว้นตอนมันช้า
คนที่รันโมเดล AI ในเครื่องตัวเองรู้ปัญหานี้ดี ข้อดีมีเยอะ ทั้งฟรี · ใช้ออฟไลน์ได้ · ข้อมูลไม่หลุดออกนอกเครื่อง แต่จุดที่มักสู้บริการบนคลาวด์ไม่ได้คือความเร็ว โมเดลบนเครื่องเรากว่าจะพิมพ์คำตอบออกมาจนจบก็ต้องรอนานกว่า
Ollama ทำให้เรื่องนี้ง่ายลง เพราะเป็นเครื่องมือสำหรับโหลดและรันโมเดลภาษาขนาดใหญ่ (LLM) ในเครื่องตัวเอง โดยไม่ต้องต่อเน็ตไปหาเซิร์ฟเวอร์ของใคร ส่วน Gemma 4 คือโมเดลโอเพนของ Google ที่ใครก็โหลดมารันบน Ollama ได้ฟรี พอสองอย่างนี้มารวมกัน เราก็ได้ผู้ช่วย AI ที่ทำงานอยู่ในเครื่องเราเองทั้งหมด เหลือปัญหาเดียวที่คนใช้อยากให้ดีขึ้นมาตลอด คือ "มันน่าจะเร็วกว่านี้ได้อีก" และนั่นคือสิ่งที่ 0.31 มาแก้
เกิดอะไรขึ้นในเวอร์ชัน 0.31
หัวใจของเวอร์ชันนี้คือเทคนิคชื่อ multi-token prediction (เรียกสั้น ๆ ว่า MTP) ที่ทำงานผ่าน MLX เฟรมเวิร์กประมวลผลของ Apple เอง ตัวเลขที่ Ollama ให้ไว้คือ Gemma 4 บนชิป Apple Silicon "สร้างโทเคนได้เร็วขึ้นเกือบ 90% โดยเฉลี่ย บน benchmark ของ coding agent"
มีสองข้อที่ควรรู้ตั้งแต่ต้น ข้อแรก ระบบเปิดใช้ MTP ให้ตั้งแต่แรก ไม่ต้องไปตั้งค่าเอง ข้อสอง มันไม่ได้เปลี่ยนคำตอบของโมเดล คำตอบที่ได้ยังเหมือนเดิมทุกอย่าง แค่ออกมาเร็วขึ้นเท่านั้น ไม่ใช่การเร่งความเร็วด้วยการยอมลดคุณภาพคำตอบลง
MTP ทำงานยังไง แบบภาษาคน

ปกติโมเดลภาษาสร้างคำตอบทีละโทเคน (token คือชิ้นส่วนของข้อความ อาจเป็นคำ · ส่วนของคำ · หรือเครื่องหมาย) มันทำนายชิ้นถัดไปหนึ่งชิ้น แล้วค่อยทำนายชิ้นต่อไป เรียงกันไปเรื่อย ๆ ทีละชิ้น ยิ่งคำตอบยาว ก็ยิ่งต้องรอนาน
MTP ทำงานต่างออกไป Gemma 4 เวอร์ชันใหม่มาพร้อมโมเดลตัวเล็กจิ๋วอีกตัวที่ทำงานคู่ไปกับโมเดลหลัก หน้าที่ของมันคือ "ร่าง" โทเคนถัดไปล่วงหน้าทีละหลายชิ้น จากนั้นโมเดลหลักตรวจทั้งชุดในรอบเดียว ชิ้นไหนที่ร่างมาตรงกับที่โมเดลหลักจะตอบอยู่แล้ว ก็ใช้ชิ้นนั้นได้ทันที ไม่ต้องเสียเวลามาสร้างใหม่ทีละชิ้น
เดาถูกเมื่อไร ตรวจแค่รอบเดียวก็ได้คำตอบทีเดียวหลายชิ้น
เหตุผลที่มันเวิร์กเป็นพิเศษกับงานเขียนโค้ด คือโค้ดเดาง่าย ทั้งวงเล็บที่ต้องปิด · ชื่อตัวแปรที่ใช้ซ้ำ · โครงสร้างที่วนซ้ำเดิม ๆ โมเดลตัวเล็กที่คอยร่างจึงเดาถูกบ่อย และเมื่อเดาถูกบ่อย ก็ใช้ชิ้นที่ร่างไว้ได้บ่อย ความเร็วเลยเห็นผลชัดกับ coding agent (ผู้ช่วย AI สายเขียนโค้ด) ที่เรียกใช้โมเดลถี่ ๆ ตลอดเวลา ทั้งตอนอ่านไฟล์ · สั่งรันเครื่องมือ · ไล่ทำงานทีละสเต็ป
แล้วถ้าเดาผิดล่ะ จุดนี้ Ollama ออกแบบมาให้ฉลาดพอ เพราะจำนวนโทเคนที่ควรร่างล่วงหน้าไม่ได้คงที่ ถ้าร่างเยอะเกินไปในช่วงที่เดาผิดบ่อย กลับทำให้ช้ากว่าเดิมด้วยซ้ำ Ollama เลยคอยดูว่าที่ร่างไปถูกบ่อยแค่ไหน แล้วปรับจำนวนที่ร่างขึ้นลงเองตลอดเวลาเพื่อให้ได้ความเร็วสูงสุด และถ้าช่วงไหนเดาไม่ค่อยถูกเลย มันก็กลับไปสร้างทีละโทเคนแบบเดิม ทั้งหมดนี้เกิดขึ้นเองระหว่างรัน โดยที่เราไม่ต้องแตะอะไร
ต้องมีอะไรถึงจะได้ความเร็วนี้

ก่อนจะตื่นเต้นเกินไป เช็กก่อนว่าเข้าเงื่อนไขครบไหม เพราะรอบนี้ Ollama ระบุขอบเขตไว้ค่อนข้างชัด
- Mac ที่ใช้ชิป Apple Silicon (ชิปตระกูล M)
- Ollama เวอร์ชัน 0.31 ขึ้นไป
- รันโมเดล Gemma 4 (เช่นตัว
gemma4:12b-mlxที่เป็น build สำหรับ MLX)
ครบสามข้อนี้ถึงจะได้ความเร็วที่ว่า ถ้าเครื่องเป็น Mac รุ่นเก่าที่ยังใช้ชิป Intel หรือรันโมเดลตัวอื่นที่ไม่ใช่ Gemma 4 ก็ยังไม่เข้าข่ายในรอบนี้
อัปเดตแล้วเริ่มใช้ยังไง
ขั้นตอนจริงสั้นมาก ถ้าเคยใช้ Ollama อยู่แล้ว แทบจะแค่กดอัปเดต
- ดาวน์โหลด Ollama เวอร์ชัน 0.31 ขึ้นไปสำหรับ macOS (คนที่มีอยู่แล้วก็อัปเดตแอปให้เป็นเวอร์ชันนี้)
- ถ้าเคยโหลด Gemma 4 ไว้ก่อนเวอร์ชันนี้ ต้องโหลดโมเดลลงมาใหม่อีกรอบ เพื่อให้ได้ตัวที่รองรับ MTP
ollama pull gemma4:12b-mlx
- เปิด coding agent ที่ใช้ Gemma 4 ในเครื่อง
ollama launch claude --model gemma4:12b-mlx
คำสั่ง ollama launch ใช้ได้กับ coding agent หลายตัว ไม่ใช่แค่ claude เท่านั้น เช่น Codex · Droid · OpenCode · Copilot และตัวอื่น ๆ เลือกตัวที่ถนัด แล้วตั้งให้ใช้โมเดล Gemma 4 ในเครื่องได้เลย ส่วนคนที่เพิ่งโหลด Gemma 4 ครั้งแรกในเวอร์ชันนี้ ไม่ต้องทำอะไรเพิ่ม เพราะโมเดลที่โหลดมารองรับ MTP ตั้งแต่แรกแล้ว
ตัวเลข 90% มาจากไหน และได้ไม่เท่ากันทุกงาน
เลขเกือบ 90% ฟังดูเยอะ แต่ต้องเข้าใจให้ตรงว่ามันมาจากไหน ตัวเลขนี้เป็นค่าเฉลี่ยที่วัดบน benchmark ชื่อ Aider polyglot ซึ่งจำลองการให้ coding agent ตัวจริงทำงานเขียนโปรแกรมจริง ไม่ใช่ตัวเลขตายตัวที่จะได้เท่ากันในทุกงาน
เรื่องนี้ ollama.com เขียนเตือนไว้เองในบล็อกตรง ๆ ว่าประโยชน์จาก MTP ขึ้นอยู่กับลักษณะงานอย่างมาก และถ้าตั้งโจทย์ทดสอบเอง ก็ทำให้ตัวเลขออกมาแบบไหนก็ได้ พูดง่าย ๆ คืองานที่เดาทางยากกว่าการเขียนโค้ด เช่น งานเขียนสร้างสรรค์ที่คำถัดไปเดายาก ก็จะได้ความเร็วเพิ่มน้อยกว่านี้
อีกข้อที่ควรรู้คือขอบเขตของมันในตอนนี้ Gemma 4 เป็นโมเดลตัวแรกที่รองรับการเร่งความเร็วนี้ Ollama บอกว่าจะทยอยขยายไปโมเดลอื่นต่อ แต่ยังไม่ระบุว่าเป็นตัวไหน ใครที่รันโมเดลอื่นอยู่จึงยังต้องรอไปก่อน
ที่น่าคิดกว่าตัวเลข 90% คือมันมาจากซอฟต์แวร์ล้วน ๆ ฮาร์ดแวร์ในเครื่องที่เรามีอยู่วันนี้อาจจะเร็วกว่าที่เคยคิด เพียงแต่รอให้ซอฟต์แวร์รุ่นใหม่ทำให้มันทำงานได้เต็มประสิทธิภาพ
ที่มา:
- บทความ Faster Gemma 4 on MLX with multi-token prediction จาก ollama.com
- Release v0.31.1 · ollama/ollama จาก GitHub



