$ loading

$ loading ~/vibecoding

$ cat blog/google-diffusion-gemma.md

DiffusionGemma โมเดลภาษาตัวใหม่ของ Google เขียนข้อความทั้งก้อนพร้อมกัน เร็วกว่าเดิมได้ถึง 4 เท่า

Google ปล่อย DiffusionGemma โมเดลภาษาแบบทดลองที่ไม่ได้เขียนข้อความทีละคำ แต่สร้างข้อความขึ้นมาทั้งก้อน พร้อมกัน แล้วค่อยๆ เกลาให้ดีขึ้น วิธีนี้ทำให้เร็วกว่าโมเดลภาษาแบบเดิมได้ถึง 4 เท่า และบน GPU แรงๆ ทำความเร็วทะลุ 1,000 token ต่อวินาที เหมาะกับงานที่ต้องเห็นภาพรวม เช่น เขียนโค้ด เติมในช่องว่าง หรืออ่านเอกสาร แต่ Google ยอมรับเองว่าคุณภาพยังสู้ Gemma 4 รุ่นมาตรฐานไม่ได้

13 มิถุนายน 2569 · 7 นาที · อ่าน 6 ครั้ง

DiffusionGemma โมเดลภาษาตัวใหม่ของ Google เขียนข้อความทั้งก้อนพร้อมกัน เร็วกว่าเดิมได้ถึง 4 เท่า — DiffusionGemma โมเดลภาษาแบบ diffusion ของ Google ที่เขียนข้อความทั้งก้อนพร้อมกัน

โมเดลภาษาเกือบทุกตัวที่เราใช้กันอยู่ทุกวันนี้เขียนคำตอบทีละคำ ไล่จากซ้ายไปขวา เหมือนคนพิมพ์ดีดที่กดทีละตัวอักษร พอกดไปแล้วก็ถอยกลับมาแก้ไม่ได้ Google เพิ่งปล่อยโมเดลตัวใหม่ชื่อ DiffusionGemma ที่ทำงานคนละแบบ มันไม่ได้เขียนทีละคำ แต่สร้างข้อความขึ้นมาทั้งก้อนพร้อมกัน แล้วค่อยๆ เกลาทั้งก้อนให้ดีขึ้นทีละรอบ วิธีนี้ทำให้มันเร็วกว่าโมเดลภาษาแบบเดิมได้ถึง 4 เท่าบนการ์ดจอที่แรงพอ เช่น Nvidia H100 ที่ทำความเร็วได้เกิน 1,000 คำต่อวินาที ส่วนการ์ดเกมระดับสูงอย่าง RTX 5090 ก็ยังทะลุ 700 คำต่อวินาที

DiffusionGemma เป็นโมเดลแบบทดลองที่ Google เปิดให้ใช้ได้ฟรี ใครจะเอาไปดัดแปลงต่อก็ได้ เพราะปล่อยเป็น open model ภายใต้สัญญาอนุญาต Apache 2.0 ตัวโมเดลมีให้ดาวน์โหลดบน Hugging Face คลังกลางที่นักพัฒนาทั่วโลกใช้แชร์โมเดล AI กัน โหลดไปลองรันบนเครื่องตัวเองได้เลย ความน่าสนใจของมันไม่ได้อยู่ที่ตัวเลขความเร็วอย่างเดียว แต่อยู่ที่วิธีคิดเบื้องหลังที่ต่างออกไปจากโมเดลภาษาที่เราคุ้นเคย

ทำไมการเขียนทีละคำถึงช้า

ลองนึกถึงวิธีที่ ChatGPT หรือโมเดลทั่วไปตอบคำถาม มันเดาคำถัดไปจากคำที่เขียนไปแล้ว เขียนคำหนึ่ง แล้วใช้คำนั้นเป็นฐานเดาคำต่อไป ทำแบบนี้ไปเรื่อยๆ จนจบประโยค เรียกง่ายๆ ว่า "โมเดลแบบพิมพ์ดีด" ก็ได้

ปัญหาของการพิมพ์ดีดคือ พอกดคำไหนลงไปแล้ว คำนั้นก็ล็อกตายตัว ถอยกลับมาแก้ไม่ได้ ถ้าเขียนไปได้ครึ่งทางแล้วเพิ่งรู้ว่าตอนต้นควรเป็นอีกอย่าง มันก็แก้ไม่ได้แล้ว ได้แต่เขียนต่อจากส่วนที่ผิดไป และเพราะต้องรอให้คำก่อนหน้าเสร็จก่อนถึงจะเขียนคำต่อไปได้ ทุกอย่างจึงเดินเรียงทีละคำเป็นแถว ความเร็วเลยไปได้แค่ตามจังหวะนี้

เริ่มจากก้อนข้อความที่ยุ่งเหยิง

ภาพเทียบวิธีเขียนข้อความสองแบบ: ฝั่งซ้ายเป็นโมเดลพิมพ์ดีดที่เขียนทีละคำไปข้างหน้า ส่วนฝั่งขวาเป็น DiffusionGemma ที่สร้างทั้งก้อนแล้วเกลาหลายรอบ — ตัวพิมพ์ดีดล็อกคำแล้วแก้ไม่ได้ · diffusion เห็นทั้งก้อนเลยย้อนกลับไปเกลาส่วนต้นได้

DiffusionGemma ไม่เริ่มจากหน้ากระดาษเปล่า แต่เริ่มจากก้อนข้อความที่ยังเป็นตัวอักษรมั่วๆ ไม่มีความหมาย แล้วค่อยๆ ปรับทั้งก้อนให้เข้ารูปเข้ารอยขึ้นหลายรอบ จนกลายเป็นคำตอบที่อ่านรู้เรื่อง

วิธีนี้ยืมมาจากเทคโนโลยีที่ใช้สร้างภาพ AI ที่หลายคนคงเคยเห็น การสร้างภาพแบบ diffusion เริ่มจากภาพที่เต็มไปด้วยจุดรบกวนคล้ายทีวีไม่มีสัญญาณ แล้วค่อยๆ ลบความมั่วออกทีละรอบจนได้ภาพที่ชัด DiffusionGemma เอาหลักการเดียวกันนี้มาใช้กับข้อความ ต่างกันแค่ว่าสิ่งที่ค่อยๆ เกลาให้ชัดขึ้นคือตัวหนังสือ ไม่ใช่ภาพ

ข้อได้เปรียบที่แท้จริงอยู่ตรงนี้ เพราะ DiffusionGemma มองข้อความทั้งก้อนพร้อมกันในกรอบข้อความขนาด 256 คำ มันจึงย้อนกลับไปแก้ส่วนต้นได้ แม้เบาะแสว่าต้องแก้จะเพิ่งโผล่มาตอนท้าย ขณะที่โมเดลพิมพ์ดีดล็อกคำไปแล้วแก้ไม่ได้ DiffusionGemma ยังเกลาคำตอบของตัวเองได้เรื่อยๆ ระหว่างสร้างคำตอบ

ทำไมโจทย์อย่าง Sudoku ถึงเห็นความต่างชัด

ลองนึกถึงการเล่น Sudoku คุณเติมเลขในกริดทีละช่องจากซ้ายบนไปขวาล่างรวดเดียวจบไม่ได้ เพราะเลขที่จะลงในช่องหนึ่งขึ้นอยู่กับทั้งแถว ทั้งหลัก และทั้งบล็อกรอบๆ คุณต้องมองทั้งกริดพร้อมกัน เติมไปบ้าง ย้อนกลับมาแก้บ้าง กว่าจะลงตัว

นี่คือเหตุผลที่โมเดลพิมพ์ดีดเล่น Sudoku ได้ไม่ดี เพราะมันถูกบังคับให้เติมทีละช่องไปข้างหน้าโดยย้อนกลับมาแก้ไม่ได้ ส่วน DiffusionGemma เห็นทั้งกริดพร้อมกันตั้งแต่แรก จึงปรับทั้งกระดานไปมาได้เหมือนคนเล่นจริง ตัวอย่างที่ช่อง AI Revolution หยิบมาเล่าทำให้เห็นภาพชัด ผลที่ออกมาห่างกันมาก ตอนยังไม่ได้ฝึกเพิ่ม DiffusionGemma ตอบ Sudoku ถูก 0% แต่พอฝึกเพิ่มอีกหน่อย ความถูกต้องขยับขึ้นไปถึงราว 80% Sudoku เป็นแค่ตัวอย่างที่เข้าใจง่าย แต่งานจริงที่ได้ประโยชน์จากการมองภาพรวมแบบนี้มีเยอะ เช่น การเขียนโค้ดเติมในช่องว่างกลางไฟล์ การอ่านและแปลงเอกสาร งานแปลงภาพเป็นข้อความ หรืองานของ AI agent ที่ต้องวางโครงสร้างคำตอบทั้งหมดก่อน

สเปกและการเอาไปรันจริง

เบื้องหลัง DiffusionGemma ต่อยอดจากตระกูล Gemma 4 และใช้โครงสร้างที่เรียกว่า Mixture of Experts ตัวโมเดลมีพารามิเตอร์รวม 26 พันล้านตัวก็จริง แต่เวลาทำงานจริงแต่ละครั้ง มันเรียกใช้แค่ราว 3.88 พันล้านตัวเท่านั้น เหมือนมีทีมผู้เชี่ยวชาญหลายคน แต่เรียกมาทำงานเฉพาะคนที่ตรงกับงานตรงหน้า ส่วนหัวใจที่ทำให้มันเขียนแบบ diffusion ได้มาจากงานวิจัย Gemini Diffusion ที่ Google ทำไว้ก่อนหน้า

สำหรับการใช้งานจริง พอบีบขนาดโมเดลให้เล็กลงแล้ว มันกินหน่วยความจำการ์ดจอราว 18 GB คอมเครื่องเดียวที่สเปกสูงหน่อยก็รันไหว มันรองรับเครื่องมือที่นักพัฒนาคุ้นเคยอยู่แล้วหลายตัว ทั้ง Transformers, VLLM, MLX, Unsloth และ Nvidia NeMo ส่วนการรองรับ llama.cpp ที่หลายคนใช้รันโมเดลบนเครื่องตัวเองก็กำลังจะตามมา Google ทำงานร่วมกับ Nvidia เพื่อให้รองรับการ์ดจอหลายรุ่น ตั้งแต่การ์ดสำหรับศูนย์ข้อมูลไปจนถึงการ์ดเกมอย่าง RTX 4090 และ 5090 รายละเอียดการตั้งค่าและตัวอย่างโค้ดทั้งหมด Google รวมไว้ใน คู่มือสำหรับนักพัฒนา แล้ว

เร็วกว่า แต่ยังไม่ใช่ตัวที่เก่งที่สุด

รายการสองคอลัมน์: ฝั่งซ้ายคืองานที่ DiffusionGemma เหมาะ ส่วนฝั่งขวาคืองานที่ยังไม่ใช่จุดแข็งของมัน — เลือกใช้เมื่อรันบนเครื่องตัวเองและต้องโต้ตอบไว · งานที่วัดกันที่คุณภาพคำตอบล้วนๆ Gemma 4 มาตรฐานยังดีกว่า

ความเร็วของ DiffusionGemma ฟังดูน่าตื่นเต้น แต่มันมีเงื่อนไขที่ต้องเข้าใจให้ตรง ความเร็วจะเด่นที่สุดตอนรันบนเครื่องตัวเองและมีคนใช้ทีละไม่กี่คน เพราะระบบ cloud ขนาดใหญ่จัดคิวผู้ใช้เป็นพันๆ คนพร้อมกันอยู่แล้ว ตรงนั้นโมเดลพิมพ์ดีดแบบเดิมก็ยังทำงานได้คุ้มอยู่ จุดที่ DiffusionGemma ได้เปรียบจริงจึงเป็นงานที่ต้องการการตอบโต้แบบทันทีบนเครื่องของตัวเอง

ที่สำคัญ Google เองพูดตรงๆ ว่า Gemma 4 รุ่นมาตรฐานยังให้คำตอบที่คุณภาพดีกว่า DiffusionGemma ในภาพรวม Google ไม่ได้วางโมเดลตัวนี้ให้เป็น "ตัวที่เก่งที่สุด" แต่ให้เป็นโมเดลทดลองที่เน้นความเร็ว การรันบนเครื่องตัวเอง และงานที่ต้องโต้ตอบไวๆ การที่มันยังไม่ชนะเรื่องคุณภาพไม่ได้แปลว่าล้มเหลว แต่บอกชัดว่ามันถูกออกแบบมาเพื่ออะไร และไม่ได้ออกแบบมาเพื่ออะไร

สิ่งที่ DiffusionGemma เปิดให้เห็นไม่ใช่แค่โมเดลเร็วขึ้นอีกตัว แต่เป็นคำถามว่าวิธีที่ AI เขียนคำตอบทีละคำมาตลอดเป็นวิธีเดียวที่ทำได้จริงหรือเปล่า บางงานอาจไม่ได้ติดที่ต้องเขียนให้เร็วขึ้น แต่อยู่ที่ต้องมองเห็นทั้งภาพก่อนลงมือเขียน

ที่มา: คลิป Google's New AI Just Broke The AI Speed Limit: DiffusionGemma จากช่อง AI Revolution

models

แชร์Facebook X LINE

อีบุ๊คฟรี

ชอบเรื่องแนวนี้ มีอีบุ๊คฟรีให้อ่านต่อ

Local LLM ฉบับเข้าใจง่าย รัน AI ไว้ในเครื่องตัวเอง ติดตั้ง อัปเดต จัดการ ลบ ครบวงจรด้วย Ollama

กดสมัครแล้วเราจะส่งเทคนิค AI และของแจกใหม่ๆ ให้ทางอีเมล เลิกรับได้ตลอด

หนังสือแนะนำ

Claude Cowork · The Business Playbook

ลด 44%

ฉบับภาษาไทย 15 บท เรียนรู้ผ่านโปรเจกต์จำลองต่อเนื่องทั้งเล่ม ตั้งแต่ตั้งค่า Workspace จัดการไฟล์ เชื่อมแอป ตั้งระบบอัตโนมัติ จนถึงสร้าง Plugin

฿1,400฿2,500

สั่งซื้อหนังสือ

ทีมผู้เขียน Vibe Coding Thailandvibecodingth

สอนใช้ AI กับงานจริงเป็นภาษาไทย ผ่านบทความ คอร์ส และเครื่องมือที่สร้างด้วย AI

$ tail -f journal.log

อ่านต่อจากเรื่องนี้

MODELS

Claude Opus 5 ใช้ได้ที่ไหนบ้างแล้ว คุ้มโทเคนแค่ไหน · ผู้ใช้แพลน Max ลองอัดงานหนักแล้วโควตายังเหลือ 95%

26 ก.ค. 2569 · 11 นาที · อ่าน 78 ครั้ง

คุยกันต่อในกลุ่ม

ถาม-ตอบเรื่องการใช้ AI กับงานจริง กันทุกวัน · เข้าฟรี

เข้ากลุ่ม Facebook

$ cat blog/[slug].md

$ cat blog/google-diffusion-gemma.md

DiffusionGemma โมเดลภาษาตัวใหม่ของ Google เขียนข้อความทั้งก้อนพร้อมกัน เร็วกว่าเดิมได้ถึง 4 เท่า

13 มิถุนายน 2569 · 7 นาที · อ่าน 6 ครั้ง

ทำไมการเขียนทีละคำถึงช้า

เริ่มจากก้อนข้อความที่ยุ่งเหยิง

ทำไมโจทย์อย่าง Sudoku ถึงเห็นความต่างชัด

สเปกและการเอาไปรันจริง

เร็วกว่า แต่ยังไม่ใช่ตัวที่เก่งที่สุด

ที่มา: คลิป Google's New AI Just Broke The AI Speed Limit: DiffusionGemma จากช่อง AI Revolution

models

แชร์Facebook X LINE

อีบุ๊คฟรี

ชอบเรื่องแนวนี้ มีอีบุ๊คฟรีให้อ่านต่อ

กดสมัครแล้วเราจะส่งเทคนิค AI และของแจกใหม่ๆ ให้ทางอีเมล เลิกรับได้ตลอด

หนังสือแนะนำ

Claude Cowork · The Business Playbook

ลด 44%

฿1,400฿2,500

สั่งซื้อหนังสือ

ทีมผู้เขียน Vibe Coding Thailandvibecodingth

$ tail -f journal.log

อ่านต่อจากเรื่องนี้

MODELS

26 ก.ค. 2569 · 11 นาที · อ่าน 78 ครั้ง

คุยกันต่อในกลุ่ม

ถาม-ตอบเรื่องการใช้ AI กับงานจริง กันทุกวัน · เข้าฟรี

เข้ากลุ่ม Facebook

DiffusionGemma โมเดลภาษาตัวใหม่ของ Google เขียนข้อความทั้งก้อนพร้อมกัน เร็วกว่าเดิมได้ถึง 4 เท่า

ทำไมการเขียนทีละคำถึงช้า

เริ่มจากก้อนข้อความที่ยุ่งเหยิง

ทำไมโจทย์อย่าง Sudoku ถึงเห็นความต่างชัด

สเปกและการเอาไปรันจริง

เร็วกว่า แต่ยังไม่ใช่ตัวที่เก่งที่สุด

ชอบเรื่องแนวนี้ มีอีบุ๊คฟรีให้อ่านต่อ

Claude Cowork · The Business Playbook

อ่านต่อจากเรื่องนี้

Claude Opus 5 ใช้ได้ที่ไหนบ้างแล้ว คุ้มโทเคนแค่ไหน · ผู้ใช้แพลน Max ลองอัดงานหนักแล้วโควตายังเหลือ 95%

Claude Opus 5 เปิดตัวแล้ว: โค้ดเก่งขึ้นเกินสองเท่า ในราคาต่อ token เท่าเดิม

Fara1.5-27B: Computer Use Agent จาก Microsoft ที่คุมเบราว์เซอร์ทำงานแทนเรา

คุยกันต่อในกลุ่ม

DiffusionGemma โมเดลภาษาตัวใหม่ของ Google เขียนข้อความทั้งก้อนพร้อมกัน เร็วกว่าเดิมได้ถึง 4 เท่า

ทำไมการเขียนทีละคำถึงช้า

เริ่มจากก้อนข้อความที่ยุ่งเหยิง

ทำไมโจทย์อย่าง Sudoku ถึงเห็นความต่างชัด

สเปกและการเอาไปรันจริง

เร็วกว่า แต่ยังไม่ใช่ตัวที่เก่งที่สุด

ชอบเรื่องแนวนี้ มีอีบุ๊คฟรีให้อ่านต่อ

Claude Cowork · The Business Playbook

อ่านต่อจากเรื่องนี้

Claude Opus 5 ใช้ได้ที่ไหนบ้างแล้ว คุ้มโทเคนแค่ไหน · ผู้ใช้แพลน Max ลองอัดงานหนักแล้วโควตายังเหลือ 95%

Claude Opus 5 เปิดตัวแล้ว: โค้ดเก่งขึ้นเกินสองเท่า ในราคาต่อ token เท่าเดิม

Fara1.5-27B: Computer Use Agent จาก Microsoft ที่คุมเบราว์เซอร์ทำงานแทนเรา

คุยกันต่อในกลุ่ม