DiffusionGemma โมเดลภาษาตัวใหม่ของ Google เขียนข้อความทั้งก้อนพร้อมกัน เร็วกว่าเดิมได้ถึง 4 เท่า
Google ปล่อย DiffusionGemma โมเดลภาษาแบบทดลองที่ไม่ได้เขียนข้อความทีละคำ แต่สร้างข้อความขึ้นมาทั้งก้อน พร้อมกัน แล้วค่อยๆ เกลาให้ดีขึ้น วิธีนี้ทำให้เร็วกว่าโมเดลภาษาแบบเดิมได้ถึง 4 เท่า และบน GPU แรงๆ ทำความเร็วทะลุ 1,000 token ต่อวินาที เหมาะกับงานที่ต้องเห็นภาพรวม เช่น เขียนโค้ด เติมในช่องว่าง หรืออ่านเอกสาร แต่ Google ยอมรับเองว่าคุณภาพยังสู้ Gemma 4 รุ่นมาตรฐานไม่ได้

โมเดลภาษาเกือบทุกตัวที่เราใช้กันอยู่ทุกวันนี้เขียนคำตอบทีละคำ ไล่จากซ้ายไปขวา เหมือนคนพิมพ์ดีดที่กดทีละตัวอักษร พอกดไปแล้วก็ถอยกลับมาแก้ไม่ได้ Google เพิ่งปล่อยโมเดลตัวใหม่ชื่อ DiffusionGemma ที่ทำงานคนละแบบ มันไม่ได้เขียนทีละคำ แต่สร้างข้อความขึ้นมาทั้งก้อนพร้อมกัน แล้วค่อยๆ เกลาทั้งก้อนให้ดีขึ้นทีละรอบ วิธีนี้ทำให้มันเร็วกว่าโมเดลภาษาแบบเดิมได้ถึง 4 เท่าบนการ์ดจอที่แรงพอ เช่น Nvidia H100 ที่ทำความเร็วได้เกิน 1,000 คำต่อวินาที ส่วนการ์ดเกมระดับสูงอย่าง RTX 5090 ก็ยังทะลุ 700 คำต่อวินาที
DiffusionGemma เป็นโมเดลแบบทดลองที่ Google เปิดให้ใช้ได้ฟรี ใครจะเอาไปดัดแปลงต่อก็ได้ เพราะปล่อยเป็น open model ภายใต้สัญญาอนุญาต Apache 2.0 ตัวโมเดลมีให้ดาวน์โหลดบน Hugging Face คลังกลางที่นักพัฒนาทั่วโลกใช้แชร์โมเดล AI กัน โหลดไปลองรันบนเครื่องตัวเองได้เลย ความน่าสนใจของมันไม่ได้อยู่ที่ตัวเลขความเร็วอย่างเดียว แต่อยู่ที่วิธีคิดเบื้องหลังที่ต่างออกไปจากโมเดลภาษาที่เราคุ้นเคย
ทำไมการเขียนทีละคำถึงช้า
ลองนึกถึงวิธีที่ ChatGPT หรือโมเดลทั่วไปตอบคำถาม มันเดาคำถัดไปจากคำที่เขียนไปแล้ว เขียนคำหนึ่ง แล้วใช้คำนั้นเป็นฐานเดาคำต่อไป ทำแบบนี้ไปเรื่อยๆ จนจบประโยค เรียกง่ายๆ ว่า "โมเดลแบบพิมพ์ดีด" ก็ได้
ปัญหาของการพิมพ์ดีดคือ พอกดคำไหนลงไปแล้ว คำนั้นก็ล็อกตายตัว ถอยกลับมาแก้ไม่ได้ ถ้าเขียนไปได้ครึ่งทางแล้วเพิ่งรู้ว่าตอนต้นควรเป็นอีกอย่าง มันก็แก้ไม่ได้แล้ว ได้แต่เขียนต่อจากส่วนที่ผิดไป และเพราะต้องรอให้คำก่อนหน้าเสร็จก่อนถึงจะเขียนคำต่อไปได้ ทุกอย่างจึงเดินเรียงทีละคำเป็นแถว ความเร็วเลยไปได้แค่ตามจังหวะนี้
เริ่มจากก้อนข้อความที่ยุ่งเหยิง
ตัวพิมพ์ดีดล็อกคำแล้วแก้ไม่ได้ · diffusion เห็นทั้งก้อนเลยย้อนกลับไปเกลาส่วนต้นได้
DiffusionGemma ไม่เริ่มจากหน้ากระดาษเปล่า แต่เริ่มจากก้อนข้อความที่ยังเป็นตัวอักษรมั่วๆ ไม่มีความหมาย แล้วค่อยๆ ปรับทั้งก้อนให้เข้ารูปเข้ารอยขึ้นหลายรอบ จนกลายเป็นคำตอบที่อ่านรู้เรื่อง
วิธีนี้ยืมมาจากเทคโนโลยีที่ใช้สร้างภาพ AI ที่หลายคนคงเคยเห็น การสร้างภาพแบบ diffusion เริ่มจากภาพที่เต็มไปด้วยจุดรบกวนคล้ายทีวีไม่มีสัญญาณ แล้วค่อยๆ ลบความมั่วออกทีละรอบจนได้ภาพที่ชัด DiffusionGemma เอาหลักการเดียวกันนี้มาใช้กับข้อความ ต่างกันแค่ว่าสิ่งที่ค่อยๆ เกลาให้ชัดขึ้นคือตัวหนังสือ ไม่ใช่ภาพ
ข้อได้เปรียบที่แท้จริงอยู่ตรงนี้ เพราะ DiffusionGemma มองข้อความทั้งก้อนพร้อมกันในกรอบข้อความขนาด 256 คำ มันจึงย้อนกลับไปแก้ส่วนต้นได้ แม้เบาะแสว่าต้องแก้จะเพิ่งโผล่มาตอนท้าย ขณะที่โมเดลพิมพ์ดีดล็อกคำไปแล้วแก้ไม่ได้ DiffusionGemma ยังเกลาคำตอบของตัวเองได้เรื่อยๆ ระหว่างสร้างคำตอบ
ทำไมโจทย์อย่าง Sudoku ถึงเห็นความต่างชัด
ลองนึกถึงการเล่น Sudoku คุณเติมเลขในกริดทีละช่องจากซ้ายบนไปขวาล่างรวดเดียวจบไม่ได้ เพราะเลขที่จะลงในช่องหนึ่งขึ้นอยู่กับทั้งแถว ทั้งหลัก และทั้งบล็อกรอบๆ คุณต้องมองทั้งกริดพร้อมกัน เติมไปบ้าง ย้อนกลับมาแก้บ้าง กว่าจะลงตัว
นี่คือเหตุผลที่โมเดลพิมพ์ดีดเล่น Sudoku ได้ไม่ดี เพราะมันถูกบังคับให้เติมทีละช่องไปข้างหน้าโดยย้อนกลับมาแก้ไม่ได้ ส่วน DiffusionGemma เห็นทั้งกริดพร้อมกันตั้งแต่แรก จึงปรับทั้งกระดานไปมาได้เหมือนคนเล่นจริง ตัวอย่างที่ช่อง AI Revolution หยิบมาเล่าทำให้เห็นภาพชัด ผลที่ออกมาห่างกันมาก ตอนยังไม่ได้ฝึกเพิ่ม DiffusionGemma ตอบ Sudoku ถูก 0% แต่พอฝึกเพิ่มอีกหน่อย ความถูกต้องขยับขึ้นไปถึงราว 80% Sudoku เป็นแค่ตัวอย่างที่เข้าใจง่าย แต่งานจริงที่ได้ประโยชน์จากการมองภาพรวมแบบนี้มีเยอะ เช่น การเขียนโค้ดเติมในช่องว่างกลางไฟล์ การอ่านและแปลงเอกสาร งานแปลงภาพเป็นข้อความ หรืองานของ AI agent ที่ต้องวางโครงสร้างคำตอบทั้งหมดก่อน
สเปกและการเอาไปรันจริง
เบื้องหลัง DiffusionGemma ต่อยอดจากตระกูล Gemma 4 และใช้โครงสร้างที่เรียกว่า Mixture of Experts ตัวโมเดลมีพารามิเตอร์รวม 26 พันล้านตัวก็จริง แต่เวลาทำงานจริงแต่ละครั้ง มันเรียกใช้แค่ราว 3.88 พันล้านตัวเท่านั้น เหมือนมีทีมผู้เชี่ยวชาญหลายคน แต่เรียกมาทำงานเฉพาะคนที่ตรงกับงานตรงหน้า ส่วนหัวใจที่ทำให้มันเขียนแบบ diffusion ได้มาจากงานวิจัย Gemini Diffusion ที่ Google ทำไว้ก่อนหน้า
สำหรับการใช้งานจริง พอบีบขนาดโมเดลให้เล็กลงแล้ว มันกินหน่วยความจำการ์ดจอราว 18 GB คอมเครื่องเดียวที่สเปกสูงหน่อยก็รันไหว มันรองรับเครื่องมือที่นักพัฒนาคุ้นเคยอยู่แล้วหลายตัว ทั้ง Transformers, VLLM, MLX, Unsloth และ Nvidia NeMo ส่วนการรองรับ llama.cpp ที่หลายคนใช้รันโมเดลบนเครื่องตัวเองก็กำลังจะตามมา Google ทำงานร่วมกับ Nvidia เพื่อให้รองรับการ์ดจอหลายรุ่น ตั้งแต่การ์ดสำหรับศูนย์ข้อมูลไปจนถึงการ์ดเกมอย่าง RTX 4090 และ 5090 รายละเอียดการตั้งค่าและตัวอย่างโค้ดทั้งหมด Google รวมไว้ใน คู่มือสำหรับนักพัฒนา แล้ว
เร็วกว่า แต่ยังไม่ใช่ตัวที่เก่งที่สุด
เลือกใช้เมื่อรันบนเครื่องตัวเองและต้องโต้ตอบไว · งานที่วัดกันที่คุณภาพคำตอบล้วนๆ Gemma 4 มาตรฐานยังดีกว่า
ความเร็วของ DiffusionGemma ฟังดูน่าตื่นเต้น แต่มันมีเงื่อนไขที่ต้องเข้าใจให้ตรง ความเร็วจะเด่นที่สุดตอนรันบนเครื่องตัวเองและมีคนใช้ทีละไม่กี่คน เพราะระบบ cloud ขนาดใหญ่จัดคิวผู้ใช้เป็นพันๆ คนพร้อมกันอยู่แล้ว ตรงนั้นโมเดลพิมพ์ดีดแบบเดิมก็ยังทำงานได้คุ้มอยู่ จุดที่ DiffusionGemma ได้เปรียบจริงจึงเป็นงานที่ต้องการการตอบโต้แบบทันทีบนเครื่องของตัวเอง
ที่สำคัญ Google เองพูดตรงๆ ว่า Gemma 4 รุ่นมาตรฐานยังให้คำตอบที่คุณภาพดีกว่า DiffusionGemma ในภาพรวม Google ไม่ได้วางโมเดลตัวนี้ให้เป็น "ตัวที่เก่งที่สุด" แต่ให้เป็นโมเดลทดลองที่เน้นความเร็ว การรันบนเครื่องตัวเอง และงานที่ต้องโต้ตอบไวๆ การที่มันยังไม่ชนะเรื่องคุณภาพไม่ได้แปลว่าล้มเหลว แต่บอกชัดว่ามันถูกออกแบบมาเพื่ออะไร และไม่ได้ออกแบบมาเพื่ออะไร
สิ่งที่ DiffusionGemma เปิดให้เห็นไม่ใช่แค่โมเดลเร็วขึ้นอีกตัว แต่เป็นคำถามว่าวิธีที่ AI เขียนคำตอบทีละคำมาตลอดเป็นวิธีเดียวที่ทำได้จริงหรือเปล่า บางงานอาจไม่ได้ติดที่ต้องเขียนให้เร็วขึ้น แต่อยู่ที่ต้องมองเห็นทั้งภาพก่อนลงมือเขียน
ที่มา: คลิป Google's New AI Just Broke The AI Speed Limit: DiffusionGemma จากช่อง AI Revolution
vibecodingth
ทีมผู้เขียน Vibe Coding Thailand



