Google ปล่อยหมัดเด็ด TurboQuant บีบ AI เล็กลง 6 เท่าแต่แรงขึ้น 8x แบบความฉลาดไม่ลด!

เคยไหมครับ? นั่งคุยกับ AI เพลินๆ กำลังจะเข้าด้ายเข้าเข็ม แต่อยู่ดีๆ มันก็เริ่มช้าลง หรือขึ้น Error ว่าแรมเต็มซะอย่างนั้น ทั้งที่คอมพิวเตอร์ของคุณก็ไม่ใช่สเปกขี้เหร่เลย
ผมบอกเลยว่าปัญหาที่คุณเจอ ไม่ใช่แค่เรื่องแรมไม่พอ แต่มันคือ 'กำแพง' ที่นักวิจัย AI ทั่วโลกพยายามปีนข้ามมาตลอดหลายปี สิ่งนี้เรียกว่าคอขวดของหน่วยความจำ ที่ยิ่งเราอยากให้ AI จำแม่น อ่านเนื้อหายาวๆ ได้ (Long Context) แรมมันก็ยิ่งบวมจนเอาไม่อยู่
แต่วันนี้ Google Research เพิ่งปล่อยหมัดฮุคที่ทำเอาวงการสั่นสะเทือน ด้วยอัลกอริทึมที่ชื่อว่า TurboQuant ครับ มันคือเทคโนโลยีที่บีบอัดข้อมูล AI ให้เล็กลงเหลือแค่ 1 ใน 6 แต่ดันทำงานแรงขึ้น 8 เท่า โดยที่ความฉลาดไม่หล่นหายไปเลยแม้แต่นิดเดียว
ผมอ่าน Paper นี้แล้วบอกเลยว่านี่ไม่ใช่แค่การปรับจูนทั่วไป แต่มันคือการเปลี่ยน 'วิธีคิด' ทางคณิตศาสตร์ที่ฉลาดจนผมนั่งไม่ติดเลยทีเดียว
ทำไม AI ยิ่งคุยยาว ยิ่งกินแรมจนเครื่องค้าง?
ก่อนจะไปดูว่า Google ทำยังไง ผมอยากให้คุณนึกภาพตามผมก่อนครับ เวลาเราคุยกับ LLM อย่าง ChatGPT หรือ Gemini ทุกครั้งที่เราพิมพ์โต้ตอบกัน AI จะต้องเก็บ 'ความจำชั่วคราว' เอาไว้ในแรม สิ่งนี้เขาเรียกว่า KV Cache
ให้นึกว่ามันคือการจดเลคเชอร์ ถ้าเราคุยกันสั้นๆ กระดาษแผ่นเดียวก็พอ แต่ถ้าคุณส่งหนังสือให้มันอ่านทั้งเล่ม AI ต้องจดรายละเอียดมหาศาลลงในกระดาษกองโต ซึ่งในโลกของคอมพิวเตอร์ กระดาษพวกนี้คือพื้นที่ในแรมครับ
ปัญหาคือพอเราจดเยอะๆ กระดาษก็เต็ม ทีนี้ AI ก็จะเริ่มเอ๋อ เริ่มลืม หรือไม่ก็ช้าจนเราขี้เกียจรอ นี่คือเหตุผลที่ AI ตัวท็อปๆ ถึงต้องรันบนการ์ดจอราคาแพงระยับตัวละเป็นล้านบาท
"KV Cache คือภาระที่หนักที่สุดของ AI ในยุคปัจจุบัน ยิ่งบริบทดึงมายาวเท่าไหร่ แรมก็ยิ่งถูกสูบหายไปเร็วเท่านั้น"
ที่ผ่านมา วิธีแก้ของนักวิจัยคือการ 'บีบ' ข้อมูลให้เล็กลง (Quantization) แต่มันมักจะมีราคาที่ต้องจ่ายครับ เหมือนคุณพยายามสรุปหนังสือหนึ่งเล่มให้เหลือหน้าเดียว ข้อมูลสำคัญบางอย่างมันจะหายไปเสมอ ทำให้ AI เริ่มโง่ลงนั่นเอง
TurboQuant: ถุงสูญญากาศวิเศษที่บีบให้เล็ก แต่ของข้างในครบ 100%
Google เข้ามาแก้ปัญหานี้ด้วย TurboQuant ซึ่งเป็นเฟรมเวิร์กที่เคลมแรงมากว่า สามารถบีบข้อมูลเหลือเพียง 3 bits ต่อค่า (จากปกติ 16 หรือ 32 bits) แต่ได้ผลลัพธ์ที่เรียกว่า Zero Accuracy Loss
ถ้าเปรียบเทียบให้เห็นภาพ มันเหมือนคุณกำลังจะย้ายบ้าน แต่รถบรรทุกของคุณเล็กเกินไปที่จะขนเฟอร์นิเจอร์ทั้งหมด Google เลยคิดค้น 'ถุงสูญญากาศวิเศษ' ที่ช่วยดูดอากาศออกจนตู้เสื้อผ้าหลังใหญ่เหลือขนาดเท่ากล่องรองเท้า
แต่ความมหัศจรรย์คือ พอคุณเปิดถุงออกมาที่บ้านใหม่ เฟอร์นิเจอร์ทุกชิ้นยังคงสภาพเดิม 100% ไม่บุบสลาย ไม่ต้องซ่อม และที่สำคัญคือคุณขนของเสร็จเร็วกว่าเดิม 8 เท่า เพราะของมันเบาและเล็กลงมากนั่นเองครับ
หัวใจสำคัญที่ทำให้ Google ทำเรื่องนี้สำเร็จมี 2 อย่างครับ คือ PolarQuant และ QJL ผมจะเล่าให้ฟังแบบง่ายๆ ว่ามันทำงานยังไง
PolarQuant: เมื่อ 'วงกลม' ชนะ 'สี่เหลี่ยม'
เทคนิคแรกชื่อว่า PolarQuant ครับ ปกติเวลาคอมพิวเตอร์เก็บข้อมูล มันจะเก็บในระบบพิกัดฉาก (Cartesian) เหมือนเราบอกพิกัดบนตารางหมากรุกว่าอยู่ X เท่าไหร่ Y เท่าไหร่
การเก็บแบบนี้มีจุดอ่อนคือ เราต้องคอยจด 'หน่วยวัด' หรือ Scale กำกับไว้ตลอดว่าช่องหนึ่งช่องมันกว้างเท่าไหร่ ซึ่งไอ้การจด Scale นี่แหละที่กินที่แรมเพิ่มอีก 1-2 bits ต่อบล็อกข้อมูล ทำให้การบีบอัดมันไม่สุดซะที
แต่ Google บอกว่า 'ทำไมเราไม่มองข้อมูลเป็นวงกลมดูล่ะ?' เขาเลยเปลี่ยนมาใช้ระบบพิกัดขั้ว (Polar Coordinates) แทนครับ โดยเก็บแค่รัศมีกับมุม
ผลที่ได้คือข้อมูลมันจะกระจายตัวอย่างเป็นระเบียบจนไม่ต้องจดค่า Scale เพิ่มเติมเลย ช่วยลด Overhead ลงได้มหาศาล นี่คือไอเดียที่เรียบง่ายแต่ทรงพลังจนผมเห็นแล้วต้องอุทานว่า คิดได้ยังไง!
"การเปลี่ยนจากตารางสี่เหลี่ยมมาเป็นวงกลม คือกุญแจสำคัญที่ทำให้ Google ทลายขีดจำกัด 4-bit ที่วงการเชื่อกันมาตลอดว่าทำไม่ได้"
ความแรงระดับ 800% บน NVIDIA H100
ตัวเลขที่น่าตกใจที่สุดในรายงานนี้คือเรื่องความเร็วครับ Google ทดสอบบน NVIDIA H100 ซึ่งเป็นชิป AI ตัวท็อปที่สุดในตอนนี้ พบว่า TurboQuant ทำความเร็วในการประมวลผลสูงกว่าปกติถึง 8 เท่า
ทำไมมันถึงแรงขึ้นขนาดนั้น? คำตอบง่ายมากครับ คอขวดของ AI ไม่ได้อยู่ที่ตัวประมวลผล (Compute) แต่อยู่ที่การย้ายข้อมูลเข้าออกจากแรม (Memory Bandwidth)
พอข้อมูลเล็กลง 8 เท่า (จาก 32-bit เหลือ 4-bit ในโหมดเน้นแรง) ข้อมูลก็ไหลผ่านท่อเดิมได้เร็วขึ้น 8 เท่าทันที AI เลยโต้ตอบกับคุณได้แบบติดจรวด ไม่ต้องมานั่งดูมันพิมพ์ทีละคำเหมือนเครื่องพิมพ์ดีดรุ่นคุณปู่อีกต่อไป
แถมมันยังเป็นระบบที่เรียกว่า Training-free หมายความว่าคุณไม่ต้องเอา AI ไปเทรนใหม่ให้เสียเงินเสียเวลา แค่เอา TurboQuant ไปเสียบเข้ากับโมเดลที่คุณมีอยู่แล้วอย่าง Llama หรือ Mistral มันก็ทำงานได้ทันทีเลยครับ
อนาคตที่ AI ตัวท็อปจะอยู่ในมือถือของคุณ
แล้วเรื่องนี้สำคัญกับคุณยังไง? ลองนึกภาพดูนะครับ ถ้าเราบีบ AI ให้เล็กลง 6 เท่าได้จริงๆ แปลว่ามือถือที่คุณถืออยู่ อาจจะรัน AI ที่ฉลาดเท่า GPT-4 ได้แบบไม่ต้องง้อเน็ต
หรือถ้าคุณเป็นนักพัฒนา คุณสามารถสร้างแอปที่อ่านไฟล์ PDF ความยาว 1,000 หน้าได้ในพริบตา โดยไม่ต้องเช่า Cloud ราคาแพงๆ เพราะแรมแค่ไม่กี่ GB ก็เอาอยู่แล้ว
ผมมองว่า TurboQuant คือการทำลายกำแพงฮาร์ดแวร์ครั้งสำคัญ มันพิสูจน์ให้เห็นว่าความฉลาดของ AI ไม่จำเป็นต้องแลกมาด้วยทรัพยากรที่มหาศาลเสมอไป ถ้าเรามีคณิตศาสตร์ที่ฉลาดพอ
นี่คือหมัดเด็ดจาก Google ที่ไม่ใช่แค่โชว์พลัง แต่กำลังจะเปลี่ยนมาตรฐานการใช้งาน AI ของพวกเราทุกคนไปตลอดกาลครับ
"ถ้า 3-bit คือจุดที่ความฉลาดไม่ลดลง ต่อจากนี้โลกของ Local AI จะไม่ได้เป็นแค่ของเล่นของคนมีเงินอีกต่อไป"
แหล่งอ้างอิง
บทความที่เกี่ยวข้อง

Meta x Shopee มาแล้ว! แท็กซื้อของใน Reels ได้ทันที พร้อม AI กู้บัญชีใน 5 วินาที
จบปัญหา 'ขอพิกัดหน่อย' ด้วยฟีเจอร์แท็กสินค้า Shopee ใน Reels พร้อมระบบ AI ใหม่ที่ช่วยกู้บัญชีคุณคืนได้ไวที่สุดใน 5 วินาที


อวสาน Sora! OpenAI สั่งปิด AI สร้างวิดีโอ ฉีกสัญญาพันล้าน Disney
เมื่อ OpenAI ตัดสินใจดับฝันคนทำวิดีโอ สั่งปิดแอป Sora กะทันหัน พร้อมฉีกสัญญายักษ์มูลค่าพันล้านกับ Disney เบื้องหลังเรื่องนี้คืออะไร?


ความคิดเห็น
ยังไม่มีความคิดเห็น เป็นคนแรกที่แสดงความเห็น!