Multiverse Computing บีบ AI เล็กลง 95% แต่แม่นเท่าเดิม รันบนมือถือได้แล้ววันนี้

VCT Agents·เรียบเรียงโดย Keerati Limkulphong19 มีนาคม 2569อ่าน 8 นาที2 ครั้ง

สตาร์ทอัพจากเมืองเล็กๆ ในสเปนเพิ่งทำสิ่งที่ Big Tech ทำไม่ได้ บีบโมเดล AI ให้เล็กลง 95% โดยความแม่นยำหายไปแค่ 2-3%

ลองนึกภาพ คุณเอา AI ยัดใส่มือถือแล้วใช้ได้แบบ offline ไม่ต้องต่อเน็ต ไม่ต้องพึ่ง cloud ไม่มีข้อมูลรั่วไหล นั่นคือสิ่งที่ Multiverse Computing กำลังทำให้เป็นจริง

บริษัทนี้เพิ่งเปิดตัวแอป CompactifAI เมื่อ 3 มีนาคม 2026 ที่ผ่านมา ให้คนดาวน์โหลดจาก Google Play แล้วรัน AI บนมือถือได้เลย ไม่ใช่ demo ไม่ใช่ proof of concept แต่เป็นแอปจริงที่ใช้ได้จริง

เบื้องหลังเทคโนโลยีนี้ไม่ใช่ trick ธรรมดา แต่เป็นคณิตศาสตร์จาก quantum physics ที่เอามาใช้ "ผ่า" โครงสร้างภายในของ neural network

ผมขุดข้อมูลมาทั้งหมดแล้ว ตั้งแต่ที่มาของบริษัท เทคโนโลยี ตัวเลขการระดมทุน ไปจนถึง use case จริงที่น่าทึ่ง

quantum computing neural network compression futuristic technology (Markus Winkler on Unsplash)

สตาร์ทอัพสเปนที่ระดมทุนได้ $250 ล้าน

Multiverse Computing ก่อตั้งในปี 2019 ที่เมือง San Sebastián ในแคว้น Basque ประเทศสเปน โดย Enrique Lizaso Olmos (CEO อายุ 62 ปี), Román Orús (Chief Scientific Officer อายุ 42 ปี), Samuel Mugel (CTO) และ Alfonso Rubio

บริษัทเริ่มต้นจากทำ quantum computing software ให้ธนาคาร แต่ pivot มาทำ AI compression ในปี 2023 พอเห็นว่าตลาด AI inference มีมูลค่า $106 พันล้าน และ data center ทั่วโลกกำลังกินไฟจนจะล้นระบบ

ตัวเลขการระดมทุนน่าทึ่ง Series A ได้ €25 ล้าน Series B ได้ €189 ล้าน ($215 ล้าน) ในเดือนมิถุนายน 2025 นำโดย Bullhound Capital พร้อม HP Tech Ventures และ Toshiba มูลค่าบริษัทกระโดด 5 เท่า จาก $108 ล้านเป็น $500+ ล้าน

รัฐบาลสเปนเองก็ลงเงิน €67 ล้าน ผ่าน SETT (Spanish Society for Technological Transformation) รวมทั้งหมดระดมทุนได้ประมาณ $250 ล้าน

ปัจจุบันมีพนักงาน 160 คน สำนักงานกระจายอยู่ในปารีส มิวนิค ลอนดอน โตรอนโต และซานฟรานซิสโก มีสิทธิบัตร 160+ ฉบับ ลูกค้า 100+ ราย รวมถึง Bosch, Intel, Moody's, Bank of Canada และ Iberdrola

Tensor Network เบื้องหลังการบีบ AI

หัวใจของ CompactifAI คือเทคนิคที่เรียกว่า quantum-inspired tensor networks พูดง่ายๆ คือเอาคณิตศาสตร์ที่ใช้อธิบายอนุภาค quantum มาวิเคราะห์โครงสร้างภายในของ neural network

ทำไมถึงทำแบบนี้ได้ เพราะ neural network กับระบบ quantum มีโครงสร้างทางคณิตศาสตร์ที่คล้ายกัน ทั้งคู่เป็น tensor ขนาดใหญ่ที่เชื่อมโยงกันเป็นเครือข่าย

'We are able to profile the inner workings of a neural network to eliminate billions of spurious correlations.' (Román Orús, CSO ของ Multiverse Computing)

สิ่งที่ Multiverse ทำคือใช้ tensor network "สแกน" โมเดล AI แล้วหาว่าตรงไหนเป็น spurious correlations หรือความสัมพันธ์ที่ไม่จำเป็น แล้วก็ตัดออก เหมือนช่างตัดเสื้อที่ตัดผ้าส่วนเกินออกโดยเสื้อยังใส่ได้สวยเหมือนเดิม

ผลลัพธ์คือบีบโมเดลได้สูงสุด 95% ความแม่นยำลดลงแค่ 2-3% เทียบกับมาตรฐานอุตสาหกรรมที่บีบได้ 50-60% แต่ความแม่นยำหายไป 20-30% ต่างกันลิบลับ

data compression artificial intelligence server room technology (Tyler on Unsplash)

ตัวเลขที่พิสูจน์ว่าไม่ได้พูดเล่น

Multiverse ไม่ได้แค่อ้างตัวเลข พวกเขา publish ผลจริงบน benchmark

Llama 3.1-8B Slim ถูกบีบอัด 80% ลดพารามิเตอร์ 60% inference เร็วขึ้น 40% ประหยัดพลังงาน 84% และที่น่าทึ่งคือใช้ training tokens น้อยกว่า Meta CAI Llama3 ถึง 300 เท่า น้อยกว่า Nvidia Llama3.1-Minitron 3 เท่า แต่ทำ benchmark ได้ดีกว่าทั้งสองโมเดล

อ่านอีกรอบ ใช้ training tokens น้อยกว่า Meta 300 เท่า แต่ benchmark ดีกว่า

HyperNova 60B 2602 เป็นโมเดลล่าสุดที่บีบจาก OpenAI gpt-oss-120b ให้เล็กลงประมาณ 50% รองรับ tool calling และ agentic coding เผยแพร่บน Hugging Face ให้ใครก็ได้เอาไปใช้

โดยรวมแล้ว โมเดลที่ถูกบีบอัดทำงานเร็วขึ้น 4-12 เท่า และลดต้นทุน inference 50-80%

แอป CompactifAI รัน AI offline บนมือถือ

วันที่ 3 มีนาคม 2026 Multiverse เปิดตัวแอป CompactifAI บน Google Play ให้ดาวน์โหลดได้เลย

แอปนี้รัน AI แบบ offline บนมือถือ ไม่ต้องเชื่อมต่ออินเทอร์เน็ต ข้อมูลทั้งหมดอยู่ใน device ไม่มีอะไรส่งขึ้น cloud

ที่ฉลาดคือมี smart query routing ระบบจะตัดสินเองว่า query ไหนง่ายพอให้ on-device model ตอบ query ไหนซับซ้อนต้องส่งไป API-based model อัตโนมัติ

'Sophisticated reasoning models can now be deployed without cloud-scale infrastructure overhead, enabling powerful systems to operate directly on-device.' (Enrique Lizaso, CEO)

เป้าหมายไม่ใช่แค่คนทั่วไป แต่เป็นงาน healthcare ที่ข้อมูลผู้ป่วยห้ามรั่ว งานกฎหมายที่เอกสารเป็นความลับ งานทหารที่อยู่ในพื้นที่ไม่มีสัญญาณ และโรงงานที่ต้องการ AI วิเคราะห์ข้อมูลแบบ real-time

smartphone artificial intelligence mobile app privacy (Lindsey LaMont on Unsplash)

วิกฤตพลังงานที่ทำให้เรื่องนี้เร่งด่วน

Data center ของสหรัฐใช้ไฟฟ้า 4.4% ของทั้งประเทศ IEA คาดว่าการใช้ไฟฟ้าของ data center ทั่วโลกจะเพิ่มเป็น สองเท่า ภายในปี 2030

ภายในปี 2030 data center สหรัฐจะกินไฟมากกว่าอุตสาหกรรมอะลูมิเนียม เหล็ก และเคมี รวมกัน

ไอร์แลนด์ยิ่งน่ากลัว data center ใช้ไฟ 17% ของประเทศในปี 2022 และคาดว่าจะเพิ่มเป็น 32% ภายในปี 2026

ถ้า AI ทุกตัวต้องรันบน GPU ขนาดยักษ์ใน data center ตลอดเวลา ปัญหาพลังงานนี้จะไม่มีทางแก้ได้ แต่ถ้าบีบโมเดลให้เล็กลง 80-95% แล้วรันบน device ได้เลย สมการก็เปลี่ยน

Multiverse บีบ Llama 3.1-8B แล้วประหยัดพลังงานได้ 84% พร้อม inference เร็วขึ้น 40% ถ้า scale ขึ้นไปทั้งอุตสาหกรรม ผลกระทบจะมหาศาล

พันธมิตรระดับโลกที่เข้าคิว

Multiverse ไม่ได้ทำคนเดียว ในเดือนธันวาคม 2025 ประกาศร่วมมือกับ EY พัฒนา agentic AI ที่ใช้พลังงานน้อยลง 90% เป้าหมายคือ democratize AI ให้องค์กรทุกขนาดเข้าถึงได้

ร่วมกับ Cerebrium ให้บริการ compressed AI บน cloud ที่ scale ได้ทั่วโลกในไม่กี่วินาที เร็วขึ้น 12 เท่า ใช้ resource น้อยลง 80%

HP Tech Ventures เข้ามาร่วมลงทุนใน Series B โดย Tuan Tran ประธานฝ่ายเทคโนโลยีของ HP กล่าวถึงประโยชน์ด้าน enhanced performance, personalization, privacy และ cost efficiency ของ AI ที่รันบน edge device

ลูกค้าปัจจุบันมีทั้ง Iberdrola ด้านพลังงาน, Bosch ด้านยานยนต์, Bank of Canada ด้านการเงิน, Telefónica ด้านโทรคมนาคม รวมถึง Deloitte และ Intel

Use Case จริงที่น่าจับตา

SOHMA AI ใช้ CompactifAI สร้างแพลตฟอร์ม behavioral AI วิเคราะห์อารมณ์นักกีฬาเยาวชนแบบ real-time โดยดูจากลมหายใจ สายตา เสียง และการเคลื่อนไหว

ทั้งหมดนี้รันบนมือถือโดยไม่ต้องใช้ cloud ข้อมูลเด็กไม่เคยออกจาก device

ทำไมเรื่องนี้สำคัญ เพราะ 1 ใน 3 ของนักกีฬาเยาวชนมีปัญหาสุขภาพจิต และ AI ที่รันบนมือถือได้แบบ real-time อาจช่วยตรวจจับปัญหาได้เร็วขึ้น ปัจจุบัน SOHMA deploy ระบบนี้ที่ elite football academies ในอังกฤษและสหรัฐแล้ว

อีกตัวอย่างคืองานวิจัย EuroHPC ที่ได้ 50,000 core hours บนระบบ Leonardo Booster สามารถบีบ LlaMA-2 7B เหลือ 30% ของขนาดเดิม โดยกู้คืนความแม่นยำได้กว่า 90% หลัง retraining

ข้อจำกัดที่ต้องรู้

ไม่มีเทคโนโลยีไหนสมบูรณ์แบบ ผู้เชี่ยวชาญ Théo Alves Da Costa ชี้ว่า compressed models มี trade-offs โดยเฉพาะกับภาษาที่ไม่ใช่อังกฤษ เช่น ภาษาฝรั่งเศส ที่ประสิทธิภาพลดลงเมื่อเทียบกับ LLMs ขนาดเต็ม

นี่เป็นประเด็นที่คนไทยต้องจับตา ถ้า compression ทำให้ความสามารถด้านภาษาที่ไม่ใช่อังกฤษลดลง ก็ต้องทดสอบจริงก่อนเอาไปใช้งาน production

แต่งานที่ไม่ต้องพึ่ง language understanding ลึกมาก เช่น image recognition หรือ anomaly detection ผลลัพธ์ดูน่าเชื่อถือ CompactifAI บีบโมเดล road anomaly detection ลง 83% โดยไม่เสียความแม่นยำเลย

ทำไมผมถึงตื่นเต้นกับเรื่องนี้

ถ้าถามผม สิ่งที่ Multiverse Computing ทำอยู่น่าจะเป็นหนึ่งในเทรนด์สำคัญที่สุดของ AI ในปี 2026

ตอนนี้ทุกคนแข่งกันสร้างโมเดลที่ใหญ่ขึ้นเรื่อยๆ แต่ Multiverse เลือกเดินสวนทาง พวกเขาถามว่า "ถ้าโมเดลเล็กลง 20 เท่าแต่ฉลาดเท่าเดิม จะเป็นอย่างไร"

Román Orús พูดประโยคหนึ่งที่ผมอ่านแล้วคิดนาน

'There is a big problem with the way we are doing AI. It is fundamentally wrong.' (Román Orús, CSO ของ Multiverse Computing)

ผมว่าเขาพูดถูก การที่ต้องใช้ GPU พันตัวรัน AI ทุกครั้งที่คนถามคำถาม มันไม่ยั่งยืน ไม่ว่าจะมองจากมุมพลังงาน ต้นทุน หรือ accessibility

ถ้า CompactifAI ทำได้จริงตามที่อ้าง ยุคที่ทุกคนมี AI ส่วนตัวรันบนมือถือโดยไม่ต้องพึ่ง Big Tech อาจไม่ไกลอย่างที่คิด

ยุคที่ AI ต้องอยู่บน cloud กำลังจะจบลง คำถามไม่ใช่ "ถ้า" แต่คือ "เมื่อไร"

แหล่งอ้างอิง

บทความที่เกี่ยวข้อง

อ่านต่อเรื่องนี้

ข่าว AI

Google สรุป AI เมษายน 2026: Gemma 4 เปิด open-weight, Cloud Next ปล่อย agent platform กับ TPU รุ่น 8

Google ปล่อย update AI ครบทุกชั้น ตั้งแต่ Gemma 4 แบบ open-weight ไปจนถึง TPU รุ่นที่ 8 และ Gemini API ที่รองรับ webhook

VCT Agents4 พ.ค. 25699 นาที

ลดค่า token Claude Code 17 เท่า ด้วย wrapper 5 ไฟล์เปลี่ยน backend ไป DeepSeek