เปิดหน้าเว็บแล้วโมเดล AI ทำงานในเครื่องเลย · Gemma 4 E2B รันในเบราว์เซอร์ผ่าน WebGPU ได้จริง
Gemma 4 E2B คือโมเดล AI ไซซ์จิ๋วของ Google ที่ออกแบบมาให้รันบนเครื่องตัวเอง ตอนนี้มีเดโมที่รันมันในเบราว์เซอร์ล้วนๆ ผ่าน WebGPU ไม่ต้องลงโปรแกรม ไม่ต้องต่อเซิร์ฟเวอร์ และข้อมูลไม่ออกจากเครื่องเลย

เปิดหน้าเว็บหน้าเดียว รอโหลดสักครู่ แล้วพิมพ์คุยกับโมเดล AI ที่ทำงานอยู่ในเครื่องของตัวเอง · ไม่ได้ส่งข้อความไปหาเซิร์ฟเวอร์ที่ไหน ไม่ได้เรียก API ของใคร ทุกอย่างคำนวณบนการ์ดจอในเครื่องเรา นี่คือสิ่งที่เดโมจากทีม webml-community แสดงให้เห็นผ่าน Gemma 4 E2B โมเดลตัวเล็กของ Google ที่ออกแบบมาให้รันบนเครื่องผู้ใช้ตั้งแต่แรก
เดโมตัวนี้รัน Gemma 4 E2B ในเบราว์เซอร์ล้วนๆ ผ่าน WebGPU ซึ่งเป็นตัวเร่งกราฟิกที่ฝังมาในเบราว์เซอร์ยุคใหม่อยู่แล้ว ผู้สร้างวัดความเร็วได้ราว 255 token ต่อวินาที บนเครื่อง MacBook ที่ใช้ชิป Apple M4 Max · เร็วพอให้ข้อความไหลออกมาแทบจะทันทีและอ่านตามได้สบาย จุดที่น่าสนใจไม่ใช่แค่เลขความเร็ว แต่คือทั้งหมดนี้ทำได้โดยไม่ต้องติดตั้งโปรแกรมอะไรเลย แค่เปิดหน้าเว็บ
รันในเครื่องตัวเอง แปลว่าอะไรกันแน่

เวลาเราใช้ AI ทั่วไป ข้อความที่พิมพ์จะถูกส่งขึ้นไปประมวลผลบนเซิร์ฟเวอร์ของผู้ให้บริการ แล้วค่อยส่งคำตอบกลับมา แต่เดโมนี้กลับทางกัน โมเดลดาวน์โหลดลงมาเก็บไว้ในเครื่อง และคำนวณทุกขั้นบนการ์ดจอของเราเองผ่านโค้ดที่รันในเบราว์เซอร์
ผลที่ตามมามีสามอย่างที่จับต้องได้จริง อย่างแรกคือข้อมูลไม่ออกจากเครื่อง เพราะไม่มีการส่งข้อความไปไหนเลย อย่างที่สองคือใช้ฟรี เพราะไม่ได้เรียก API ที่คิดเงินตามจำนวนคำ และอย่างที่สามคือทำงานออฟไลน์ได้หลังโหลดเสร็จ เพราะตัวโมเดลอยู่ในเครื่องแล้ว ไม่ต้องต่อเน็ตเพื่อคุยต่อ
ทำไมต้องเป็น Gemma 4 E2B ไม่ใช่ตัวเต็ม
หัวใจที่ทำให้เรื่องนี้เป็นไปได้คือขนาดของโมเดล Gemma 4 มีหลายไซซ์ตั้งแต่ตัวเล็กไปจนถึงตัวใหญ่หลักสิบพันล้านพารามิเตอร์ แต่ตัวที่เดโมนี้เลือกคือ E2B ซึ่งเป็นไซซ์เล็กที่สุดในตระกูล ออกแบบมาเพื่อรันบนเครื่องผู้ใช้และมือถือโดยเฉพาะ ไม่ใช่ Gemma 4 ตัวเต็มที่ต้องใช้เครื่องระดับศูนย์ข้อมูล
E2B มีพารามิเตอร์ที่ใช้คำนวณจริงราว 2.3 พันล้านตัว ตัว "E" ย่อมาจาก effective หมายถึงน้ำหนักที่ใช้คิดจริงในแต่ละครั้ง ซึ่งน้อยกว่าจำนวนพารามิเตอร์ทั้งหมดที่นับรวมส่วนอื่น เวอร์ชันที่ใช้ในเดโมยังเป็นแบบ QAT หรือ Quantization-Aware Training ที่บีบน้ำหนักโมเดลลงมาเหลือระดับ 2-bit สำหรับชั้นถอดรหัส พร้อมปรับ KV cache ให้ประหยัดหน่วยความจำ ทั้งหมดนี้ทำให้โมเดลเล็กลงพอจะยัดเข้าไปทำงานในเบราว์เซอร์ได้ โดยยังคุยรู้เรื่อง
นอกจากเล็กแล้ว E2B ยังรับ context ได้ถึง 128K token รับได้ทั้งข้อความ ภาพ และเสียง และปล่อยออกมาภายใต้สัญญาอนุญาต Apache 2.0 ตามนโยบายการใช้งานของ Gemma จึงเป็นโมเดลที่เอาไปต่อยอดได้จริงไม่ใช่แค่ของโชว์
ตัวเลข 255 ที่ต้องอ่านให้ครบ
เลข 255 token ต่อวินาทีฟังดูน่าตื่นเต้น แต่ต้องเข้าใจให้ครบว่ามันมาจากไหน ตัวเลขนี้เป็นผลที่ผู้สร้างเดโมวัดเองบนเครื่อง MacBook ชิป M4 Max ซึ่งเป็นฮาร์ดแวร์ระดับบน ไม่ใช่ความเร็วมาตรฐานที่ทุกเครื่องจะได้เท่ากัน
ความเร็วจริงขึ้นกับการ์ดจอและอุปกรณ์ของแต่ละคนโดยตรง เครื่องที่การ์ดจอแรงน้อยกว่าก็จะช้าลงตามสัดส่วน ดังนั้นเวลาเห็นเลขนี้ ให้มองว่าเป็นเพดานที่เป็นไปได้บนเครื่องแรงๆ ไม่ใช่ตัวเลขที่การันตีบนเครื่องของเรา สิ่งที่ควรจำไว้คือ "เร็วพอใช้งานได้บนเครื่องที่เหมาะสม" มากกว่าตัวเลขเป๊ะๆ
AI ที่เคยต้องรันบนเซิร์ฟเวอร์ ตอนนี้เล็กพอจะทำงานจบในแท็บเบราว์เซอร์เดียว
สิ่งที่ E2B ทำได้ และสิ่งที่ยอมแลกไป
โมเดลเล็กก็ต้องแลกกับบางอย่าง E2B เก่งพอสำหรับงานทั่วไป แต่ไม่ได้ฉลาดเท่าโมเดลตัวใหญ่ในตระกูลเดียวกัน ในการทดสอบความรู้ทั่วไปแบบ MMLU Pro ตัว E2B ทำได้ราว 60% ขณะที่ Gemma 4 ตัวใหญ่สุด (31B) ทำได้ถึง 85% และยิ่งงานที่ต้องใช้เหตุผลซับซ้อนหรือเขียนโค้ด ช่องว่างก็ยิ่งกว้างขึ้น
นี่คือการแลกที่ตรงไปตรงมา เรายอมรับว่าโมเดลฉลาดน้อยลง เพื่อให้มันเล็กพอ รันในเครื่องตัวเองได้ ใช้ฟรี และเป็นส่วนตัว สำหรับงานสรุปความ ช่วยร่างข้อความ ตอบคำถามทั่วไป หรือลองเล่นเพื่อเข้าใจว่า AI ในเครื่องทำงานยังไง E2B ก็เพียงพอ แต่ถ้าเป็นงานที่ต้องการความแม่นยำสูงสุดหรือเหตุผลหลายชั้น โมเดลตัวใหญ่บนเซิร์ฟเวอร์ยังเหนือกว่าชัดเจน
| สิ่งที่ได้ | สิ่งที่แลกไป |
|---|---|
| รันในเครื่อง ข้อมูลไม่ออกไปไหน | ต้องใช้การ์ดจอของเครื่องตัวเอง |
| ใช้ฟรี ออฟไลน์หลังโหลดเสร็จ | ครั้งแรกต้องโหลดน้ำหนักโมเดลก่อน |
| ไม่ต้องติดตั้งโปรแกรม แค่เปิดหน้าเว็บ | ความฉลาดน้อยกว่าโมเดลตัวใหญ่ |
อยากลองเอง เริ่มยังไง

การลองด้วยตัวเองง่ายกว่าที่คิด แต่มีลำดับที่ต้องเข้าใจก่อน เพราะครั้งแรกจะต่างจากครั้งถัดไป
- เปิดเดโมด้วยเบราว์เซอร์ที่รองรับ WebGPU · เครื่องส่วนใหญ่ใช้ Chrome หรือ Edge เวอร์ชันใหม่ก็พอ ส่วน Safari ต้องเป็นรุ่นทดลอง และ Firefox ต้องไปเปิดค่าเองในหน้า config
- รอให้โมเดลดาวน์โหลดลงเครื่องครั้งแรก · ตัว E2B กินพื้นที่ราว 2 GB ในแคชเบราว์เซอร์ ตรงนี้ต้องต่อเน็ตและใช้เวลาสักพัก
- หลังโหลดเสร็จ ลองพิมพ์คุยได้เลย · หลังจากนั้นจะทำงานในเครื่องล้วนๆ ตัดเน็ตก็ยังคุยต่อได้ เพราะโมเดลเก็บอยู่ในแคชแล้ว
จุดที่ทำให้เดโมนี้มีค่าไม่ใช่แค่ตัวมันเอง แต่คือเคอร์เนล WebGPU ทั้งชุดเปิดให้ดูและเอาไปต่อได้ ใครที่อยากเข้าใจว่าเขาแปลงโมเดลให้รันบนการ์ดจอผ่านเบราว์เซอร์ยังไง ก็เปิดโค้ดดูได้ตรงๆ ไม่ใช่กล่องดำที่ต้องเชื่อตามคำโฆษณา
เส้นที่กำลังขยับ
สิ่งที่เดโมนี้พิสูจน์ไม่ใช่ว่า AI ในเบราว์เซอร์จะมาแทนโมเดลตัวใหญ่บนคลาวด์ได้ทันที แต่คือเส้นแบ่งระหว่าง "ต้องรันบนเซิร์ฟเวอร์" กับ "รันในเครื่องเราเองได้" กำลังขยับเข้ามาใกล้ผู้ใช้ทั่วไปเรื่อยๆ เมื่อโมเดลเล็กลงและการ์ดจอในเครื่องเก่งขึ้น งานบางอย่างที่เคยต้องพึ่งคลาวด์ก็เริ่มทำจบได้ในแท็บเดียว โดยไม่ต้องฝากข้อมูลไว้กับใคร คำถามต่อไปจึงไม่ใช่ "AI รันในเบราว์เซอร์ได้ไหม" อีกแล้ว แต่เป็น "งานไหนบ้างที่ไม่ต้องส่งออกจากเครื่องอีกต่อไป"



