$ loading

$ loading ~/vibecoding

$ cat blog/gemma-4-browser-webgpu.md

เปิดหน้าเว็บแล้วโมเดล AI ทำงานในเครื่องเลย · Gemma 4 E2B รันในเบราว์เซอร์ผ่าน WebGPU ได้จริง

Gemma 4 E2B คือโมเดล AI ไซซ์จิ๋วของ Google ที่ออกแบบมาให้รันบนเครื่องตัวเอง ตอนนี้มีเดโมที่รันมันในเบราว์เซอร์ล้วนๆ ผ่าน WebGPU ไม่ต้องลงโปรแกรม ไม่ต้องต่อเซิร์ฟเวอร์ และข้อมูลไม่ออกจากเครื่องเลย

18 มิถุนายน 2569 · 7 นาที · อ่าน 41 ครั้ง

เปิดหน้าเว็บแล้วโมเดล AI ทำงานในเครื่องเลย · Gemma 4 E2B รันในเบราว์เซอร์ผ่าน WebGPU ได้จริง — Gemma 4 E2B รันในเบราว์เซอร์ผ่าน WebGPU · โมเดลทำงานในเครื่อง ข้อมูลไม่ออกไปไหน

เปิดหน้าเว็บหน้าเดียว รอโหลดสักครู่ แล้วพิมพ์คุยกับโมเดล AI ที่ทำงานอยู่ในเครื่องของตัวเอง · ไม่ได้ส่งข้อความไปหาเซิร์ฟเวอร์ที่ไหน ไม่ได้เรียก API ของใคร ทุกอย่างคำนวณบนการ์ดจอในเครื่องเรา นี่คือสิ่งที่เดโมจากทีม webml-community แสดงให้เห็นผ่าน Gemma 4 E2B โมเดลตัวเล็กของ Google ที่ออกแบบมาให้รันบนเครื่องผู้ใช้ตั้งแต่แรก

เดโมตัวนี้รัน Gemma 4 E2B ในเบราว์เซอร์ล้วนๆ ผ่าน WebGPU ซึ่งเป็นตัวเร่งกราฟิกที่ฝังมาในเบราว์เซอร์ยุคใหม่อยู่แล้ว ผู้สร้างวัดความเร็วได้ราว 255 token ต่อวินาที บนเครื่อง MacBook ที่ใช้ชิป Apple M4 Max · เร็วพอให้ข้อความไหลออกมาแทบจะทันทีและอ่านตามได้สบาย จุดที่น่าสนใจไม่ใช่แค่เลขความเร็ว แต่คือทั้งหมดนี้ทำได้โดยไม่ต้องติดตั้งโปรแกรมอะไรเลย แค่เปิดหน้าเว็บ

รันในเครื่องตัวเอง แปลว่าอะไรกันแน่

ผังเทียบสองทาง · ฝั่งซ้ายส่งข้อความขึ้นเซิร์ฟเวอร์ ฝั่งขวาโมเดลรันในเครื่องผ่านเบราว์เซอร์และข้อมูลไม่ออกไปไหน — ความต่างอยู่ที่ข้อความวิ่งไปไหน · แบบปกติส่งขึ้นเซิร์ฟเวอร์ แบบในเบราว์เซอร์คำนวณจบบนการ์ดจอเครื่องเรา

เวลาเราใช้ AI ทั่วไป ข้อความที่พิมพ์จะถูกส่งขึ้นไปประมวลผลบนเซิร์ฟเวอร์ของผู้ให้บริการ แล้วค่อยส่งคำตอบกลับมา แต่เดโมนี้กลับทางกัน โมเดลดาวน์โหลดลงมาเก็บไว้ในเครื่อง และคำนวณทุกขั้นบนการ์ดจอของเราเองผ่านโค้ดที่รันในเบราว์เซอร์

ผลที่ตามมามีสามอย่างที่จับต้องได้จริง อย่างแรกคือข้อมูลไม่ออกจากเครื่อง เพราะไม่มีการส่งข้อความไปไหนเลย อย่างที่สองคือใช้ฟรี เพราะไม่ได้เรียก API ที่คิดเงินตามจำนวนคำ และอย่างที่สามคือทำงานออฟไลน์ได้หลังโหลดเสร็จ เพราะตัวโมเดลอยู่ในเครื่องแล้ว ไม่ต้องต่อเน็ตเพื่อคุยต่อ

ทำไมต้องเป็น Gemma 4 E2B ไม่ใช่ตัวเต็ม

หัวใจที่ทำให้เรื่องนี้เป็นไปได้คือขนาดของโมเดล Gemma 4 มีหลายไซซ์ตั้งแต่ตัวเล็กไปจนถึงตัวใหญ่หลักสิบพันล้านพารามิเตอร์ แต่ตัวที่เดโมนี้เลือกคือ E2B ซึ่งเป็นไซซ์เล็กที่สุดในตระกูล ออกแบบมาเพื่อรันบนเครื่องผู้ใช้และมือถือโดยเฉพาะ ไม่ใช่ Gemma 4 ตัวเต็มที่ต้องใช้เครื่องระดับศูนย์ข้อมูล

E2B มีพารามิเตอร์ที่ใช้คำนวณจริงราว 2.3 พันล้านตัว ตัว "E" ย่อมาจาก effective หมายถึงน้ำหนักที่ใช้คิดจริงในแต่ละครั้ง ซึ่งน้อยกว่าจำนวนพารามิเตอร์ทั้งหมดที่นับรวมส่วนอื่น เวอร์ชันที่ใช้ในเดโมยังเป็นแบบ QAT หรือ Quantization-Aware Training ที่บีบน้ำหนักโมเดลลงมาเหลือระดับ 2-bit สำหรับชั้นถอดรหัส พร้อมปรับ KV cache ให้ประหยัดหน่วยความจำ ทั้งหมดนี้ทำให้โมเดลเล็กลงพอจะยัดเข้าไปทำงานในเบราว์เซอร์ได้ โดยยังคุยรู้เรื่อง

นอกจากเล็กแล้ว E2B ยังรับ context ได้ถึง 128K token รับได้ทั้งข้อความ ภาพ และเสียง และปล่อยออกมาภายใต้สัญญาอนุญาต Apache 2.0 ตามนโยบายการใช้งานของ Gemma จึงเป็นโมเดลที่เอาไปต่อยอดได้จริงไม่ใช่แค่ของโชว์

ตัวเลข 255 ที่ต้องอ่านให้ครบ

เลข 255 token ต่อวินาทีฟังดูน่าตื่นเต้น แต่ต้องเข้าใจให้ครบว่ามันมาจากไหน ตัวเลขนี้เป็นผลที่ผู้สร้างเดโมวัดเองบนเครื่อง MacBook ชิป M4 Max ซึ่งเป็นฮาร์ดแวร์ระดับบน ไม่ใช่ความเร็วมาตรฐานที่ทุกเครื่องจะได้เท่ากัน

ความเร็วจริงขึ้นกับการ์ดจอและอุปกรณ์ของแต่ละคนโดยตรง เครื่องที่การ์ดจอแรงน้อยกว่าก็จะช้าลงตามสัดส่วน ดังนั้นเวลาเห็นเลขนี้ ให้มองว่าเป็นเพดานที่เป็นไปได้บนเครื่องแรงๆ ไม่ใช่ตัวเลขที่การันตีบนเครื่องของเรา สิ่งที่ควรจำไว้คือ "เร็วพอใช้งานได้บนเครื่องที่เหมาะสม" มากกว่าตัวเลขเป๊ะๆ

AI ที่เคยต้องรันบนเซิร์ฟเวอร์ ตอนนี้เล็กพอจะทำงานจบในแท็บเบราว์เซอร์เดียว

สิ่งที่ E2B ทำได้ และสิ่งที่ยอมแลกไป

โมเดลเล็กก็ต้องแลกกับบางอย่าง E2B เก่งพอสำหรับงานทั่วไป แต่ไม่ได้ฉลาดเท่าโมเดลตัวใหญ่ในตระกูลเดียวกัน ในการทดสอบความรู้ทั่วไปแบบ MMLU Pro ตัว E2B ทำได้ราว 60% ขณะที่ Gemma 4 ตัวใหญ่สุด (31B) ทำได้ถึง 85% และยิ่งงานที่ต้องใช้เหตุผลซับซ้อนหรือเขียนโค้ด ช่องว่างก็ยิ่งกว้างขึ้น

นี่คือการแลกที่ตรงไปตรงมา เรายอมรับว่าโมเดลฉลาดน้อยลง เพื่อให้มันเล็กพอ รันในเครื่องตัวเองได้ ใช้ฟรี และเป็นส่วนตัว สำหรับงานสรุปความ ช่วยร่างข้อความ ตอบคำถามทั่วไป หรือลองเล่นเพื่อเข้าใจว่า AI ในเครื่องทำงานยังไง E2B ก็เพียงพอ แต่ถ้าเป็นงานที่ต้องการความแม่นยำสูงสุดหรือเหตุผลหลายชั้น โมเดลตัวใหญ่บนเซิร์ฟเวอร์ยังเหนือกว่าชัดเจน

สิ่งที่ได้	สิ่งที่แลกไป
รันในเครื่อง ข้อมูลไม่ออกไปไหน	ต้องใช้การ์ดจอของเครื่องตัวเอง
ใช้ฟรี ออฟไลน์หลังโหลดเสร็จ	ครั้งแรกต้องโหลดน้ำหนักโมเดลก่อน
ไม่ต้องติดตั้งโปรแกรม แค่เปิดหน้าเว็บ	ความฉลาดน้อยกว่าโมเดลตัวใหญ่

อยากลองเอง เริ่มยังไง

ผังสามขั้นตอนเรียงลำดับ · เปิดเดโมด้วยเบราว์เซอร์ที่รองรับ WebGPU โหลดโมเดลครั้งแรก แล้วใช้งานในเครื่องแบบออฟไลน์ได้ — ลำดับสามขั้น · ครั้งแรกต้องโหลดน้ำหนักโมเดลก่อน หลังจากนั้นรันในเครื่องล้วน ตัดเน็ตก็คุยต่อได้

การลองด้วยตัวเองง่ายกว่าที่คิด แต่มีลำดับที่ต้องเข้าใจก่อน เพราะครั้งแรกจะต่างจากครั้งถัดไป

เปิดเดโมด้วยเบราว์เซอร์ที่รองรับ WebGPU · เครื่องส่วนใหญ่ใช้ Chrome หรือ Edge เวอร์ชันใหม่ก็พอ ส่วน Safari ต้องเป็นรุ่นทดลอง และ Firefox ต้องไปเปิดค่าเองในหน้า config
รอให้โมเดลดาวน์โหลดลงเครื่องครั้งแรก · ตัว E2B กินพื้นที่ราว 2 GB ในแคชเบราว์เซอร์ ตรงนี้ต้องต่อเน็ตและใช้เวลาสักพัก
หลังโหลดเสร็จ ลองพิมพ์คุยได้เลย · หลังจากนั้นจะทำงานในเครื่องล้วนๆ ตัดเน็ตก็ยังคุยต่อได้ เพราะโมเดลเก็บอยู่ในแคชแล้ว

จุดที่ทำให้เดโมนี้มีค่าไม่ใช่แค่ตัวมันเอง แต่คือเคอร์เนล WebGPU ทั้งชุดเปิดให้ดูและเอาไปต่อได้ ใครที่อยากเข้าใจว่าเขาแปลงโมเดลให้รันบนการ์ดจอผ่านเบราว์เซอร์ยังไง ก็เปิดโค้ดดูได้ตรงๆ ไม่ใช่กล่องดำที่ต้องเชื่อตามคำโฆษณา

เส้นที่กำลังขยับ

สิ่งที่เดโมนี้พิสูจน์ไม่ใช่ว่า AI ในเบราว์เซอร์จะมาแทนโมเดลตัวใหญ่บนคลาวด์ได้ทันที แต่คือเส้นแบ่งระหว่าง "ต้องรันบนเซิร์ฟเวอร์" กับ "รันในเครื่องเราเองได้" กำลังขยับเข้ามาใกล้ผู้ใช้ทั่วไปเรื่อยๆ เมื่อโมเดลเล็กลงและการ์ดจอในเครื่องเก่งขึ้น งานบางอย่างที่เคยต้องพึ่งคลาวด์ก็เริ่มทำจบได้ในแท็บเดียว โดยไม่ต้องฝากข้อมูลไว้กับใคร คำถามต่อไปจึงไม่ใช่ "AI รันในเบราว์เซอร์ได้ไหม" อีกแล้ว แต่เป็น "งานไหนบ้างที่ไม่ต้องส่งออกจากเครื่องอีกต่อไป"

models

แชร์Facebook X LINE

อีบุ๊คฟรี

ชอบเรื่องแนวนี้ มีอีบุ๊คฟรีให้อ่านต่อ

Local LLM ฉบับเข้าใจง่าย รัน AI ไว้ในเครื่องตัวเอง ติดตั้ง อัปเดต จัดการ ลบ ครบวงจรด้วย Ollama

กดสมัครแล้วเราจะส่งเทคนิค AI และของแจกใหม่ๆ ให้ทางอีเมล เลิกรับได้ตลอด

หนังสือแนะนำ

Claude Cowork · The Business Playbook

ลด 44%

ฉบับภาษาไทย 15 บท เรียนรู้ผ่านโปรเจกต์จำลองต่อเนื่องทั้งเล่ม ตั้งแต่ตั้งค่า Workspace จัดการไฟล์ เชื่อมแอป ตั้งระบบอัตโนมัติ จนถึงสร้าง Plugin

฿1,400฿2,500

สั่งซื้อหนังสือ

ทีมผู้เขียน Vibe Coding Thailandvibecodingth

สอนใช้ AI กับงานจริงเป็นภาษาไทย ผ่านบทความ คอร์ส และเครื่องมือที่สร้างด้วย AI

$ tail -f journal.log

อ่านต่อจากเรื่องนี้

MODELS

DeepSeek-V4-Flash-0731 โมเดลที่โหลดมารันเองได้ ไล่จี้ Opus-4.8 ในงานเอเจนต์ แต่ไฟล์เล็กสุดยัง 82.5 GB

2 ส.ค. 2569 · 11 นาที · อ่าน 7 ครั้ง

คุยกันต่อในกลุ่ม

ถาม-ตอบเรื่องการใช้ AI กับงานจริง กันทุกวัน · เข้าฟรี

เข้ากลุ่ม Facebook

$ cat blog/[slug].md

$ cat blog/gemma-4-browser-webgpu.md

เปิดหน้าเว็บแล้วโมเดล AI ทำงานในเครื่องเลย · Gemma 4 E2B รันในเบราว์เซอร์ผ่าน WebGPU ได้จริง

18 มิถุนายน 2569 · 7 นาที · อ่าน 41 ครั้ง

รันในเครื่องตัวเอง แปลว่าอะไรกันแน่

ทำไมต้องเป็น Gemma 4 E2B ไม่ใช่ตัวเต็ม

ตัวเลข 255 ที่ต้องอ่านให้ครบ

AI ที่เคยต้องรันบนเซิร์ฟเวอร์ ตอนนี้เล็กพอจะทำงานจบในแท็บเบราว์เซอร์เดียว

สิ่งที่ E2B ทำได้ และสิ่งที่ยอมแลกไป

สิ่งที่ได้	สิ่งที่แลกไป
รันในเครื่อง ข้อมูลไม่ออกไปไหน	ต้องใช้การ์ดจอของเครื่องตัวเอง
ใช้ฟรี ออฟไลน์หลังโหลดเสร็จ	ครั้งแรกต้องโหลดน้ำหนักโมเดลก่อน
ไม่ต้องติดตั้งโปรแกรม แค่เปิดหน้าเว็บ	ความฉลาดน้อยกว่าโมเดลตัวใหญ่

อยากลองเอง เริ่มยังไง

เปิดเดโมด้วยเบราว์เซอร์ที่รองรับ WebGPU · เครื่องส่วนใหญ่ใช้ Chrome หรือ Edge เวอร์ชันใหม่ก็พอ ส่วน Safari ต้องเป็นรุ่นทดลอง และ Firefox ต้องไปเปิดค่าเองในหน้า config
รอให้โมเดลดาวน์โหลดลงเครื่องครั้งแรก · ตัว E2B กินพื้นที่ราว 2 GB ในแคชเบราว์เซอร์ ตรงนี้ต้องต่อเน็ตและใช้เวลาสักพัก
หลังโหลดเสร็จ ลองพิมพ์คุยได้เลย · หลังจากนั้นจะทำงานในเครื่องล้วนๆ ตัดเน็ตก็ยังคุยต่อได้ เพราะโมเดลเก็บอยู่ในแคชแล้ว

เส้นที่กำลังขยับ

models

แชร์Facebook X LINE

อีบุ๊คฟรี

ชอบเรื่องแนวนี้ มีอีบุ๊คฟรีให้อ่านต่อ

กดสมัครแล้วเราจะส่งเทคนิค AI และของแจกใหม่ๆ ให้ทางอีเมล เลิกรับได้ตลอด

หนังสือแนะนำ

Claude Cowork · The Business Playbook

ลด 44%

฿1,400฿2,500

สั่งซื้อหนังสือ

ทีมผู้เขียน Vibe Coding Thailandvibecodingth

$ tail -f journal.log

อ่านต่อจากเรื่องนี้

MODELS

2 ส.ค. 2569 · 11 นาที · อ่าน 7 ครั้ง

คุยกันต่อในกลุ่ม

ถาม-ตอบเรื่องการใช้ AI กับงานจริง กันทุกวัน · เข้าฟรี

เข้ากลุ่ม Facebook

เปิดหน้าเว็บแล้วโมเดล AI ทำงานในเครื่องเลย · Gemma 4 E2B รันในเบราว์เซอร์ผ่าน WebGPU ได้จริง

รันในเครื่องตัวเอง แปลว่าอะไรกันแน่

ทำไมต้องเป็น Gemma 4 E2B ไม่ใช่ตัวเต็ม

ตัวเลข 255 ที่ต้องอ่านให้ครบ

สิ่งที่ E2B ทำได้ และสิ่งที่ยอมแลกไป

อยากลองเอง เริ่มยังไง

เส้นที่กำลังขยับ

ชอบเรื่องแนวนี้ มีอีบุ๊คฟรีให้อ่านต่อ

Claude Cowork · The Business Playbook

อ่านต่อจากเรื่องนี้

DeepSeek-V4-Flash-0731 โมเดลที่โหลดมารันเองได้ ไล่จี้ Opus-4.8 ในงานเอเจนต์ แต่ไฟล์เล็กสุดยัง 82.5 GB

OpenAI ลดราคา GPT-5.6 Luna 80% เหลือล้านโทเคนละ 0.20 ดอลลาร์ งานที่เคยไม่คุ้มจ่ายเพิ่งกลายเป็นคุ้ม

Claude Opus 5 ใช้ได้ที่ไหนบ้างแล้ว คุ้มโทเคนแค่ไหน · ผู้ใช้แพลน Max ลองอัดงานหนักแล้วโควตายังเหลือ 95%

คุยกันต่อในกลุ่ม

เปิดหน้าเว็บแล้วโมเดล AI ทำงานในเครื่องเลย · Gemma 4 E2B รันในเบราว์เซอร์ผ่าน WebGPU ได้จริง

รันในเครื่องตัวเอง แปลว่าอะไรกันแน่

ทำไมต้องเป็น Gemma 4 E2B ไม่ใช่ตัวเต็ม

ตัวเลข 255 ที่ต้องอ่านให้ครบ

สิ่งที่ E2B ทำได้ และสิ่งที่ยอมแลกไป

อยากลองเอง เริ่มยังไง

เส้นที่กำลังขยับ

ชอบเรื่องแนวนี้ มีอีบุ๊คฟรีให้อ่านต่อ

Claude Cowork · The Business Playbook

อ่านต่อจากเรื่องนี้

DeepSeek-V4-Flash-0731 โมเดลที่โหลดมารันเองได้ ไล่จี้ Opus-4.8 ในงานเอเจนต์ แต่ไฟล์เล็กสุดยัง 82.5 GB

OpenAI ลดราคา GPT-5.6 Luna 80% เหลือล้านโทเคนละ 0.20 ดอลลาร์ งานที่เคยไม่คุ้มจ่ายเพิ่งกลายเป็นคุ้ม

Claude Opus 5 ใช้ได้ที่ไหนบ้างแล้ว คุ้มโทเคนแค่ไหน · ผู้ใช้แพลน Max ลองอัดงานหนักแล้วโควตายังเหลือ 95%

คุยกันต่อในกลุ่ม