vibecodingthailand

สอนใช้งาน

คู่มือติดตั้ง Gemma 4: โมเดล AI ตัวแรงที่ Google ปล่อยฟรีแบบ Apache 2.0 รันเองได้บนมือถือยันคอมแรง

VCT Agents·เรียบเรียงโดย Keerati Limkulphong3 เมษายน 2569อ่าน 10 นาที

Google เพิ่งทำเรื่องที่สั่นสะเทือนวงการ AI อีกครั้งครับ เมื่อวันที่ 2 เมษายน 2026 ที่ผ่านมา Google DeepMind ปล่อย Gemma 4 ออกมาถล่มตลาดโมเดลภาษาขนาดเล็ก (SLM) และขนาดกลาง แต่สิ่งที่ทำให้คนทั้งโลกต้องหันมองไม่ใช่แค่ความแรง แต่มันคือการเปลี่ยน License มาเป็น Apache 2.0 ครั้งแรกของตระกูล Gemma ครับ

ถ้าใครตามข่าวมาตลอดจะรู้ว่าเมื่อก่อน Gemma จะมีกฎยิบย่อยเรื่องจำนวนผู้ใช้งานต่อเดือน หรือข้อจำกัดการใช้งานบางอย่าง แต่รอบนี้ Google ปลดล็อกทุกอย่างให้เราเอาไปใช้เชิงพาณิชย์ ปรับแต่ง หรือแจกจ่ายได้เต็มที่เหมือนโมเดลตระกูล Llama หรือ Qwen แล้วครับ แถมประสิทธิภาพของตัวท็อปอย่าง 31B ยังพุ่งขึ้นไปอยู่อันดับ 3 ของโลกบน Arena AI Leaderboard แซงหน้าโมเดลตัวใหญ่กว่ามันหลายสิบเท่าไปเรียบร้อย

ผมขุดข้อมูลวิจัยและลองเล่นตัวจริงมาแล้ว บทความนี้ผมจะสรุปทุกอย่างที่คุณต้องรู้ ตั้งแต่สถาปัตยกรรมที่เปลี่ยนไป จนถึงวิธีติดตั้งให้รันได้ในเครื่องตัวเอง (Local) ตั้งแต่บน Raspberry Pi ยันการ์ดจอตัวแรง พร้อมวิธีแก้บั๊ก Day-0 ที่นักพัฒนาต้องเจอแน่นอนครับ

สิ่งที่ต้องเตรียมก่อนเริ่ม

ก่อนที่เราจะไปสั่ง pull โมเดลมาลองเล่น เราต้องมาดูประยุกต์ใช้ก่อนว่าเครื่องที่เรามีอยู่ไหวกับตัวไหน เพราะ Gemma 4 ออกมาทั้งหมด 4 ขนาด ซึ่งแต่ละตัวกินสเปกต่างกันลิบลับครับ

สรุปสเปก RAM ขั้นต่ำ (สำหรับรันแบบ 4-bit Quantization ที่แนะนำ):
• E2B (2.3B): RAM 4GB (รันบนมือถือหรือ Raspberry Pi 5 ได้สบาย)
• E4B (4.5B): RAM 6GB (โน้ตบุ๊กทั่วไปรันตัวนี้เป็นพื้นฐาน)
• 26B-A4B (MoE): RAM 16-18GB (ตัวนี้คือพระเอกครับ แรงเกือบเท่าตัวท็อปแต่รันเร็วกว่าเยอะ)
• 31B Dense: RAM 20GB+ (สำหรับคนต้องการความแม่นยำสูงสุด)

ซอฟต์แวร์ที่ควรมี:
• Ollama: วิธีที่ง่ายที่สุดสำหรับมือใหม่และสายรีบ
• Python 3.10 ขึ้นไป: สำหรับสาย Developer ที่อยากเขียนโค้ดคุมเอง
• Git: เอาไว้ดึง Library เวอร์ชันล่าสุดที่ยังไม่ปล่อยตัวเต็ม

ทำความรู้จัก 4 ขุนพลของ Gemma 4

ก่อนจะติดตั้ง ผมอยากให้คุณเข้าใจก่อนว่าทำไม Gemma 4 ถึงข้ามกระโดดจากเวอร์ชัน 3 มาไกลขนาดนี้ Google ไม่ได้แค่เพิ่มข้อมูลเทรนครับ แต่เขาเปลี่ยนโครงสร้างข้างในใหม่หมด โดยเฉพาะเทคโนโลยีที่เรียกว่า Hybrid Attention

ปกติโมเดล AI จะต้องอ่านเนื้อหาทั้งหมดในประวัติการคุย (Context) ซึ่งถ้าคุยยาวๆ จะกินทรัพยากรเครื่องมหาศาล แต่ Gemma 4 ใช้การสลับระหว่างการอ่านแบบ "มองภาพรวม" (Global) กับ "มองแค่หน้าต่างสั้นๆ" (Sliding Window) ทำให้มันจำเนื้อหาได้ยาวถึง 128K - 256K tokens โดยที่เครื่องเราไม่ค้างไปก่อนครับ

ที่น่าสนใจที่สุดคือตัว 26B-A4B ซึ่งเป็นแบบ MoE (Mixture-of-Experts) ลองนึกภาพว่าเรามีเชฟเก่งๆ 128 คนอยู่ในครัวครับ แต่เวลาเราสั่งผัดไทย โมเดลจะเรียกเชฟแค่ 8 คนที่เก่งเรื่องนี้มาทำ ส่วนอีก 120 คนก็นอนพักไป ผลคือเราได้งานคุณภาพระดับ 5 ดาว (ได้คะแนน 97% ของตัวท็อป) แต่จ่ายค่าแรงและใช้พลังงานน้อยกว่าเดิม 8 เท่า! นี่คือตัวที่ผมแนะนำให้ทุกคนติดตั้งถ้ามี RAM ถึง 16GB ครับ

วิธีที่ 1: ติดตั้งผ่าน Ollama (ง่ายที่สุด)

ถ้าคุณแค่อยากลองแชต หรืออยากทำ API ไว้ใช้ในโปรเจกต์ของตัวเองโดยไม่ต้องปวดหัวกับการลง Library ผมแนะนำวิธีนี้ครับ

1. ติดตั้ง Ollama
ไปที่ ollama.com แล้วโหลดตัวติดตั้งมาลงตาม OS ของคุณ หรือถ้าใช้ Linux ก็รันคำสั่งนี้ใน Terminal ได้เลย:

curl -fsSL https://ollama.com/install.sh | sh

2. ดึงโมเดลลงเครื่อง
เมื่อติดตั้งเสร็จแล้ว ให้เปิด Terminal (หรือ Command Prompt) แล้วเลือกขนาดที่ต้องการ pull ลงมาครับ ถ้าไม่ระบุอะไรเลยมันจะดึงตัว E4B (ขนาดกลาง) มาให้เป็นค่าเริ่มต้น

# สำหรับโน้ตบุ๊กทั่วไป (แนะนำตัวนี้ครับ)
ollama pull gemma4

# สำหรับเครื่องสเปกต่ำ หรืออยากรันไวๆ
ollama pull gemma4:e2b

# สำหรับสายโหดที่อยากได้ความฉลาดระดับโลก
ollama pull gemma4:26b
ollama pull gemma4:31b

3. เริ่มคุยได้ทันที
พิมพ์คำสั่งนี้เพื่อเริ่มแชตในหน้า Terminal ได้เลยครับ:

ollama run gemma4

Tip สำหรับสาย Dev: Ollama จะสร้าง API server ให้คุณอัตโนมัติที่พอร์ต 11434 คุณสามารถยิง cURL หรือใช้ Library ใน Python/JS ต่อเชื่อมได้เลยโดยไม่ต้องลงอะไรเพิ่ม

วิธีที่ 2: ใช้ LM Studio (สำหรับคนชอบ GUI สวยๆ)

ถ้าคุณไม่ชอบพิมพ์คำสั่งในหน้าจอดำๆ LM Studio คือคำตอบครับ ข้อดีคือมันจะช่วยเช็กให้เสร็จสรรพว่าเครื่องคุณรันโมเดลตัวไหนไหวบ้าง

1. โหลดโปรแกรมจาก lmstudio.ai
2. ในช่องค้นหา พิมพ์ว่า gemma-4
3. คุณจะเห็นไฟล์นามสกุล GGUF ให้เลือกตัวที่มีป้ายกำกับว่า Q4_K_M เพราะเป็นค่าที่สมดุลที่สุดระหว่างความเร็วและความฉลาด
4. กด Download แล้วไปที่หน้า Chat เพื่อเริ่มใช้งานได้เลยครับ

จุดเด่นของ Gemma 4 ใน LM Studio คือมันรองรับ Vision ด้วยครับ คุณสามารถลากรูปภาพใส่เข้าไปแล้วถามโมเดลได้เลยว่า "ในรูปนี้มีอะไรบ้าง?" ซึ่งตัว E2B และ E4B ทำเรื่องนี้ได้แม่นยำมากเมื่อเทียบกับขนาดตัวของมัน

วิธีที่ 3: สำหรับสายเขียนโค้ด (Hugging Face Transformers)

นี่คือจุดที่ความสนุกเริ่มขึ้นครับ ถ้าคุณอยากทำระบบ Agent ที่มีความคิดซับซ้อน Gemma 4 มีฟีเจอร์ใหม่ที่เรียกว่า Thinking Mode ที่ให้โมเดล "คิดในใจ" ก่อนจะตอบออกมา แต่การจะรันผ่านโค้ดในช่วงแรกนี้คุณต้องระวังบั๊ก Day-0 นิดหนึ่งครับ

ปัญหาที่ต้องเจอ: ณ วันที่ปล่อยตัว โมเดลเวอร์ชันทางการใน transformers อาจจะยังไม่อัปเดต ถ้าคุณใช้คำสั่ง pip install transformers ปกติ คุณจะเจอ error ว่าหาโมเดล gemma4 ไม่เจอ

วิธีแก้: ให้ติดตั้งเวอร์ชันนักพัฒนา (Dev branch) ตรงจาก GitHub แทนครับ:

pip install git+https://github.com/huggingface/transformers.git

พอมั่นใจว่า Library พร้อมแล้ว มาลองเขียนโค้ดรันโมเดล E2B (ตัวเล็กสุดที่เข้าใจทั้งภาพและเสียง) กันครับ:

from transformers import pipeline

# โหลดโมเดลแบบ All-in-one
pipe = pipeline("any-to-any", model="google/gemma-4-e2b-it")

# ใส่ได้ทั้งข้อความและรูปภาพ
messages = [
    {
        "role": "user", 
        "content": [
            {"type": "text", "text": "วิเคราะห์รูปนี้ให้หน่อยครับว่ามีจุดไหนที่เสี่ยงอันตรายบ้าง?"},
            {"type": "image", "image": "https://example.com/construction_site.jpg"}
        ]
    }
]

output = pipe(messages, max_new_tokens=500)
print(output[0]['generated_text'])

ฟีเจอร์ลับ: การเปิดใช้งาน Thinking Mode

หนึ่งในสิ่งที่ทำให้ Gemma 4 รุ่น 31B และ 26B MoE แข็งแกร่งมากในโจทย์คณิตศาสตร์ (AIME 2026 พุ่งจาก 20.8% เป็น 89.2%!) คือความสามารถในการใช้เหตุผลแบบเป็นขั้นตอนครับ

เราสามารถบังคับให้โมเดล "คิด" ก่อนตอบได้ด้วยการใส่ token พิเศษ <|think|> ลงไปใน System Prompt ครับ โมเดลจะพ่นกระบวนการคิดออกมาในแท็ก <|channel>thought ...<channel|> ซึ่งเราสามารถเอาเนื้อหาตรงนี้ไป debug ได้ว่าโมเดลเข้าใจโจทย์เราผิดตรงไหน หรือจะซ่อนไว้ไม่ให้ user เห็นก็ได้ครับ

ระวังเรื่องความยาว: การเปิด Thinking Mode อาจทำให้โมเดลเขียนเหตุผลยาวได้ถึง 4,000+ tokens ถ้าเครื่องคุณรันช้า หรือมีงบ Context จำกัด ควรตั้งค่า max_new_tokens ให้ดีนะครับ

เทคนิคการ Prompt สำหรับสาย Multimodal

Gemma 4 ถูกฝึกมาให้รับข้อมูลหลายทาง (Text, Image, Video และ Audio สำหรับรุ่นเล็ก) แต่ลำดับการวาง Prompt สำคัญมากครับ

จากการทดสอบ Best Practice คือการวางสื่อ (รูป/เสียง) ไว้ก่อนหน้าข้อความคำสั่งเสมอ เช่นถ้าคุณอยากให้มันสรุปคลิปวิดีโอ 60 วินาที ให้ส่งวิดีโอไปก่อนแล้วค่อยตามด้วยประโยคว่า "สรุปประเด็นสำคัญจากคลิปนี้ให้หน่อย" วิธีนี้จะทำให้โมเดลโฟกัสกับเนื้อหาภาพได้ดีกว่าการสั่งงานก่อนแล้วค่อยส่งภาพตามหลังครับ

อีกจุดหนึ่งที่เทพมากคือ Variable Aspect Ratio ครับ Gemma 4 ไม่ได้บังคับให้รูปต้องเป็นสี่เหลี่ยมจัตุรัสเหมือนโมเดลรุ่นเก่าๆ แต่มันจะรักษาสัดส่วนภาพเดิมไว้ ทำให้การอ่านตัวหนังสือเล็กๆ (OCR) หรือการอ่านเอกสารทำได้แม่นยำขึ้นมากครับ

ปัญหาที่พบบ่อย + วิธีแก้ (Troubleshooting)

1. บั๊ก ValueError: model type gemma4 not recognized
อย่างที่บอกไปครับ สาเหตุเพราะ transformers ในเครื่องคุณเก่าเกินไป วิธีแก้คือลบแล้วลงใหม่จาก git branch ล่าสุดเท่านั้น

2. บั๊กเรื่อง mm_token_type_ids ตอนเทรน (Fine-tuning)
ถ้านักพัฒนาคนไหนอยากเอา Gemma 4 ไปเทรนต่อ (Fine-tune) คุณจะเจอ error ว่ามันต้องการฟิลด์ mm_token_type_ids ถึงแม้คุณจะเทรนแค่ข้อความอย่างเดียวก็ตาม
วิธีแก้: คุณต้องเขียน custom data collator เพื่อเติมฟิลด์นี้เข้าไปให้เป็นค่าว่าง หรือตั้งค่า remove_unused_columns=False ใน TrainingArguments ครับ

3. รันบน Raspberry Pi 5 แล้วช้า
ถ้าใช้ตัว E2B บน Raspberry Pi 5 แล้วรู้สึกว่าอืด ให้เช็กว่าคุณใช้ 4-bit หรือ 2-bit quantization หรือยัง และควรใช้ Library อย่าง LiteRT ที่ Google แนะนำ จะช่วยให้การทำ Prefill เร็วขึ้นถึง 133 tokens/sec เลยทีเดียว

raspberry pi 5 connected to a small monitor showing ai text generation (Rahul Mishra on Unsplash)

สรุป: ทำไมคุณควรเริ่มใช้ Gemma 4 วันนี้?

ผมมองว่าการที่ Google ปล่อย Gemma 4 ออกมาภายใต้ Apache 2.0 คือจดหมายรักถึงเหล่านักพัฒนาครับ มันทำลายกำแพงเรื่องค่าใช้จ่ายในการเรียก API และเรื่องความเป็นส่วนตัว (Privacy) ทิ้งไปเลย

ถ้าคุณเป็นนักพัฒนาแอปมือถือ คุณสามารถเอา E2B ไปใส่ในแอปให้มันวิเคราะห์รูปถ่ายและเสียงพูดได้โดยไม่ต้องมีอินเทอร์เน็ต ถ้าคุณเป็น Data Scientist คุณสามารถรัน 26B MoE บนเครื่องตัวเองเพื่อวิเคราะห์ข้อมูลบริษัทที่มีความลับสูงได้โดยไม่ต้องกังวลว่าข้อมูลจะหลุดไปถึงมือใคร

ก้าวต่อไปที่ผมแนะนำคือ ลองติดตั้งผ่าน Ollama ดูก่อนครับ ใช้เวลาไม่เกิน 5 นาที ถ้าติดใจความฉลาดของมันค่อยขยับไปเขียนโค้ดคุมเอง หรือจะลองเทรนให้มันพูดภาษาไทยให้เก่งขึ้นไปอีกระดับก็น่าสนใจมากครับ เพราะรอบนี้ Gemma 4 รองรับภาษาทั่วโลกกว่า 140 ภาษา รวมถึงภาษาไทยที่เราใช้กันอยู่ด้วย

แหล่งอ้างอิง

แนะนำ−52%

Vibecoding

The Developer's Playbook

฿2,500฿1,200

หมดเขต 31 พฤษภาคม 2026

ดูรายละเอียด→

ความคิดเห็น

ยังไม่มีความคิดเห็น เป็นคนแรกที่แสดงความเห็น!

บทความที่เกี่ยวข้อง

อ่านต่อเรื่องนี้

สอนใช้งาน

Claude Design: เครื่องมือออกแบบใหม่จาก Anthropic ที่ทำได้ทั้ง slide deck, landing page, UI prototype ในที่เดียว

Anthropic เปิดตัว Claude Design เครื่องมือ AI สำหรับสร้างงานออกแบบ slide deck, landing page, one-pager, และ UI prototype โดยใช้งานได้ฟรีบนแพ็กเกจ Pro ขึ้นไป. บทความนี้สรุปจากคลิป 17 นาทีของช่อง Brock Mesarich | AI for Non Techies ที่อธิบายฟีเจอร์ ทั้งหมด, วิธีใช้ design system, และจุดที่ Claude Design ต่างจาก Lovable.

VCT Agents19 พ.ค. 256917 นาที

สอนใช้งาน

/watch: skill ฟรีที่ทำให้ Claude Code ดูวิดีโอความยาว 1 ชั่วโมงจบในไม่กี่นาที ด้วยต้นทุนราว $1

สรุปจากคลิปของช่อง Brad | AI & Automation ที่ปล่อย skill ฟรีบน GitHub ให้ Claude Code ดูวิดีโอ YouTube, Loom, Instagram Reels หรือไฟล์ MP4 ได้ทุกแหล่ง โดยใช้ ffmpeg + caption ฟรี + Whisper บน Groq จนต้นทุนต่อคลิปเหลือราว 1 ดอลลาร์

VCT Agents19 พ.ค. 256911 นาที

สอนใช้งาน

DeepSeek V4 + Claude Code: ใช้ Claude Code ในราคา 100 เท่าที่ถูกลง ตามสูตรของ Jack Roberts

Jack Roberts สาธิตวิธีต่อ DeepSeek V4 (1.6T พารามิเตอร์, MIT open weights, context ราว 1M token) เข้ากับ Claude Code ผ่าน proxy server ทำให้ค่าใช้จ่ายต่อ session ลดจาก ~$62.50 ของ Opus 4.7 เหลือราว $0.20 หรือถูกลงประมาณ 100 เท่า โดยใช้ dual terminal แยกงาน Claude สำหรับงานดีไซน์ และ DeepSeek สำหรับ heavy lifting หลังบ้าน.

VCT Agents19 พ.ค. 256910 นาที

vibecodingthailand

สอนใช้งาน

คู่มือติดตั้ง Gemma 4: โมเดล AI ตัวแรงที่ Google ปล่อยฟรีแบบ Apache 2.0 รันเองได้บนมือถือยันคอมแรง

VCT Agents·เรียบเรียงโดย Keerati Limkulphong3 เมษายน 2569อ่าน 10 นาที

Facebook X Line

สิ่งที่ต้องเตรียมก่อนเริ่ม

สรุปสเปก RAM ขั้นต่ำ (สำหรับรันแบบ 4-bit Quantization ที่แนะนำ):
• E2B (2.3B): RAM 4GB (รันบนมือถือหรือ Raspberry Pi 5 ได้สบาย)
• E4B (4.5B): RAM 6GB (โน้ตบุ๊กทั่วไปรันตัวนี้เป็นพื้นฐาน)
• 26B-A4B (MoE): RAM 16-18GB (ตัวนี้คือพระเอกครับ แรงเกือบเท่าตัวท็อปแต่รันเร็วกว่าเยอะ)
• 31B Dense: RAM 20GB+ (สำหรับคนต้องการความแม่นยำสูงสุด)

ทำความรู้จัก 4 ขุนพลของ Gemma 4

วิธีที่ 1: ติดตั้งผ่าน Ollama (ง่ายที่สุด)

curl -fsSL https://ollama.com/install.sh | sh

# สำหรับโน้ตบุ๊กทั่วไป (แนะนำตัวนี้ครับ)
ollama pull gemma4

# สำหรับเครื่องสเปกต่ำ หรืออยากรันไวๆ
ollama pull gemma4:e2b

# สำหรับสายโหดที่อยากได้ความฉลาดระดับโลก
ollama pull gemma4:26b
ollama pull gemma4:31b

3. เริ่มคุยได้ทันที
พิมพ์คำสั่งนี้เพื่อเริ่มแชตในหน้า Terminal ได้เลยครับ:

ollama run gemma4

Tip สำหรับสาย Dev: Ollama จะสร้าง API server ให้คุณอัตโนมัติที่พอร์ต 11434 คุณสามารถยิง cURL หรือใช้ Library ใน Python/JS ต่อเชื่อมได้เลยโดยไม่ต้องลงอะไรเพิ่ม

วิธีที่ 2: ใช้ LM Studio (สำหรับคนชอบ GUI สวยๆ)

วิธีที่ 3: สำหรับสายเขียนโค้ด (Hugging Face Transformers)

วิธีแก้: ให้ติดตั้งเวอร์ชันนักพัฒนา (Dev branch) ตรงจาก GitHub แทนครับ:

pip install git+https://github.com/huggingface/transformers.git

from transformers import pipeline

# โหลดโมเดลแบบ All-in-one
pipe = pipeline("any-to-any", model="google/gemma-4-e2b-it")

# ใส่ได้ทั้งข้อความและรูปภาพ
messages = [
    {
        "role": "user", 
        "content": [
            {"type": "text", "text": "วิเคราะห์รูปนี้ให้หน่อยครับว่ามีจุดไหนที่เสี่ยงอันตรายบ้าง?"},
            {"type": "image", "image": "https://example.com/construction_site.jpg"}
        ]
    }
]

output = pipe(messages, max_new_tokens=500)
print(output[0]['generated_text'])

ฟีเจอร์ลับ: การเปิดใช้งาน Thinking Mode

ระวังเรื่องความยาว: การเปิด Thinking Mode อาจทำให้โมเดลเขียนเหตุผลยาวได้ถึง 4,000+ tokens ถ้าเครื่องคุณรันช้า หรือมีงบ Context จำกัด ควรตั้งค่า max_new_tokens ให้ดีนะครับ