DeepSeek V4 มาแล้ว Day 0 พร้อม SGLang ราคาถูกกว่า Claude สิบเท่า แต่ของจริงไหม

VCT Agents·เรียบเรียงโดย Keerati Limkulphong26 เมษายน 2569อ่าน 9 นาที2 ครั้ง

เมื่อวานนี้ (25 เมษา 2026) ผมเปิด feed เจอ LMSYS ปล่อย Day 0 report ของ DeepSeek V4 แล้วก็แอบงงนิดนึง เพราะมันเร็วเกินคาด

ปกติเวลา model ใหม่ออก เราต้องรออีก 2-3 อาทิตย์กว่า inference stack จะ support ดีพอใช้จริงได้ บางทีต้อง patch เอง บางทีต้องรอ vendor ออก image ใหม่ แต่ V4 รอบนี้ open-source stack อย่าง SGLang และ Miles ทำงานกับมันได้ตั้งแต่วันแรก

ผมเลยนั่งอ่าน report ยาวๆ แล้วเทียบกับ listing บน OpenRouter เพื่อจะดูว่ามันคุ้มกับ hype ไหม สำหรับ dev ไทยที่ต้องเลือกใช้ tool ทุกวัน คำตอบสั้นๆ คือ น่าสนใจมาก แต่อย่าเพิ่งเททิ้ง Claude หรือ GPT

data center server racks blue lights long exposure (imgix on Unsplash)

TL;DR สำหรับคนรีบ

DeepSeek V4 มา 2 รุ่น คือ Pro (1.6T parameters, activated 49B) และ Flash (284B, activated 13B) ทั้งคู่เป็น MoE และอ่าน context ได้ถึง 1 ล้าน tokens

ที่เด็ดคือราคาบน OpenRouter Pro อยู่ที่ $0.435 ต่อ M input tokens ส่วน Flash $0.14 ต่อ M input tokens ซึ่งถูกกว่า tier บนของ Claude หรือ GPT แบบไม่ต้องคิดมาก

แต่ LMSYS เองบอกตรงๆ ว่า benchmark snapshot ที่ปล่อยมาไม่ใช่ definitive ranking และ feature บางอย่างใน RL pipeline ยังเป็น experimental ผมเลยอยากให้คุณรู้ก่อนตัดสินใจย้ายงาน production ไป V4

ผมใช้เวลาทั้งวันอ่าน report นี่ก่อนเขียน

ขอเคลียร์ก่อน ผมยังไม่ได้ self-host V4 เอง เพราะ GB300 หรือ B200 ในไทยหายากมาก ที่ผมทำคือ อ่าน LMSYS Day 0 report ทั้ง section จนหัวจะแตก แล้วเทียบกับหน้า OpenRouter เพื่อดูราคากับ availability

เป้าหมายของบทความนี้ไม่ใช่ benchmark personal แต่เป็นการกลั่นเอา 30 หน้ารายงาน technical ออกมาเป็นสิ่งที่ dev ไทยต้องรู้ก่อนตัดสินใจ ผมจะแยกชัดว่าตรงไหนคือข้อเท็จจริง ตรงไหนคือ vendor claim และตรงไหนคือคำเตือนของ LMSYS เอง

1M context ที่ throughput ไม่ตก คือของจริงที่สุดในรอบนี้

หัวใจของ V4 ไม่ใช่ขนาด parameter แต่คือ hybrid sparse attention ที่ทำให้ context ยาวๆ ยังเร็วอยู่

ในแต่ละ layer มัน combine sliding window 128 tokens กับ compression 2 แบบ คือ C4 (top-512 sparse บน compression 4:1) และ C128 (dense บน compression 128:1) เปรียบเทียบให้เห็นภาพคือ มันเหมือนบรรณารักษ์ที่วางหนังสือ 128 เล่มล่าสุดบนโต๊ะ สรุปย่ออีก 512 เล่มไว้บนชั้นข้างๆ ที่เหลือทั้งห้องสมุดถูก compress เป็น card index ตอบคำถามได้เร็วโดยไม่ต้องเปิดทุกเล่ม

ตัวเลขที่ผมประทับใจที่สุดในรายงานคือ throughput drop น้อยกว่า 10% ตอน context กระโดดจาก 4K ไปถึง 900K tokens บน B200 อยู่ราวๆ 199 ตก 180 tokens/s ส่วน H200 อยู่ที่ 266 ตก 240 tokens/s

แปลว่าอะไร แปลว่าถ้าคุณทำ agent ที่ต้องอ่าน codebase หลายไฟล์ หรือ chatbot ที่จำบทสนทนาเป็นแสน token V4 ไม่ทรุดเหมือน model หลายตัวที่ context ยาวแล้วช้าจนใช้ไม่ได้ อันนี้สำคัญมากนะสำหรับคนทำ long-horizon agent

HiSparse บอก 3 เท่า ฟังดูดี แต่อ่าน fine print ก่อน

ใน report มี feature ชื่อ HiSparse ที่ offload C4 inactive KV cache ไปอยู่บน CPU memory โดย claim ว่าเพิ่ม token capacity และ throughput ได้ up to 3x สำหรับ long-context serving

ผมบอกตรงๆ ว่า up to 3x มัน vendor-style claim เพราะมันเป็น best case เสมอ ในงานจริงจะได้กี่ x ขึ้นกับ pattern ของ workload และ hardware ที่ใช้

เช่นเดียวกับ Flash Compressor ที่บอกว่าทำได้ up to 80% ของ peak memory bandwidth ฟังแล้วโคตรเจ๋ง แต่ keyword คือ up to ครับ ผมจะเชื่อ 100% ก็ต่อเมื่อมี independent benchmark จากคนนอก ไม่ใช่จาก team ที่ optimize stack เอง

developer comparing two laptops side by side benchmark charts (Adam Nowakowski on Unsplash)

SGLang ทำให้ Day 0 ไม่ใช่แค่ marketing

ส่วนที่ผมว่าน่าตื่นเต้นกว่าตัว model ด้วยซ้ำคือ SGLang อัพเดทมารับ V4 พร้อมกัน feature ใหม่ที่เพิ่มเข้ามาคือ ShadowRadix Prefix Caching ที่ใช้ radix tree พร้อม virtual token slot และ per-pool index mapping เพื่อจัดการ KV pool 3 แบบที่มี lifetime ต่างกัน

นอกจากนี้ยังมี kernel ใหม่เพียบ FlashMLA สำหรับ hybrid attention บน Hopper และ Blackwell, FlashInfer TRTLLM-Gen สำหรับ fused MoE แบบ MXFP8 คูณ MXFP4, TileLang สำหรับ mHC พร้อม split-K, DeepGEMM Mega MoE บน Blackwell, และ Lightning TopK ที่ลด latency ของ radix-select เหลือประมาณ 15 ไมโครวินาที

ที่สำคัญคือ EAGLE 3/1/4 speculative decoding ใช้กับทั้ง Pro และ Flash ได้ทันที โดย accept length อยู่ราว 2.5 token ต่อ batch (ทดสอบที่ output 4K, prefix 30K)

เรื่อง parallelism support ครบ DP/TP/SP/EP/PP/CP รองรับทั้ง Hopper, Blackwell, Grace Blackwell, AMD GPU และ NPU ก็ครบ แปลว่า team ที่มี hardware หลากหลายไม่ต้องเลือกข้าง

Miles RL pipeline เด็ดมาก แต่อย่าเพิ่ง bet หนัก

ส่วน RL pipeline ที่ชื่อ Miles ก็มาพร้อมกันใน Day 0 มี Rollout Routing Replay (R3), FP8 rollout คู่กับ FP8/BF16 training, Attention QAT, TIS/MIS loss

ตัวเลขที่ผมว่าน่าสนใจคือ rollout/training log-prob drift อยู่ที่ ~0.023 ตั้งแต่ step แรก ซึ่งบอกว่า rollout กับ training สอดคล้องกันดี deterministic operation ก็ pin ไว้แล้ว แลกกับ throughput cost ราว 10-15% ส่วน Sinkhorn, MoE router และ early layer ถูก freeze เพื่อความเสถียร

มี reference run ของ model 285B บน 32 GB300 GPU ใช้ TP/SP/EP/PP, FP8 rollout + BF16 training, R3 เปิด, max response length 4096 ผลคือ reward และ eval score ค่อยๆ โตขึ้นตลอด run

แต่จุดที่ต้องระมัดระวังคือ indexer replay ของ Miles ถูก mark ว่าเป็น experimental และยังไม่ได้ verify end-to-end ใครจะเอาไปใช้ fine-tune model production ผมแนะนำว่ารอ feedback จาก community 2-3 รอบก่อน อย่ารีบ

ราคาบน OpenRouter ที่ทำให้ Claude/GPT สะดุ้ง

เรื่องราคาคือสิ่งที่ทำให้ V4 น่าสนใจกับ dev ไทยที่สุด

OpenRouter list V4 Pro ที่ $0.435 ต่อ M input และ $0.87 ต่อ M output ส่วน V4 Flash อยู่ที่ $0.14 ต่อ M input และ $0.28 ต่อ M output

ตัวเลขนี้ถ้าเทียบกับ tier บนของ Claude หรือ GPT ที่ราคา input ระดับหลายดอลลาร์ต่อ M tokens มันต่างกันเป็น order of magnitude เลย

OpenRouter เองโชว์ telemetry ว่ามี prompt token ราว 4.56 พันล้าน, reasoning token 150 ล้าน, completion token 95.2 ล้าน วิ่งผ่าน V4 Pro ตอนผมเช็ค แปลว่าคนเริ่มเอาไปลองกันแล้วในระดับที่ไม่ใช่แค่เล่น

ข้อควรระวัง LMSYS report ไม่มีข้อมูลราคาและไม่มี head-to-head benchmark กับ Claude หรือ GPT โดยตรง ตัวเลขราคามาจาก OpenRouter ส่วน performance ต้องลองเองในงานจริง

ที่ผมไม่ชอบ benchmark ยังพิสูจน์ไม่พอ

ผมจะตรงไปตรงมา ในรายงาน Day 0 ของ LMSYS เอง เขาเขียนชัดว่า benchmark snapshot นี้ ไม่ใช่ definitive ranking

การเทียบ long-context ก็ถูก cap ไว้ที่ 30K-token prefix เพราะระบบคู่แข่ง timed out กลายเป็นว่าเรายังไม่เห็นภาพ V4 ที่ 1M context สู้กับ Claude หรือ Gemini บน workload เดียวกันแบบ apple-to-apple

นี่คือสิ่งที่ทำให้ผมยังไม่กล้าเชียร์ใครให้ย้าย production ทั้งระบบไป V4 ในตอนนี้ การที่ stack เร็วและถูก ไม่ได้แปลว่า output คุณภาพเท่ากับ frontier model อัตโนมัติ คุณภาพต้องมาจากการลองด้วย task ของคุณเอง

อีกเรื่องคือ provider ในไทย ทั้ง LMSYS และ OpenRouter ไม่พูดถึง deployment ในภูมิภาคไทยเลย ใครที่ใส่ใจเรื่อง latency หรือ data residency ตอนนี้ยังเป็นคำถามเปิด ต้องรอ provider ทยอยเปิด หรือเลือก self-host ถ้าทีมมี GPU

thai developer working at laptop with code editor open (Arun K on Unsplash)

ใครควรลอง V4 ตอนนี้ ใครควรรอ

ผมแบ่งง่ายๆ แบบนี้

ควรลองเลย ทีมที่ทำ side project, prototype, หรือ tool ภายในที่งบไม่หนา และอยากได้ context ยาวๆ ไว้อ่าน codebase หรือ document หลายร้อยหน้า โดยเฉพาะ V4 Flash ที่ราคา $0.14 ต่อ M input เอามาทำ batch processing เอกสารไทยจำนวนมหาศาล หรือ pipeline RAG ในองค์กร น่าจะคุ้มที่สุด

ลองได้ แต่อย่าเพิ่งย้าย production ทีมที่ใช้ Claude หรือ GPT กับงาน reasoning ซับซ้อน เช่น code agent ที่ต้องวางแผนหลายขั้น หรือ analytics ที่ output ต้องแม่น ลอง V4 Pro คู่ขนานกับ model เดิม เก็บ log เทียบ output 2-4 อาทิตย์ก่อนตัดสินใจสลับ

ยังไม่ควรรีบ ทีม enterprise ที่ต้องการ data residency ในไทย หรือต้องการ SLA ระดับ production สิ่งที่ V4 มีตอนนี้คือ open weights และ OpenRouter routing ส่วนเรื่อง compliance, support, regional infrastructure ต้องรอ ecosystem ตามมา ใครที่กำลัง fine-tune ด้วย Miles RL อย่าลืมว่า indexer replay ยัง experimental ครับ

verdict ของผม คุ้มจะลอง แต่ไม่ใช่ตัวฆ่า Claude

V4 ทำให้ผมรู้สึกว่า open-weight ecosystem เดินหน้าเร็วขึ้นกว่าปีที่แล้วเยอะ การที่ SGLang กับ Miles ออกพร้อมกันแบบ Day 0 ทำให้ dev สามารถ self-host หรือ fine-tune ได้ทันทีโดยไม่ต้องรอ infrastructure 3 เดือน อันนี้ผมว่ามีค่ามาก

แต่ถ้าถามว่า V4 จะเข้ามาแทนที่ Claude หรือ GPT ใน workflow ผมเลยไหม ยังครับ ตราบใดที่ benchmark ยังไม่นิ่งและยังไม่มี independent third-party ทดสอบในงานหลากหลาย ผมก็ยังใช้ Claude เป็น main editor อยู่

วิธีคิดของผมคือ V4 Flash จะเข้ามาเป็น tool ตัวที่ 2 ในกระเป๋า เอาไว้รับงาน high-volume ที่ไม่ต้องการ frontier reasoning เช่น batch translation, summarization, classification ส่วนงานที่ต้องการคุณภาพสูงสุดยังเป็น Claude อยู่ ใครที่บอกว่าทุกงานต้องเลือก best หรือ cheapest อย่างเดียว ผมว่าพลาดประเด็น dev ที่เก่งจะเลือก tool ให้เหมาะกับงาน

ลองดูเลยล่ะ เปิด OpenRouter เติม credit สัก 5 ดอลลาร์ เอา prompt ที่คุณใช้กับ Claude อยู่ทุกวันมายิงใส่ V4 Flash แล้วเทียบ output 50 ตัวอย่าง ใช้เวลาไม่ถึงชั่วโมง คุณจะรู้ทันทีว่ามันเหมาะกับงานคุณไหม โดยไม่ต้องเชื่อ marketing ของใคร