Kimi K2.7 Code โมเดลเขียนโค้ดโอเพนซอร์ส 1T พารามิเตอร์ที่ขยับเข้าใกล้ GPT-5.5 และ Claude Opus 4.8
Kimi K2.7 Code คือโมเดลเขียนโค้ดโอเพนซอร์สตัวใหม่จาก Moonshot AI ที่เปิดให้โหลดน้ำหนักโมเดลไปรันเองได้ฟรี คะแนนงานโค้ดและงานเอเจนต์ขยับเข้าใกล้โมเดลปิดอย่าง GPT-5.5 และ Claude Opus 4.8 จนต้องดูว่าใกล้พอจะหยิบมาใช้แทนได้แค่ไหน

Kimi K2.7 Code คือโมเดลเขียนโค้ดตัวใหม่จาก Moonshot AI ที่เปิดให้โหลดน้ำหนักโมเดลไปรันบนเครื่องตัวเองได้ฟรี จุดที่ทำให้มันน่าสนใจไม่ใช่แค่คำว่าฟรี แต่เป็นตัวเลขคะแนน เพราะในงานเขียนโค้ดและงานที่ให้ AI ทำงานเป็นเอเจนต์เอง คะแนนของมันขยับขึ้นไปใกล้โมเดลปิดตัวท็อปอย่าง GPT-5.5 และ Claude Opus 4.8 มากกว่าที่โมเดลโอเพนซอร์สเคยทำได้
ที่ผ่านมาโมเดลโอเพนซอร์สมักตามหลังโมเดลปิดอยู่หนึ่งก้าว เก่งพอใช้งานได้ แต่ยังไม่เคยใกล้พอจะใช้แทนโมเดลปิดได้จริง คำถามที่คนทำงานสายโค้ดและสายวางระบบในไทยน่าจะอยากรู้จึงไม่ใช่ "มันเก่งไหม" แต่เป็น "มันใกล้พอจะเลิกจ่ายค่า API โมเดลปิดได้หรือยัง" บทความนี้ชวนดูทั้งสองด้าน ทั้งจุดที่ทำได้ดีจนน่าตกใจ และจุดที่ยังต้องยอมรับว่าตามอยู่
ของจริงเบื้องหลังคำว่าฟรี
ก่อนจะไปดูคะแนน ลองดูว่าโมเดลที่โหลดมาหน้าตาอย่างไร เพราะคำว่า "โหลดมารันเองได้ฟรี" ฟังดูเบา แต่ของที่โหลดมาไม่ได้เล็ก
Kimi K2.7 Code ใช้สถาปัตยกรรมแบบ Mixture-of-Experts (MoE) มีพารามิเตอร์รวมทั้งหมด 1 ล้านล้านตัว หรือ 1 trillion แต่เวลาทำงานจริงจะ activate แค่ 32B ต่อหนึ่ง token เท่านั้น พูดง่ายๆ คือโมเดลตัวใหญ่มาก แต่เลือกใช้เฉพาะส่วนที่จำเป็นในแต่ละครั้ง จึงรันได้โดยไม่ต้องเปิดเครื่องยนต์ทั้งคันทุกรอบ
อีกตัวเลขที่ควรรู้คือ context length 256K tokens หมายความว่ามันอ่านโค้ดทั้งโปรเจกต์ยาวๆ ได้ในรอบเดียว ภายในมี expert ให้เลือกถึง 384 ตัว แต่จะเลือกใช้แค่ 8 ตัวต่อ token บวกกับ shared expert อีก 1 ตัว และยังมีตัวอ่านภาพชื่อ MoonViT ติดมาด้วย ทำให้รับ input เป็นรูปภาพได้ ไม่ใช่แค่ตัวอักษร
จุดที่เห็นชัดที่สุดว่าต่อยอดจากรุ่นก่อนอย่าง Kimi K2.6 คือเรื่องการคิด รุ่นนี้ลดการใช้ thinking-token ลงราว 30% เทียบกับรุ่นก่อน แปลว่ามันได้คำตอบที่ดีพอกันโดยใช้ thinking-token น้อยลง สำหรับคนที่ต้องจ่ายค่า token หรือต้องรอผลลัพธ์ นี่คือทั้งถูกลงและเร็วขึ้นในตัวเดียว
ใกล้แค่ไหน ดูจากงานที่มันถูกสร้างมาทำ
หัวใจของเรื่องนี้อยู่ที่คะแนน เพราะถ้าจะตอบว่า "ใกล้พอจะใช้แทนได้ไหม" ก็ต้องดูจากตัวเลขจริง วิธีอ่านที่ตรงที่สุดคือเทียบกับสองตัวที่มันตั้งใจไล่ตาม นั่นคือ GPT-5.5 และ Claude Opus 4.8
เมื่อวัดงานโค้ดแบบครบ stack ด้วย Kimi Code Bench v2 รุ่นนี้ทำได้ 62.0 คะแนน ขยับขึ้นจากรุ่นก่อนที่ได้ 50.9 ส่วน GPT-5.5 อยู่ที่ 69.0 และ Claude Opus 4.8 อยู่ที่ 67.4 จะเห็นว่ายังตามอยู่ แต่ระยะห่างแคบลงมากเมื่อเทียบกับช่องว่างเดิม
ฝั่งงานเอเจนต์น่าสนใจกว่า งานกลุ่มนี้คือการปล่อยให้ AI เรียกใช้เครื่องมือเองหลายขั้นจนจบงาน เมื่อวัดด้วย MCP Mark Verified ที่ทดสอบการเรียกใช้เครื่องมือจริงผ่าน Notion · GitHub · Postgres · Playwright Kimi K2.7 Code ทำได้ 81.1 คะแนน ซึ่งสูงกว่า Claude Opus 4.8 ที่ได้ 76.4 นี่เป็นครั้งแรกๆ ที่โมเดลโอเพนซอร์สแซงโมเดลปิดตัวท็อปได้ในงานประเภทนี้
แต่ "ใกล้" ยังไม่เท่ากับ "ทัน"

ถ้าหยุดอ่านแค่ตรงที่มันแซง Claude ได้ ภาพจะสวยเกินจริง ถ้าจะเล่าให้ครบ ต้องดูส่วนที่มันยังตามอยู่ด้วย และมันยังตามอยู่ในหลายด้าน
เมื่อวัดความสามารถในการคิดค้นวิธีทาง machine learning ใหม่ด้วย MLS-Bench Lite Kimi K2.7 Code ได้ 35.1 ขณะที่ Claude Opus 4.8 ได้ 42.8 และเมื่อวัดการใช้เครื่องมือผ่าน MCP Atlas มันได้ 76.0 ส่วน Claude Opus 4.8 ได้ 81.3 ทั้งสองรายการนี้ Claude ยังนำอยู่ชัดเจน และถ้าเทียบกับ GPT-5.5 ภาพรวมแทบทุกการวัด GPT-5.5 ยังนำหน้าอยู่ทั้งหมด
สรุปแบบตรงไปตรงมาคือ Kimi K2.7 Code อยู่ในระดับ "ใกล้เคียง" โมเดลปิดตัวท็อป ไม่ใช่ "เท่ากัน" มันชนะได้บางสนาม เสมอได้ในหลายสนาม แต่ยังไม่ใช่โมเดลที่ชนะโมเดลปิดได้ทุกด้าน คำว่าใกล้จึงต้องเข้าใจตามนั้น ไม่ใช่อ่านแบบโฆษณา
| งานที่วัด | Kimi K2.7 Code | GPT-5.5 | Claude Opus 4.8 |
|---|---|---|---|
| Kimi Code Bench v2 (งานโค้ดครบ stack) | 62.0 | 69.0 | 67.4 |
| MCP Mark Verified (เรียกเครื่องมือจริง) | 81.1 | 92.9 | 76.4 |
| MLS-Bench Lite (คิดค้นวิธี ML) | 35.1 | 35.5 | 42.8 |
| MCP Atlas (ใช้เครื่องมือ) | 76.0 | 79.4 | 81.3 |
ราคาที่ไม่ได้จ่ายเป็นเงิน

ตรงนี้คือจุดที่ต้องอ่านคำว่าฟรีให้ครบ เพราะการโหลดน้ำหนักมารันเองนั้นฟรีจริงในแง่ค่าลิขสิทธิ์ ใบอนุญาตเป็นแบบ Modified MIT ทั้งตัวโค้ดและน้ำหนักโมเดล เอาไปใช้ในงานจริงได้ แต่ราคาที่ต้องจ่ายย้ายไปอยู่ที่ฮาร์ดแวร์แทน
โมเดลขนาด 1T พารามิเตอร์ไม่ใช่ของที่เปิดบนโน้ตบุ๊กแล้วรันได้ การรันเองต้องมีเครื่องที่แรงพอจริงๆ ซึ่งสำหรับทีมเล็กหรือคนทำงานคนเดียว ค่าเครื่องตรงนี้อาจแพงกว่าค่า API ของโมเดลปิดด้วยซ้ำ คำว่าฟรีจึงเหมาะกับคนที่มีเครื่องอยู่แล้ว หรือทีมที่มีเหตุผลต้องเก็บข้อมูลไว้ในระบบตัวเอง ไม่ใช่ทุกคนจะคุ้มกับการเปิดน้ำหนักเท่ากัน
ถ้าจะลอง เริ่มจากตรงไหน
ข้อดีอย่างหนึ่งของการเปิดน้ำหนักคือมีหลายทางให้ลอง ไม่จำเป็นต้องลงทุนตั้งเครื่องตั้งแต่วันแรก เลือกตามว่าตอนนี้มีอะไรอยู่ในมือ
- อยากลองเร็วที่สุดโดยไม่ตั้งเครื่อง เรียกผ่าน API อย่างเป็นทางการของ Moonshot AI ซึ่งออกแบบให้เข้ากับรูปแบบ API ของ OpenAI และ Anthropic อยู่แล้ว ถ้าโค้ดเดิมเรียก API สองเจ้านั้นอยู่ ก็สลับมาเรียกตัวนี้ได้โดยแก้ไม่มาก
- มีเครื่องแรงและอยากรันเอง ติดตั้งผ่าน vLLM หรือ SGLang ซึ่งเป็น engine สำหรับรันโมเดลที่นิยมใช้กัน
- อยากลองเร็วผ่าน Docker มีคำสั่งสำเร็จรูปให้ดึงโมเดลมารันได้ในบรรทัดเดียว
สำหรับคนที่อยากลองทางที่เบาที่สุดก่อน ลำดับสั้นๆ คือ หนึ่ง เปิดหน้าโมเดลที่ HuggingFace เพื่อดูสเปกและวิธี deploy สอง ถ้ายังไม่อยากตั้งเครื่อง ให้สมัครเรียกผ่าน API ทางการก่อน สาม ลองเอางานจริงที่เคยให้โมเดลปิดทำไปรันกับ Kimi แล้วเทียบผลกับของเดิมตรงๆ เพราะคะแนน benchmark บอกได้แค่แนวโน้ม ส่วนงานของคุณเองคือข้อสอบที่ตรงที่สุด
วิธีนี้ทำให้ตัดสินใจได้จากผลจริง ไม่ใช่จากตัวเลขในตาราง และใช้เวลาไม่กี่นาทีก็เห็นว่ามันพอแทนของเดิมได้หรือยัง
ก้าวที่โอเพนซอร์สขยับเข้ามาใกล้
สิ่งที่ Kimi K2.7 Code บอกเราไม่ใช่ว่าโมเดลโอเพนซอร์สชนะโมเดลปิดแล้ว เพราะมันยังไม่ชนะ แต่คือระยะห่างที่เคยกว้างจนต้องยอมจ่ายค่าโมเดลปิดอย่างไม่มีทางเลือก ตอนนี้แคบลงจนเริ่มมีทางเลือกให้คิด
สำหรับคนทำงานสายโค้ดและสายวางระบบในไทย คำตอบจึงไม่ใช่ "ใช่" หรือ "ไม่" แบบเหมารวม แต่เป็น "ขึ้นอยู่กับงาน" งานเอเจนต์ที่ต้องเรียกเครื่องมือเยอะนั้นใกล้พอจะลองจริงจัง ส่วนงานที่ต้องการความเก่งระดับสุดทาง โมเดลปิดยังนำอยู่ และเมื่อช่องว่างนี้แคบลงทุกรุ่น คำถามที่ควรถามจึงเปลี่ยนจาก "โมเดลไหนเก่งสุด" เป็น "งานตรงหน้าต้องการเก่งสุดจริงไหม หรือแค่ดีพอ"
vibecodingth
ทีมผู้เขียน Vibe Coding Thailand



