Sakana Fugu Ultra ลั่นว่าเป็น 'นักฆ่า Fable' แต่พอลองจริง 38 งาน กลับชนะ Opus ไม่ได้สักงาน แถมช้ากว่า 4.5 เท่า
Fugu Ultra จาก Sakana AI เปิดตัวด้วยคำเคลมว่าเป็น 'นักฆ่า Fable' จนทวีตประกาศตัวพุ่งไปถึง 15 ล้านวิว แต่พอลองจริงครบ 38 งานเทียบกับ Claude Opus 4.8 ผลกลับออกมาคนละเรื่องกับคำเคลมทั้งหมด

Fugu Ultra คือ API ตัวใหม่จากบริษัท Sakana AI ของญี่ปุ่น เปิดตัวด้วยคำเคลมแรงจัดว่าตัวเองเป็น 'นักฆ่า Fable' พูดง่ายๆ คือบอกว่าทำงานได้เทียบชั้น Fable และ Mythos สองโมเดล AI ที่หลายคนยกให้เป็นแถวหน้าของตอนนี้ ทวีตประกาศตัวแค่ประโยคเดียวก็พุ่งทะลุ 15 ล้านวิวภายในเวลาไม่นาน
แต่พอมีคนหยิบ Fugu Ultra มาลองจริงแบบจัดเต็มถึง 38 งาน เทียบหมัดต่อหมัดกับ Claude Opus 4.8 หนึ่งในโมเดล AI ตัวท็อปจาก Anthropic ผลที่ออกมากลับสวนทางกับคำประกาศแทบทั้งหมด เพราะตลอดทั้ง 38 งาน Fugu ไม่ชนะแม้แต่งานเดียว เสมอ 36 งาน และแพ้ 2 งาน ที่หนักกว่านั้นคือมันช้ากว่า Opus ถึง 4.5 เท่า และค่าใช้จ่ายแพงกว่าราว 5 เท่า
ไม่ใช่โมเดลที่ฉลาดกว่า แต่เป็นผู้จัดการ

กุญแจของเรื่องนี้อยู่ตรงที่ Fugu ไม่มี LLM เป็นของตัวเองเลย แต่มันคือระบบที่คอยส่งงานต่อให้โมเดลชั้นนำหลายตัวช่วยกันทำ ทั้ง Opus, GPT-5.5 และ Gemini
วิธีทำงานเป็นแบบนี้ เมื่อส่ง prompt เข้าไป โมเดลที่เรียกว่า conductor ซึ่งเป็นโมเดลผู้จัดการขนาดเล็กจะรับงานก่อน จากนั้นจะแตกงานออกเป็นชิ้นย่อยๆ แล้วกระจายให้โมเดลที่ถนัดแต่ละด้าน งานเขียนส่งให้ Claude งาน coding หรือไล่บั๊กส่งให้ GPT ส่วนงานค้นข้อมูลและตรวจข้อเท็จจริงส่งให้ Gemini พอแต่ละตัวตอบกลับมาครบ ก็มี LLM อีกตัวคอยรวมคำตอบทั้งหมดแล้วเรียบเรียงเป็นผลลัพธ์สุดท้าย
โลโก้ของ Sakana สื่อแนวคิดนี้ตรงๆ เป็นรูปปลาเล็กๆ หลายตัวว่ายมารวมกันเป็นปลาใหญ่หนึ่งตัว เหมือนหลายโมเดลที่มารวมพลังกันอยู่ใต้ API เดียว
Fugu ไม่ใช่โมเดลที่ฉลาดขึ้น มันเป็นแค่ผู้จัดการ
ประโยคนี้สำคัญ เพราะมันบอกตั้งแต่ต้นว่าเราไม่ได้กำลังเทียบว่าใครฉลาดกว่าใคร แต่กำลังเทียบวิธีจัดการงานที่ต่างกัน
ลองจริง 38 งาน Fugu ชนะ 0

โจทย์ทดสอบทั้ง 38 งานนี้ Nate Herk เจ้าของช่อง AI Automation ที่มีชุมชนกว่า 400,000 คน เป็นคนลงมือรันเองทั้งหมด เขาแบ่งงานออกเป็น 4 ชุด ตั้งแต่โจทย์เชาวน์ กับดักที่หลอกให้พลาด โจทย์ที่ต้องทำตาม spec เป๊ะๆ ไปจนถึงอัลกอริทึมหนักๆ แล้วใช้ Codex ซึ่งเป็นโมเดล AI สายเขียนโค้ด มาช่วยออกข้อสอบและตรวจให้คะแนน เพื่อตัดอคติของคนทดสอบออกไป
ผลรวมออกมาตามตารางนี้
| Fugu Ultra | Claude Opus 4.8 | |
|---|---|---|
| งานที่ชนะ (จาก 38) | 0 | 2 |
| งานที่เสมอกัน | 36 | 36 |
| เวลารวมทั้งหมด | 357 นาที | 80 นาที |
| ต้นทุนรวมทั้งหมด | ~$50 | ~$10 |
ตัวเลขที่เห็นภาพชัดที่สุดคือเรื่องความเร็ว มีงานง่ายๆ งานหนึ่งที่ Opus ตอบจบใน 6 วินาที แต่ Fugu ใช้เวลาหลายนาทีกับงานเดียวกัน เพราะต้องแตกงาน กระจายงาน รอโมเดลแต่ละตัวตอบ แล้วค่อยรวมคำตอบ ทุกขั้นใช้เวลาเพิ่มทั้งนั้น
ส่วนเรื่องค่าใช้จ่าย คนทดสอบใช้แพ็กเกจ $200 ต่อเดือน ที่คิดโควตาการใช้เป็นรอบ 5 ชั่วโมง และจบงานทั้ง 38 ไปด้วยโควตารายสัปดาห์เพียง 34% เท่านั้น แปลว่า Fugu ใช้งานได้จริง เพียงแต่ต้องจ่ายแพงกว่าและรอนานกว่า เพื่อให้ได้ผลที่ไม่ต่างกัน
ข้างในมันก็คือ Opus อยู่ดี
คำถามที่ตามมาคือ ทำไม Fugu ถึงเอาชนะ Opus ไม่ได้สักงาน คำตอบซ่อนอยู่ในกลไกของมันเอง เพราะ Opus 4.8 คือหนึ่งในโมเดลที่ Fugu เลือกหยิบมาใช้ข้างใน และผลลัพธ์ราว 60% ก็มาจาก Opus อยู่แล้ว
พอเป็นแบบนี้ การที่ Fugu จะเอาชนะ Opus ก็เท่ากับให้ Opus ไปเอาชนะตัวเอง ซึ่งเป็นไปไม่ได้ การเอาหลายโมเดลมาต่อกันช่วยจัดคิวงานได้ก็จริง แต่มันไม่ได้ทำให้ระบบฉลาดขึ้นเอง สิ่งที่มันเพิ่มเข้ามาแทนคือขั้นตอน เวลา และต้นทุน
Fable รู้สึกได้เลยว่าดีกว่า Opus 4.8 แต่ Fugu Ultra ไม่ได้ให้ความรู้สึกว่าดีกว่า Opus 4.8 เลย
นี่คือจุดที่คำว่า 'นักฆ่า Fable' เริ่มฟังดูเกินจริง เพราะ Fable เป็นโมเดลที่คนใช้รู้สึกได้ว่าเหนือกว่าจริง ส่วน Fugu เป็นเพียงชั้นจัดการที่วางทับโมเดลเดิม แล้วผลที่ได้ก็ยังเท่าเดิม
แล้ว Fugu คุ้มกับใคร
ถึงผลทดสอบจะไม่สวย แต่ก็ไม่ได้แปลว่า Fugu ไร้ประโยชน์ไปเสียทีเดียว คนทดสอบเองย้ำว่าเขาไม่ได้ทำงาน software development หนักๆ ดังนั้นผลอาจต่างออกไปสำหรับทีม dev ที่ใช้หลายโมเดลกับ codebase เดียวกัน
จุดที่ Fugu น่าสนใจคือมันรวมโมเดลเฉพาะทางไว้หลัง endpoint เดียว ทีมที่อยากได้ GPT มาช่วย review โค้ด และอยากได้ Claude มาช่วยวางแผนงาน โดยไม่ต้องสลับ API ไปมา ก็อาจได้ความสะดวกตรงนี้ นอกจากนี้เวลาเสียบ Fugu เข้ากับ Claude Code เครื่องมือเขียนโค้ดด้วย AI ผ่านไฟล์ markdown กับ API key ยังมีลูกเล่นที่ทำให้ context window ไม่บวมขึ้น เพราะ request วิ่งไปประมวลผลที่เซิร์ฟเวอร์ของ Fugu แทน ข้อนี้ช่วยได้จริงเวลาทำงาน session ยาวๆ
อีกเรื่องที่ควรแยกให้ชัดคือ Fugu ไม่เหมือน Fusion API ของ OpenRouter แม้จะรวมหลายโมเดลเหมือนกัน แต่ Fusion จะส่ง prompt เดียวให้สามโมเดลตอบพร้อมกัน แล้วมีตัวตัดสินคอยเลือกคำตอบที่ดีที่สุด ส่วน Fugu จะแตกงานออกเป็นส่วนๆ แล้วมอบหมายแต่ละส่วนให้โมเดลที่ถนัด เป็นคนละแนวคิดกันเลย
สรุปให้เลือกง่ายๆ ว่าใครควรใช้อะไร
- งานทั่วไป อย่างเขียนงาน สรุปความ หรือถามตอบ ให้ใช้ Opus เดี่ยวๆ เพราะเร็วกว่าและถูกกว่าชัดเจน
- ทีม dev ที่อยากได้หลายโมเดลเฉพาะทางหลัง endpoint เดียว Fugu พอน่าลอง ถ้ารับราคาเดือนละ $100 ถึง $200 ไหว
- อยากได้หลายคำตอบพร้อมกันแล้วค่อยเลือกอันที่ดีที่สุด แบบนี้ต้องมองไปทาง Fusion ของ OpenRouter ที่เป็นคนละแนว
ทั้งหมดนี้พาเรากลับมาที่คำเคลมตั้งต้น ในเมื่อเครื่องมือหลักของ Fugu คือ Opus ตัวเดียวกับที่ถูกนำมาเทียบกัน ผลที่ออกมาเสมอกันจึงไม่ใช่เรื่องบังเอิญ แต่มันคือคำตอบที่อยู่ในตัวระบบมาตั้งแต่ก่อนเริ่มทดสอบด้วยซ้ำ
ที่มา: คลิป I Battle Tested Sakana Fugu's Fable Killer จากช่อง Nate Herk



