CodingThAIland

รีวิวเครื่องมือ

ทำไม AI ระดับโลกสอบได้คะแนนท็อป แต่ตกม้าตายคำถามเด็กอนุบาล

VCT Agents·เรียบเรียงโดย Keerati Limkulphong11 เมษายน 2569อ่าน 7 นาที

คุณเคยจ้างคนที่สอบได้ที่หนึ่งของประเทศมาทำงานไหมครับ เขาสอบผ่านทุกวิชา ได้คะแนนเต็มทั้งเลขและวิทยาศาสตร์ แต่พอคุณให้เขานับตัวอักษรในคำง่ายๆ เขากลับนับผิด พอถามคำถามเชาวน์นิดหน่อยก็ตอบไปคนละเรื่อง

นี่คือสิ่งที่กำลังเกิดขึ้นกับ AI ระดับท็อปในตอนนี้ครับ เราเห็นข่าวโมเดลต่างๆ สอบผ่านข้อสอบแพทย์หรือกฎหมายได้คะแนนสูงลิ่ว แต่เบื้องหลังตัวเลขสวยหรูพวกนั้น งานวิจัยชิ้นใหม่จาก Caltech และ Stanford เพิ่งเปิดเผยว่าโมเดลพวกนี้ยังคงสอบตกในเรื่องที่ง่ายที่สุด

ผมจะพาไปดูว่าทำไมระบบที่ดูฉลาดที่สุดถึงยังมีปัญหาเรื่องพื้นฐาน และทำไมคะแนนทดสอบสูงๆ ถึงไม่ได้แปลว่ามันเข้าใจสิ่งที่เราสั่งจริงๆ

robot taking a paper exam with a confused expression on its face (Brett Jordan on Unsplash)

ภาพลวงตาของคะแนนสอบ

ถ้าให้สรุปภาพรวมตอนนี้ AI เหมือนนักเรียนแลกเปลี่ยนที่ท่องจำพจนานุกรมได้ทั้งเล่ม มันแต่งประโยคยากๆ ได้เป๊ะมาก แต่ถ้าคุณถามว่า "ข้างนอกฝนตกไหม" มันอาจจะตอบเป็นสูตรทำอาหารให้คุณแทน เพราะมันแค่จับคู่คำตามสถิติ ไม่ได้เข้าใจความหมายจริงๆ

ประเด็นหลักคือ ช่องว่างระหว่างคะแนนสอบกับความสามารถจริงมันกว้างมาก Claude 3 Opus ทำคะแนนสอบมาตรฐานได้เกือบ 87% แต่พอเจอคำถามทั่วไปที่คนปกติ 86% ตอบได้สบายๆ มันกลับทำคะแนนได้แค่ 35% เท่านั้น

ความฉลาดของมันคือการจำแพทเทิร์นเก่ง ไม่ใช่การคิดหาเหตุผลแบบมนุษย์ครับ

ต้นตอของปัญหามาจากโครงสร้าง

เปเปอร์วิจัยจาก Caltech และ Stanford ที่ตีพิมพ์ใน Transactions on Machine Learning Research ถือเป็นงานวิจัยชิ้นแรกที่เจาะลึกเรื่องความล้มเหลวในการคิดวิเคราะห์ของโมเดลภาษาโดยเฉพาะ

ทีมวิจัยพบว่าปัญหาไม่ได้อยู่ที่ข้อมูลไม่พอ แต่อยู่ที่โครงสร้างพื้นฐานของตัวระบบเอง มันถูกสร้างมาให้เดาคำถัดไปตามสถิติ ทำให้มันเก่งเรื่องทฤษฎีและตรรกะที่เป็นระบบ แต่พังไม่เป็นท่าเวลาเจอเรื่องที่ต้องใช้สามัญสำนึก เหมือนสอนแคลคูลัสให้คนที่ไม่รู้ว่าของหนักต้องตกลงพื้น

5 อาการรวนที่ AI ระดับโลกยังแก้ไม่ตก

1. พิมพ์ตามความเคยชิน
ระบบมีปัญหาเรื่องการปรับตัวตามบริบทครับ ถ้ามันเคยเรียนรู้แพทเทิร์นแบบหนึ่งมา พอเราเปลี่ยนบริบทนิดเดียว มันก็ยังดันทุรังตอบแบบเดิม งานวิจัยจาก MIT พบว่าโมเดลมักจะจำโครงสร้างไวยากรณ์มากกว่าความหมาย ถ้าเราถามคำถามไร้สาระแต่ใช้ไวยากรณ์คล้ายคำถามที่มีสาระ มันก็ตอบออกมาเป็นตุเป็นตะ

2. จำสลับทางไม่ได้
ถ้าคุณสอนมันว่า "A คือ B" มันจะไม่สามารถคิดกลับด้านได้ว่า "B คือ A" นี่คือข้อจำกัดของการเทรนข้อมูลที่วิ่งไปทางเดียว ทำให้มันเอาความจริงสองเรื่องมาเชื่อมโยงกันลำบากมาก

3. นับเลขและคำนวณพื้นฐานพัง
เชื่อไหมครับว่าการนับเลขคือปัญหาใหญ่ของโมเดลพวกนี้ มันไม่ได้นับด้วยอัลกอริทึมคณิตศาสตร์ แต่มันใช้วิธีเดาแพทเทิร์น ยิ่งตัวเลขเยอะยิ่งรวน แปลกตรงที่มันอาจจะทายตัวเลขหลักแรกถูก แต่ทายหลักสุดท้ายผิด

4. โดนสับขาหลอกง่าย
คะแนนความแม่นยำแกว่งได้ง่ายมาก แค่เราเปลี่ยนคำถามนิดหน่อย เช่น เปลี่ยนโครงสร้างประโยค หรือสลับลำดับข้อมูล คำตอบที่ได้ก็อาจจะเปลี่ยนจากหน้ามือเป็นหลังมือเลย

5. ไม่เข้าใจโลกกายภาพ
มันไม่รู้ว่าของชิ้นไหนหนักกว่ากัน ไม่เข้าใจเรื่องพื้นที่ หรือกฎฟิสิกส์ง่ายๆ อย่างแรงโน้มถ่วง เพราะมันเรียนรู้ผ่านตัวหนังสือ ไม่เคยมีประสบการณ์จากการจับต้องของจริงเหมือนมนุษย์

person teaching basic math on a blackboard to a giant computer (Vitaly Gariev on Unsplash)

เก่งข้อสอบยาก ทะลุร้อยละ 90

ถ้ามองในมุมที่ระบบทำได้ดี คงหนีไม่พ้นเรื่องความจำและการทำข้อสอบมาตรฐาน (MMLU) โมเดลตัวท็อปๆ ตอนนี้ทำคะแนนได้สูงถึง 88-93% ไปแล้วครับ สูงจนคนทำข้อสอบต้องหาบททดสอบใหม่มาใช้วัดผลกันแล้ว

พวกมันมีความสามารถในการประมวลผลข้อมูลจำนวนมากและตอบคำถามเชิงวิชาการได้ดี ถ้าเป็นเรื่องที่มีทฤษฎีตายตัวและมีข้อมูลในอินเทอร์เน็ตเยอะๆ มันแทบจะไม่พลาดเลย

ตกม้าตายกับคำถามเด็กอนุบาล

พอเป็นคำถามที่ต้องใช้สามัญสำนึก มันมักจะสอบตกครับ มีงานวิจัยที่เอาคำถามง่ายๆ 30 ข้อไปทดสอบ เช่น "นับตัว L ในคำว่า LOLLAPALOOZA ให้หน่อย" หรือ "น้ำหนัก 1 ปอนด์ของน้ำ กับ 3 ปอนด์ของอากาศ อันไหนหนักกว่ากัน"

ผลคือ GPT-4 Turbo ทำคะแนนได้ดีที่สุดแค่ 38% ส่วน Gemini 1.0 Pro ได้แค่ 16% ในขณะที่คนทั่วไปตอบถูกถึง 86% สาเหตุหลักคือมันคิดเยอะเกินไป หรือไม่ก็พยายามเอาแพทเทิร์นยากๆ มาแก้ปัญหาง่ายๆ จนงงเอง

จ่ายไปล้านล้านเหรียญ แต่ยังทำเรื่องพลาดง่ายๆ

Gary Marcus นักวิจัยด้าน AI ชี้ให้เห็นว่า อุตสาหกรรมนี้ลงทุนไปเกือบ 1 ล้านล้านเหรียญเพื่อขยายขนาดระบบให้ใหญ่ขึ้นเรื่อยๆ แต่โมเดลก็ยังแต่งเรื่องมั่วๆ และพลาดในเรื่องที่ไม่ควรพลาด

ปัญหาคือวงการนี้เชื่อว่าแค่ใส่ข้อมูลเพิ่มเข้าไปเรื่อยๆ เดี๋ยวระบบก็จะฉลาดขึ้นเอง แต่งานวิจัยก็ยืนยันแล้วว่า โครงสร้างตอนนี้ไม่รองรับการคิดวิเคราะห์เชิงเหตุผลตั้งแต่แรก การโยนเงินและข้อมูลใส่เข้าไปเพิ่มจึงอาจจะไม่ใช่ทางแก้ที่ตรงจุด

ความเก่งเทียบกับผู้เชี่ยวชาญ

เพื่อวัดความเก่งจริงๆ นักวิจัยเลยสร้างข้อสอบชื่อ Humanity's Last Exam (HLE) ซึ่งรวบรวมคำถามระดับผู้เชี่ยวชาญ 2,500 ข้อจาก 100 สาขาวิชามาทดสอบ

ผลล่าสุดเมื่อต้นปี 2026 คือ Gemini 3.1 Pro ทำคะแนนนำอยู่ที่ประมาณ 44% ส่วนมนุษย์ที่เป็นผู้เชี่ยวชาญทำได้ราวๆ 90% แม้ว่าจะทำคะแนนได้ดีขึ้นจากปีที่แล้ว แต่มันก็ยังมีนิสัยเสียคือ มั่นใจเกือบ 100% เวลาที่ตัวเองตอบผิด

งานวิจัยจาก Stanford ยังพบว่าประมาณ 5% ของข้อสอบ benchmark มีข้อผิดพลาด เช่น เฉลยผิด หรือตั้งคำถามกำกวม พอแก้ข้อสอบให้ถูก อันดับความเก่งของโมเดลบางตัวก็เปลี่ยนไปเลยครับ

futuristic chess match between human and artificial intelligence (Amos K on Unsplash)

วิธีดึงความสามารถออกมาให้คุ้มที่สุด

จากข้อมูลทั้งหมด วิธีที่ดีที่สุดในการใช้งานตอนนี้คือ อย่าเชื่อใจผลลัพธ์เต็มร้อยครับ ถ้าคุณจะใช้มันทำงาน คุณต้องตรวจสอบความถูกต้องด้วยตัวเองเสมอ

ทริคเล็กๆ ที่นักวิจัยแนะนำคือ ลองสั่งให้ระบบ "ถามกลับเพื่อขอความชัดเจน" ก่อนที่จะตอบ พบว่าวิธีนี้ช่วยให้ตอบถูกเพิ่มขึ้นถึง 40% เพราะมันได้ทบทวนว่าเราต้องการอะไรกันแน่ เหมือนเวลาคนเราคุยกันแล้วต้องถามย้ำครับ

สรุปคือระบบตอนนี้เหมือนเครื่องมือที่ท่องจำเก่งมากแต่ขาดสามัญสำนึก มันสอบผ่านข้อสอบยากๆ ได้เพราะจับแพทเทิร์นเก่ง แต่จะไปไม่เป็นเมื่อเจอเรื่องที่ต้องใช้ความเข้าใจพื้นฐาน เวลาเลือกใช้เครื่องมือ อย่าดูแค่คะแนนสอบ แต่ให้ดูว่ามันตอบโจทย์การใช้งานจริงของคุณได้ดีแค่ไหนครับ

แหล่งอ้างอิง

แนะนำ−44%

Claude Cowork

The Business Playbook

฿2,500฿1,400

หมดเขต 31 พฤษภาคม 2026

ดูรายละเอียด→

ความคิดเห็น

ยังไม่มีความคิดเห็น เป็นคนแรกที่แสดงความเห็น!

บทความที่เกี่ยวข้อง

อ่านต่อเรื่องนี้

รีวิวเครื่องมือ

Claude Cowork vs OpenAI Codex: เทียบหมัดต่อหมัด AI agent สำหรับคนทำงาน (ไม่ใช่แค่โปรแกรมเมอร์)

สรุปการทดสอบมือเปล่าของ Paul J Lipsky ที่เทียบ Claude Cowork กับ OpenAI Codex แบบหมวดต่อหมวด ตั้งแต่ UI การเชื่อมต่อเครื่องมือ งานอัตโนมัติ การสร้างไฟล์ ไปจนถึงราคา พร้อมคำแนะนำว่าคนทำงานทั่วไปควรเริ่มตัวไหนก่อน และเทคนิคใช้ทั้งสองตัวคู่กัน

VCT Agents22 พ.ค. 25699 นาที

รีวิวเครื่องมือ

Claude Code vs Antigravity: 100 ชั่วโมงของ Nate Herk บอกว่าตัวหนึ่งคิดเก่งกว่า อีกตัวสวยกว่า

Nate Herk ใช้ Claude Code และ Google Antigravity ปะทะกันสดในงาน 3 แบบรวมกว่า 100 ชั่วโมง แล้วสรุปออกมาเป็นกฎเดียว Claude Code คิดเก่งกว่า Antigravity ทำให้สวยกว่า บทความสรุปเหตุผลทั้ง 3 การทดลอง ราคา bug จริง quota lockout และเกณฑ์เลือกตามงานสำหรับผู้ใช้ไทย

VCT Agents19 พ.ค. 256913 นาที

รีวิวเครื่องมือ

Grok Build: เปิดสนามชน Claude Code และ Codex สรุปผลทดสอบจริงจากคลิป Bijan Bowen

xAI ปล่อย Grok Build ซึ่งเป็น terminal coding agent ตัวใหม่ที่วางตัวชน Claude Code และ Codex โดยตอนนี้เปิดเฉพาะผู้สมัคร SuperGrok Heavy ราคา $300 ต่อเดือน Bijan Bowen ทดสอบใช้งานจริงควบกับโมเดล Grok 4.3 นาน 44 นาที พบว่าความเร็วสูงมาก และความสามารถด้าน multimodal น่าสนใจ แต่ยังเป็น early beta ที่คุณภาพงานไม่สม่ำเสมอ

VCT Agents18 พ.ค. 256913 นาที