ทำไม AI ระดับโลกสอบได้คะแนนท็อป แต่ตกม้าตายคำถามเด็กอนุบาล

คุณเคยจ้างคนที่สอบได้ที่หนึ่งของประเทศมาทำงานไหมครับ เขาสอบผ่านทุกวิชา ได้คะแนนเต็มทั้งเลขและวิทยาศาสตร์ แต่พอคุณให้เขานับตัวอักษรในคำง่ายๆ เขากลับนับผิด พอถามคำถามเชาวน์นิดหน่อยก็ตอบไปคนละเรื่อง
นี่คือสิ่งที่กำลังเกิดขึ้นกับ AI ระดับท็อปในตอนนี้ครับ เราเห็นข่าวโมเดลต่างๆ สอบผ่านข้อสอบแพทย์หรือกฎหมายได้คะแนนสูงลิ่ว แต่เบื้องหลังตัวเลขสวยหรูพวกนั้น งานวิจัยชิ้นใหม่จาก Caltech และ Stanford เพิ่งเปิดเผยว่าโมเดลพวกนี้ยังคงสอบตกในเรื่องที่ง่ายที่สุด
ผมจะพาไปดูว่าทำไมระบบที่ดูฉลาดที่สุดถึงยังมีปัญหาเรื่องพื้นฐาน และทำไมคะแนนทดสอบสูงๆ ถึงไม่ได้แปลว่ามันเข้าใจสิ่งที่เราสั่งจริงๆ
ภาพลวงตาของคะแนนสอบ
ถ้าให้สรุปภาพรวมตอนนี้ AI เหมือนนักเรียนแลกเปลี่ยนที่ท่องจำพจนานุกรมได้ทั้งเล่ม มันแต่งประโยคยากๆ ได้เป๊ะมาก แต่ถ้าคุณถามว่า "ข้างนอกฝนตกไหม" มันอาจจะตอบเป็นสูตรทำอาหารให้คุณแทน เพราะมันแค่จับคู่คำตามสถิติ ไม่ได้เข้าใจความหมายจริงๆ
ประเด็นหลักคือ ช่องว่างระหว่างคะแนนสอบกับความสามารถจริงมันกว้างมาก Claude 3 Opus ทำคะแนนสอบมาตรฐานได้เกือบ 87% แต่พอเจอคำถามทั่วไปที่คนปกติ 86% ตอบได้สบายๆ มันกลับทำคะแนนได้แค่ 35% เท่านั้น
ความฉลาดของมันคือการจำแพทเทิร์นเก่ง ไม่ใช่การคิดหาเหตุผลแบบมนุษย์ครับ
ต้นตอของปัญหามาจากโครงสร้าง
เปเปอร์วิจัยจาก Caltech และ Stanford ที่ตีพิมพ์ใน Transactions on Machine Learning Research ถือเป็นงานวิจัยชิ้นแรกที่เจาะลึกเรื่องความล้มเหลวในการคิดวิเคราะห์ของโมเดลภาษาโดยเฉพาะ
ทีมวิจัยพบว่าปัญหาไม่ได้อยู่ที่ข้อมูลไม่พอ แต่อยู่ที่โครงสร้างพื้นฐานของตัวระบบเอง มันถูกสร้างมาให้เดาคำถัดไปตามสถิติ ทำให้มันเก่งเรื่องทฤษฎีและตรรกะที่เป็นระบบ แต่พังไม่เป็นท่าเวลาเจอเรื่องที่ต้องใช้สามัญสำนึก เหมือนสอนแคลคูลัสให้คนที่ไม่รู้ว่าของหนักต้องตกลงพื้น
5 อาการรวนที่ AI ระดับโลกยังแก้ไม่ตก
1. พิมพ์ตามความเคยชิน
ระบบมีปัญหาเรื่องการปรับตัวตามบริบทครับ ถ้ามันเคยเรียนรู้แพทเทิร์นแบบหนึ่งมา พอเราเปลี่ยนบริบทนิดเดียว มันก็ยังดันทุรังตอบแบบเดิม งานวิจัยจาก MIT พบว่าโมเดลมักจะจำโครงสร้างไวยากรณ์มากกว่าความหมาย ถ้าเราถามคำถามไร้สาระแต่ใช้ไวยากรณ์คล้ายคำถามที่มีสาระ มันก็ตอบออกมาเป็นตุเป็นตะ
2. จำสลับทางไม่ได้
ถ้าคุณสอนมันว่า "A คือ B" มันจะไม่สามารถคิดกลับด้านได้ว่า "B คือ A" นี่คือข้อจำกัดของการเทรนข้อมูลที่วิ่งไปทางเดียว ทำให้มันเอาความจริงสองเรื่องมาเชื่อมโยงกันลำบากมาก
3. นับเลขและคำนวณพื้นฐานพัง
เชื่อไหมครับว่าการนับเลขคือปัญหาใหญ่ของโมเดลพวกนี้ มันไม่ได้นับด้วยอัลกอริทึมคณิตศาสตร์ แต่มันใช้วิธีเดาแพทเทิร์น ยิ่งตัวเลขเยอะยิ่งรวน แปลกตรงที่มันอาจจะทายตัวเลขหลักแรกถูก แต่ทายหลักสุดท้ายผิด
4. โดนสับขาหลอกง่าย
คะแนนความแม่นยำแกว่งได้ง่ายมาก แค่เราเปลี่ยนคำถามนิดหน่อย เช่น เปลี่ยนโครงสร้างประโยค หรือสลับลำดับข้อมูล คำตอบที่ได้ก็อาจจะเปลี่ยนจากหน้ามือเป็นหลังมือเลย
5. ไม่เข้าใจโลกกายภาพ
มันไม่รู้ว่าของชิ้นไหนหนักกว่ากัน ไม่เข้าใจเรื่องพื้นที่ หรือกฎฟิสิกส์ง่ายๆ อย่างแรงโน้มถ่วง เพราะมันเรียนรู้ผ่านตัวหนังสือ ไม่เคยมีประสบการณ์จากการจับต้องของจริงเหมือนมนุษย์
เก่งข้อสอบยาก ทะลุร้อยละ 90
ถ้ามองในมุมที่ระบบทำได้ดี คงหนีไม่พ้นเรื่องความจำและการทำข้อสอบมาตรฐาน (MMLU) โมเดลตัวท็อปๆ ตอนนี้ทำคะแนนได้สูงถึง 88-93% ไปแล้วครับ สูงจนคนทำข้อสอบต้องหาบททดสอบใหม่มาใช้วัดผลกันแล้ว
พวกมันมีความสามารถในการประมวลผลข้อมูลจำนวนมากและตอบคำถามเชิงวิชาการได้ดี ถ้าเป็นเรื่องที่มีทฤษฎีตายตัวและมีข้อมูลในอินเทอร์เน็ตเยอะๆ มันแทบจะไม่พลาดเลย
ตกม้าตายกับคำถามเด็กอนุบาล
พอเป็นคำถามที่ต้องใช้สามัญสำนึก มันมักจะสอบตกครับ มีงานวิจัยที่เอาคำถามง่ายๆ 30 ข้อไปทดสอบ เช่น "นับตัว L ในคำว่า LOLLAPALOOZA ให้หน่อย" หรือ "น้ำหนัก 1 ปอนด์ของน้ำ กับ 3 ปอนด์ของอากาศ อันไหนหนักกว่ากัน"
ผลคือ GPT-4 Turbo ทำคะแนนได้ดีที่สุดแค่ 38% ส่วน Gemini 1.0 Pro ได้แค่ 16% ในขณะที่คนทั่วไปตอบถูกถึง 86% สาเหตุหลักคือมันคิดเยอะเกินไป หรือไม่ก็พยายามเอาแพทเทิร์นยากๆ มาแก้ปัญหาง่ายๆ จนงงเอง
จ่ายไปล้านล้านเหรียญ แต่ยังทำเรื่องพลาดง่ายๆ
Gary Marcus นักวิจัยด้าน AI ชี้ให้เห็นว่า อุตสาหกรรมนี้ลงทุนไปเกือบ 1 ล้านล้านเหรียญเพื่อขยายขนาดระบบให้ใหญ่ขึ้นเรื่อยๆ แต่โมเดลก็ยังแต่งเรื่องมั่วๆ และพลาดในเรื่องที่ไม่ควรพลาด
ปัญหาคือวงการนี้เชื่อว่าแค่ใส่ข้อมูลเพิ่มเข้าไปเรื่อยๆ เดี๋ยวระบบก็จะฉลาดขึ้นเอง แต่งานวิจัยก็ยืนยันแล้วว่า โครงสร้างตอนนี้ไม่รองรับการคิดวิเคราะห์เชิงเหตุผลตั้งแต่แรก การโยนเงินและข้อมูลใส่เข้าไปเพิ่มจึงอาจจะไม่ใช่ทางแก้ที่ตรงจุด
ความเก่งเทียบกับผู้เชี่ยวชาญ
เพื่อวัดความเก่งจริงๆ นักวิจัยเลยสร้างข้อสอบชื่อ Humanity's Last Exam (HLE) ซึ่งรวบรวมคำถามระดับผู้เชี่ยวชาญ 2,500 ข้อจาก 100 สาขาวิชามาทดสอบ
ผลล่าสุดเมื่อต้นปี 2026 คือ Gemini 3.1 Pro ทำคะแนนนำอยู่ที่ประมาณ 44% ส่วนมนุษย์ที่เป็นผู้เชี่ยวชาญทำได้ราวๆ 90% แม้ว่าจะทำคะแนนได้ดีขึ้นจากปีที่แล้ว แต่มันก็ยังมีนิสัยเสียคือ มั่นใจเกือบ 100% เวลาที่ตัวเองตอบผิด
งานวิจัยจาก Stanford ยังพบว่าประมาณ 5% ของข้อสอบ benchmark มีข้อผิดพลาด เช่น เฉลยผิด หรือตั้งคำถามกำกวม พอแก้ข้อสอบให้ถูก อันดับความเก่งของโมเดลบางตัวก็เปลี่ยนไปเลยครับ
วิธีดึงความสามารถออกมาให้คุ้มที่สุด
จากข้อมูลทั้งหมด วิธีที่ดีที่สุดในการใช้งานตอนนี้คือ อย่าเชื่อใจผลลัพธ์เต็มร้อยครับ ถ้าคุณจะใช้มันทำงาน คุณต้องตรวจสอบความถูกต้องด้วยตัวเองเสมอ
ทริคเล็กๆ ที่นักวิจัยแนะนำคือ ลองสั่งให้ระบบ "ถามกลับเพื่อขอความชัดเจน" ก่อนที่จะตอบ พบว่าวิธีนี้ช่วยให้ตอบถูกเพิ่มขึ้นถึง 40% เพราะมันได้ทบทวนว่าเราต้องการอะไรกันแน่ เหมือนเวลาคนเราคุยกันแล้วต้องถามย้ำครับ
สรุปคือระบบตอนนี้เหมือนเครื่องมือที่ท่องจำเก่งมากแต่ขาดสามัญสำนึก มันสอบผ่านข้อสอบยากๆ ได้เพราะจับแพทเทิร์นเก่ง แต่จะไปไม่เป็นเมื่อเจอเรื่องที่ต้องใช้ความเข้าใจพื้นฐาน เวลาเลือกใช้เครื่องมือ อย่าดูแค่คะแนนสอบ แต่ให้ดูว่ามันตอบโจทย์การใช้งานจริงของคุณได้ดีแค่ไหนครับ
แหล่งอ้างอิง
- Large Language Model Reasoning Failures (Caltech/Stanford Survey, arXiv 2602.06176)
- Easy Problems That LLMs Get Wrong (arXiv 2405.19616v2)
- BREAKING: LLM 'reasoning' continues to be deeply flawed
- Researchers discover a shortcoming that makes LLMs less reliable
- State of LLM Benchmarks 2026: Rankings, Trends, and What Actually Changed
- Humanity's Last Exam: The AI Benchmark for LLM Reasoning
บทความที่เกี่ยวข้อง

รีวิว ChatGPT Pro จ่ายแพงขึ้น 5 เท่า แพลนราคา 100 ดอลลาร์นี้เหมาะกับใคร
OpenAI เปิดตัวแพลนใหม่ ChatGPT Pro ราคา 100 ดอลลาร์ต่อเดือน จ่ายแพงกว่าเดิม 5 เท่า แลกกับโควตาที่มากขึ้น แพลนนี้เหมาะกับใครและควรจ่ายไหม


ความคิดเห็น
ยังไม่มีความคิดเห็น เป็นคนแรกที่แสดงความเห็น!