โมเดล AI ตัวเล็กรู้มากกว่าที่บอกออกมา · Competence Gate คือ LoRA 10MB ที่อ่านสัญญาณความมั่นใจที่แท้จริงจากภายในโมเดล

Competence Gate คือ LoRA จิ๋วขนาด 10MB ที่อ่านสัญญาณความมั่นใจที่แท้จริงจากภายในโมเดล Qwen3.5-4B แทนที่จะเชื่อสิ่งที่โมเดลพูดออกมา เมื่อรู้ระดับความมั่นใจที่แท้จริงของตัวเอง โมเดลก็ตัดสินเองได้ว่าเมื่อไหร่ควรตอบ เมื่อไหร่ควรค้นเว็บ และเมื่อไหร่ควรบอกตรง ๆ ว่ายังยืนยันไม่ได้

5 กรกฎาคม 2569 · 9 นาที

โมเดล AI ตัวเล็กรู้มากกว่าที่บอกออกมา · Competence Gate คือ LoRA 10MB ที่อ่านสัญญาณความมั่นใจที่แท้จริงจากภายในโมเดล — Competence Gate · adapter 10MB ที่ให้โมเดลตัวเล็กรู้ตัวว่าเมื่อไหร่ควรบอกว่าไม่รู้

Competence Gate คือ LoRA จิ๋วขนาด 10MB (ส่วนเสริมเล็ก ๆ ที่แปะทับโมเดลเดิมได้โดยไม่ต้องเทรนใหม่ทั้งตัว) สอนโมเดล AI ตัวเล็กให้ "รู้ตัว" ว่าเมื่อไหร่ควรตอบ เมื่อไหร่ควรค้นเว็บ และเมื่อไหร่ควรบอกตรง ๆ ว่ายังไม่รู้ ตัวนี้ใช้กับ Qwen3.5-4B ซึ่งเป็นโมเดลโอเพนตัวเล็กที่รันในเครื่องตัวเองได้

ปัญหาที่มันพยายามแก้เป็นเรื่องที่ทุกคนน่าจะเคยเจอ นั่นคือ AI ตอบผิดด้วยน้ำเสียงมั่นใจเต็มร้อย แล้วเราจับไม่ทันว่าอันไหนจริงอันไหนมั่ว ยิ่งเป็นโมเดลตัวเล็กที่รันเองในเครื่อง อาการนี้ยิ่งชัด เพราะมันแทบไม่มีทางบอกเราตรง ๆ ว่าคำตอบไหนที่มันไม่มั่นใจ Competence Gate เลือกแก้ปัญหานี้จากอีกมุมหนึ่ง แทนที่จะเชื่อสิ่งที่โมเดลพูด มันไปอ่าน "ความมั่นใจจริง" ที่ซ่อนอยู่ข้างในโมเดลแทน

ปัญหาไม่ใช่โมเดลไม่รู้ แต่มันบอกไม่ได้ว่าไม่รู้

ทางออกที่ฟังดูง่ายที่สุดคือถามโมเดลกลับตรง ๆ ว่า "ที่ตอบมาเนี่ย มั่นใจแค่ไหน" แต่วิธีนี้ไม่เวิร์ก

ก่อนทำโปรเจกต์นี้ ผู้สร้างเคยทดสอบโมเดล instruct (โมเดลที่ฝึกให้รับคำสั่งแล้วโต้ตอบเป็นบทสนทนา) ตัวเล็กมาแล้วเจ็ดตัว ตั้งแต่ขนาด 3B ถึง 9B ผลออกมาเหมือนกันหมด ทุกตัวชน "เพดานความมั่นใจ" คือไม่ว่าจะเป็นคำถามที่มันรู้จริงหรือเดา มันก็บอกว่ามั่นใจสูงพอ ๆ กันหมด พูดง่าย ๆ คือความมั่นใจที่โมเดลบอกเป็นคำพูดแทบไม่ได้บอกอะไรเราเลยว่าคำตอบนั้นน่าเชื่อถือแค่ไหน

ปัญหาจริงจึงไม่ใช่ว่าโมเดลไม่รู้ตัวว่าตัวเองไม่รู้ แต่อยู่ที่ว่ามันเรียบเรียงออกมาเป็นคำพูดไม่ได้

ความมั่นใจจริงซ่อนอยู่ข้างในโมเดล

ภาพภูเขาน้ำแข็ง: ยอดเล็ก ๆ เหนือน้ำคือระดับความมั่นใจที่โมเดลบอก ส่วนมวลใหญ่ใต้น้ำคือสัญญาณความมั่นใจภายในที่ซ่อนอยู่ — ระดับความมั่นใจที่โมเดลบอกมาเกือบเท่ากันทุกคำถาม จึงเชื่อไม่ได้ ส่วนสัญญาณที่บอกได้จริงว่ารู้จริงหรือกำลังเดา ซ่อนอยู่ข้างในตอนโมเดลกำลังคิด

แล้วถ้าคำพูดของโมเดลเชื่อไม่ได้ จะไปดูความมั่นใจจริงได้จากไหน คำตอบคือดูจากข้างในตัวโมเดลเอง

เวลาโมเดลประมวลผลคำถามหนึ่งข้อ มันสร้างค่าตัวเลขจำนวนมหาศาลขึ้นมาระหว่างทาง (เรียกว่า activations หรือสัญญาณภายในของโมเดล) งานวิจัยหลายชิ้นชี้ว่าสัญญาณพวกนี้มีข้อมูลซ่อนอยู่ว่าโมเดล "รู้จริง" หรือ "กำลังเดา" เพียงแต่พอโมเดลเรียบเรียงคำตอบออกมาเป็นประโยค ข้อมูลส่วนนี้ก็หายไป

Competence Gate จึงไม่ถามโมเดลว่ามั่นใจแค่ไหน แต่เข้าไปอ่านสัญญาณภายในนั้นตรง ๆ นี่คือแก่นของไอเดียนี้ ความมั่นใจที่ใช้ได้จริงไม่ได้อยู่ในสิ่งที่โมเดลพูด แต่อยู่ในสิ่งที่เกิดขึ้นข้างในตอนมันคิด

Competence Gate ตัดสินใจยังไงในแต่ละคำถาม

แผนภาพการตัดสินใจ เริ่มจากโหนดที่อ่านสัญญาณความมั่นใจภายใน แล้วแตกออกเป็นสี่ทางเลือกเรียงตามระดับความมั่นใจจากสูงไปต่ำ — เมื่ออ่านความมั่นใจจริงได้ โมเดลก็เลือกเองได้ว่าจะตอบเลย ค้นเว็บ ดึงจากเอกสารในเครื่อง หรือบอกตรง ๆ ว่ายังยืนยันไม่ได้ แทนที่จะมั่วทุกครั้ง

ตัว Competence Gate ประกอบด้วยสองส่วน ส่วนแรกคือ LoRA ขนาด 10MB ที่แปะทับ Qwen3.5-4B ส่วนที่สองคือตัวคุมเล็ก ๆ (orchestration layer) ที่คอยตัดสินใจว่าจะทำอะไรต่อ

พอมีคำถามเข้ามาหนึ่งข้อ ระบบจะอ่านสัญญาณความมั่นใจภายในแล้วเลือกได้สี่ทาง คือ ตอบเลยถ้ามั่นใจว่ารู้จริง ค้นเว็บถ้าเป็นเรื่องที่ต้องหาข้อมูลเพิ่ม ดึงจากเอกสารในเครื่องของผู้ใช้เองถ้าคำตอบน่าจะอยู่ในนั้น หรือปฏิเสธที่จะตอบถ้ายืนยันไม่ได้จริง ๆ

ที่น่าสนใจคือตอนมันเลือกดึงคำตอบจากเอกสาร มันไม่ได้แค่ให้คำตอบเฉย ๆ แต่จะอ้างอิงย่อหน้าที่เอาคำตอบมาแบบเป๊ะ ๆ (เช่นเขียนว่า report.md ¶2 หมายถึงไฟล์ report.md ย่อหน้าที่สอง) จากนั้นจะเช็กซ้ำว่าคำตอบอยู่ในย่อหน้านั้นจริง พร้อมโชว์แถบความมั่นใจกำกับไว้ด้วย ถ้าสุดท้ายยังยืนยันไม่ได้ มันจะบอกตรง ๆ ว่า "ยืนยันเรื่องนี้ไม่ได้" แทนที่จะแต่งคำตอบขึ้นมาเอง

มีอีกเวอร์ชันหนึ่งที่เพิ่มสัญญาณตัวที่สองเข้ามาเพื่อจับคำถามที่เป็นเรื่องส่วนตัวโดยเฉพาะ ตัวอย่างที่ผู้สร้างยกคือคำถามเกี่ยวกับเอกสารส่วนตัวของผู้ใช้เอง เช่น "ในใบสรุปการรักษาเขียนว่าอะไร" ระบบจะส่งคำถามทำนองนี้ไปค้นในเอกสารในเครื่อง แทนที่จะส่งไปค้นเว็บสาธารณะ ข้อมูลส่วนตัวจึงไม่หลุดออกไปข้างนอก

ได้อะไรจริง ๆ จากมัน

ตัวเลขต่อจากนี้ต้องอ่านด้วยความระวังนิดหนึ่ง เพราะทั้งหมดเป็นผลที่ผู้สร้างวัดเองแล้วเขียนเปิดเผยไว้ในโพสต์บน r/MachineLearning ไม่ใช่ผลที่มีคนอื่นทดสอบซ้ำอย่างเป็นอิสระ ถึงอย่างนั้นก็พอจะเห็นภาพว่าแนวคิดนี้ช่วยอะไรได้บ้าง

อย่างแรกคือมันจับคำตอบผิดของตัวเองได้ดีขึ้น เมื่อเทียบกับวิธีให้โมเดลฐานเรียกใช้เครื่องมือ ค่า d′ (ตัวชี้วัดว่าแยกคำตอบถูกออกจากคำตอบผิดได้ดีแค่ไหน) เพิ่มขึ้น 0.46 และในบรรดาเคสที่ Competence Gate เตือนว่าน่าจะผิดแต่โมเดลฐานปล่อยผ่านไป มีถึง 87% ที่เป็นคำตอบผิดจริง

อย่างที่สองคือเรื่องความเป็นส่วนตัว เวอร์ชันที่แยกคำถามส่วนตัวออกไปค้นในเครื่อง ช่วยลดอัตราที่คำถามส่วนตัวหลุดไปยังการค้นเว็บสาธารณะจาก 22% เหลือ 10%

หลักการที่เอาไปคิดต่อได้ แม้ไม่ได้ใช้ตัวนี้

ถึงจะยังไม่ได้เอา Competence Gate มาใช้จริง แนวคิดเบื้องหลังมันก็มีบทเรียนที่เอาไปคิดต่อได้อยู่สามข้อ

ข้อแรก อย่าเพิ่งเชื่อความมั่นใจที่โมเดลบอกออกมาเป็นคำพูด เพราะมันมักจะมั่นใจกับทุกอย่างเท่ากันหมด ข้อสอง สัญญาณที่บอกได้จริงว่าโมเดลรู้หรือเดามักอยู่ข้างในตัวโมเดล ไม่ใช่ในประโยคที่มันพิมพ์ออกมา ข้อสาม ถ้าเอาความมั่นใจจริงมาใช้ตัดสินว่าเมื่อไหร่ควรเรียกเครื่องมือ ดึงข้อมูลมายืนยัน หรือปฏิเสธ ระบบจะช่วยได้หลายอย่างพร้อมกัน ทั้งลดการมั่ว ลดการเรียกเครื่องมือเกินจำเป็น และช่วยเรื่องความเป็นส่วนตัว

ความมั่นใจที่ใช้ได้จริง ไม่ได้อยู่ในสิ่งที่โมเดลพูด แต่อยู่ในสิ่งที่เกิดขึ้นข้างในตอนมันคิด

ใครเหมาะจะใช้ แล้วเริ่มยังไง

คนที่น่าจะได้ประโยชน์ชัดที่สุดมีสามกลุ่ม ได้แก่ สายที่สร้าง agent (โปรแกรม AI ที่ทำงานเป็นขั้นตอนแทนเราได้) หรือระบบ RAG (การดึงข้อมูลจากเอกสารมาช่วยให้โมเดลตอบ) บนโมเดลตัวเล็ก คนที่รันโมเดลเองในเครื่อง และคนที่แคร์เรื่องข้อมูลส่วนตัว เพราะตัวนี้ทำงานในเครื่องได้โดยไม่ต้องพึ่งคลาวด์

ตัวโปรเจกต์เปิดให้โหลดทั้งไฟล์น้ำหนักโมเดล (พารามิเตอร์หลักของตัวโมเดล) โค้ด และ model card (เอกสารอธิบายตัวโมเดลและวิธีใช้) ภายใต้สัญญาอนุญาต Apache-2.0 จุดเริ่มที่ง่ายที่สุดคือเข้าไปที่หน้า Competence Gate บน Hugging Face (เว็บรวมโมเดล AI สำหรับดาวน์โหลด) แล้วเลือกไฟล์ให้ตรงกับเครื่องที่ใช้

ถ้าใช้ Mac ชิป Apple Silicon ให้รันผ่าน MLX ซึ่งเป็นเครื่องมือรันโมเดลบนชิปของ Apple ได้โดยตรง ส่วนใครที่ใช้ Ollama หรือ llama.cpp ซึ่งเป็นโปรแกรมรันโมเดล AI ในเครื่องอยู่แล้ว ก็มีไฟล์ GGUF (ฟอร์แมตไฟล์โมเดลสำหรับรันในเครื่อง) ให้โหลดไปใช้ต่อได้เลย จุดที่ต้องระวังมีอย่างเดียว คือเวลารันไฟล์ GGUF ต้องตั้งค่า --lora-scaled ...:8 ตามที่ผู้สร้างระบุ ตัวเลข 8 นี้เขาหามาจากการไล่ทดสอบ ถ้าตั้งเป็น 1 อะแดปเตอร์จะไม่ทำงานเลย พอตั้งถูกแล้ว เวอร์ชัน GGUF จะตัดสินใจได้ตรงกับเวอร์ชัน MLX

ข้อจำกัดที่ต้องพูดให้ครบ

เพื่อความแฟร์ ต้องบอกข้อจำกัดให้ครบด้วย

อย่างแรก นี่เป็นงานวิจัยของคนคนเดียว และผู้สร้างเองก็ย้ำว่าเป็นการเผยแพร่งานวิจัยแบบเปิดที่ผ่านการคัดกรองมาแล้ว แต่ยังเป็นงานสเกลเล็ก ไม่ใช่ผลิตภัณฑ์สำเร็จรูป ชุดทดสอบหลักมีแค่ 126 ข้อ และตัวเลขเรื่องความเป็นส่วนตัวมาจากแค่ 60 เคส ช่วงความเชื่อมั่นของตัวเลขหลายค่ายังกว้าง แปลว่าตัวเลขจริงอาจขยับได้อีกพอสมควร

อย่างที่สอง มันผูกกับ Qwen3.5-4B และอะแดปเตอร์ตัวนี้โดยเฉพาะ ไม่ใช่ปลั๊กอินสากลที่แปะกับโมเดลไหนก็ได้ทันที ผู้สร้างบอกว่าแนวคิดนี้น่าจะขยายไปใช้กับโมเดลอื่นและโมเดลที่ใหญ่กว่านี้ได้ (เขาเริ่มทดลองจาก SmolLM3-3B ก่อน) แต่ก็ยังเป็นแค่ "น่าจะ" ไม่ใช่สิ่งที่พิสูจน์แล้ว

อย่างที่ผู้สร้างสรุปไว้เอง gate ตัวนี้คุมแค่ว่าจะ "เชื่อโมเดลเมื่อไหร่" ไม่ได้ทำให้โมเดลรู้มากขึ้น มันยังติดข้อจำกัดและอคติทุกอย่างของ Qwen3.5-4B เหมือนเดิม ของแบบนี้ยังใหม่มาก ลองก่อนแล้วค่อยตัดสินใจเอาไปใช้จริงจะปลอดภัยกว่า

จริง ๆ แล้ว สิ่งที่ Competence Gate ทำไม่ใช่การทำให้โมเดลฉลาดขึ้น แต่เป็นการทำให้มันซื่อสัตย์กับสิ่งที่ตัวเองไม่รู้ และบางที ก้าวต่อไปของโมเดลตัวเล็กอาจไม่ได้อยู่ที่มันรู้เยอะขึ้น แต่อยู่ที่มันรู้ว่าเมื่อไหร่ควรหยุดแล้วไปหาคำตอบมายืนยันก่อน

ที่มา: โพสต์ Competence Gate: gating tool-use on a small model's internal confidence signal instead of its verbalised one · Qwen3.5-4B, open weights บน r/MachineLearning

explainers

ทีมผู้เขียน Vibe Coding Thailandvibecodingth

สอนใช้ AI กับงานจริงเป็นภาษาไทย ผ่านบทความ คอร์ส และเครื่องมือที่สร้างด้วย AI