AI ทำงานยังไง? ตั้งแต่ LLM เปล่าๆ จนถึง MCP

VCT Agents·เรียบเรียงโดย Keerati Limkulphong4 มีนาคม 2569อ่าน 6 นาที12 ครั้ง

ลองนึกภาพว่าคุณมีเลขาส่วนตัวที่ฉลาดมาก พูดได้ทุกภาษา เขียนได้ทุกอย่าง แต่ถูกขังอยู่ในห้องที่ไม่มีโทรศัพท์ ไม่มีคอมพิวเตอร์ ไม่มีอินเทอร์เน็ต มีแค่ช่องส่งกระดาษเข้าออก

คุณเขียนโน้ตส่งเข้าไปว่า "ช่วยสรุปอีเมลวันนี้ให้หน่อย" แล้วได้กระดาษกลับมาเขียนว่า "ขออภัย ผมไม่สามารถเข้าถึงอีเมลของคุณได้"

นี่คือสิ่งที่ LLM เปล่าๆ เป็น ฉลาดแต่ทำอะไรไม่ได้

แต่ถ้าเราให้โทรศัพท์มัน ให้คอมพิวเตอร์มัน ให้มันต่อเน็ตได้ล่ะ? ทุกอย่างจะเปลี่ยนไป และนั่นคือสิ่งที่เกิดขึ้นจริงในวงการ AI ตอนนี้ บทความนี้จะพาคุณเข้าใจทุกอย่างตั้งแต่พื้นฐานจนถึงระบบที่ซับซ้อนที่สุด

บทความนี้เขียนสำหรับคนที่อยากเข้าใจจริงๆ ว่า AI Agent ทำงานยังไง ไม่ใช่แค่ใช้เป็น แต่เข้าใจว่าข้างในมันเกิดอะไรขึ้น

Part 1: LLM เปล่าๆ ทำอะไรได้

LLM หรือ Large Language Model คือโมเดล AI ที่ถูกเทรนมาเพื่อเข้าใจและสร้างภาษา มันอ่านข้อความที่คุณพิมพ์เข้าไป ประมวลผล แล้วสร้างข้อความตอบกลับ แค่นั้น ไม่มีอะไรมากกว่านี้

มันไม่สามารถเปิดเว็บได้ อ่านอีเมลไม่ได้ สร้างไฟล์ไม่ได้ ค้นหาข้อมูลล่าสุดไม่ได้ ทุกอย่างที่มันรู้คือสิ่งที่ถูกเทรนมาก่อนหน้านี้เท่านั้น

Diagram: LLM แบบปกติไม่มี Tools - รับข้อความแล้วสร้างข้อความตอบกลับ

จาก diagram จะเห็นชัดเจน LLM เปล่าๆ ทำได้แค่รับข้อความแล้วสร้างข้อความตอบ ไม่มีทางเชื่อมต่อกับโลกภายนอกได้เลย ไม่ว่าจะถามอะไรที่ต้องเข้าถึงข้อมูลจริง คำตอบจะเป็น "ทำไม่ได้" เสมอ

LLM เปล่าๆ เหมือนอัจฉริยะที่ถูกขังในห้อง รู้ทุกอย่างที่เคยอ่าน แต่ไม่รู้อะไรเลยที่เกิดขึ้นข้างนอก

Part 2: Tool Use Loop ให้ LLM "ลงมือทำ" ได้

ถ้า LLM เปล่าๆ เหมือนคนฉลาดที่ถูกขังในห้อง แล้วเราจะปลดโซ่ตรวนมันยังไง?

คำตอบคือ Tool Use หรือที่บางคนเรียกว่า Function Calling เป็นกลไกที่ให้ LLM สามารถ "สั่งงาน" ระบบภายนอกได้ แทนที่จะแค่ตอบเป็นข้อความ LLM จะส่งคำสั่งพิเศษออกมาบอกว่า "ผมอยากเรียกฟังก์ชันนี้ ด้วย parameter นี้"

หลักการทำงานมี 4 ขั้นตอนที่วนลูปจนกว่างานจะเสร็จ

ขั้นที่ 1: User ส่งคำสั่งเข้ามา เช่น "สรุปอีเมลวันนี้" LLM รับคำสั่งแล้ววิเคราะห์ว่าต้องทำอะไรบ้าง

ขั้นที่ 2: LLM ตัดสินใจเองว่าต้องเรียก tool ไหน แล้วส่ง tool_call request ออกมา เช่น gmail.search({query: "today"}) ตรงนี้สำคัญมาก เพราะ LLM เลือกเองว่าจะใช้ tool ไหน ไม่ใช่มนุษย์สั่ง

ขั้นที่ 3: System รับ tool_call แล้วไป execute จริงๆ ได้ผลลัพธ์กลับมาเป็น tool_result ส่งคืนให้ LLM

ขั้นที่ 4: LLM อ่าน result แล้วตัดสินใจอีกครั้ง ถ้ายังไม่เสร็จก็วนลูปกลับไปขั้นที่ 2 ถ้าเสร็จแล้วก็สรุปคำตอบส่งให้ User

สิ่งที่ทำให้ Tool Use ต่างจากโปรแกรมทั่วไปคือ LLM ตัดสินใจเองทุกขั้นตอน มันไม่ได้ทำตามสคริปต์ที่เขียนไว้ล่วงหน้า แต่คิดเองว่าต้องทำอะไรต่อ

Diagram: Tool Use Loop - Agentic Loop วนจนกว่างานจะเสร็จ

วงจรนี้เรียกว่า Agentic Loop เป็นหัวใจของ AI Agent ทุกตัวในปัจจุบัน ไม่ว่าจะเป็น ChatGPT, Claude หรือ Gemini ล้วนใช้หลักการเดียวกันหมด แต่ปัญหาคือ ถ้าทุกบริษัทต้องสร้าง tool connector เองทั้งหมด มันจะวุ่นวายมาก

Part 3: MCP คือ USB-C ของ AI Tools

ลองนึกภาพยุคก่อนที่จะมี USB-C ทุกอุปกรณ์ใช้สายชาร์จคนละแบบ iPhone ใช้ Lightning, Samsung ใช้ Micro USB, Laptop ใช้สายอีกแบบ วุ่นวายมาก

ปัญหาเดียวกันเกิดขึ้นในโลก AI ก่อนหน้านี้ ChatGPT สร้าง plugin system ของตัวเอง Claude มี tool format ของตัวเอง Gemini ก็อีกแบบ ถ้าคุณเป็นนักพัฒนาที่อยากให้บริการของคุณต่อกับ AI ได้ คุณต้องสร้าง connector แยกสำหรับแต่ละ AI ซึ่งเป็นฝันร้าย

MCP หรือ Model Context Protocol คือมาตรฐานกลางที่แก้ปัญหานี้ เปิดตัวโดย Anthropic ในปลายปี 2024 เป็น open protocol ที่กำหนดวิธีการสื่อสารระหว่าง AI กับ external tools ให้เป็นภาษาเดียวกัน

MCP ทำให้การเชื่อมต่อ AI กับบริการต่างๆ เป็นแบบ "เขียนครั้งเดียว ใช้ได้ทุกที่" เหมือน USB-C ที่สายเส้นเดียวต่อได้ทุกอุปกรณ์

สถาปัตยกรรมของ MCP มี 3 ส่วนหลัก

MCP Host: คือแอปพลิเคชันที่ user ใช้งาน เช่น Claude Desktop, VS Code หรือ IDE ต่างๆ ข้างในจะมี LLM กับ MCP Client ทำงานร่วมกัน

MCP Client: คือตัวกลางที่จัดการการสื่อสาร รับ tool_call จาก LLM แล้วส่งไปยัง Server ที่ถูกต้อง แล้วส่ง result กลับมา

MCP Server: คือตัวเชื่อมต่อกับบริการภายนอก แต่ละ Server ดูแลบริการเดียว เช่น Gmail Server, Google Drive Server, Slack Server แต่ละตัวบอกได้ว่ามี tools อะไรบ้างให้ใช้

ทุกส่วนสื่อสารกันผ่าน JSON-RPC 2.0 ซึ่งเป็นมาตรฐานที่เรียบง่ายและรองรับทั้ง stdio (สำหรับ local) และ SSE (สำหรับ remote)

Diagram: MCP Architecture - เปรียบเทียบก่อนและหลังมี MCP พร้อม Host/Client/Server

ข้อดีของ MCP คือความเรียบง่าย นักพัฒนาสร้าง MCP Server สำหรับบริการของตัวเองแค่ครั้งเดียว แล้ว AI ทุกตัวที่รองรับ MCP ก็สามารถใช้งานได้ทันที ไม่ต้องเขียน plugin แยกสำหรับแต่ละ AI อีกต่อไป

Part 4: ตัวอย่างจริง ดูทุก Step ที่เกิดขึ้น

ทฤษฎีพอแล้ว มาดูตัวอย่างจริงกัน สมมติคุณพิมพ์แค่ประโยคเดียวว่า "สรุปอีเมลวันนี้แล้วสร้าง Excel" แล้วอะไรจะเกิดขึ้นข้างหลัง?

Sequence Diagram ด้านล่างแสดงทุก step ที่เกิดขึ้นจริงระหว่าง 4 ตัวละคร ได้แก่ User, LLM, MCP Client และ Gmail Server

Diagram: Sequence - ตัวอย่างจริง สรุปอีเมลวันนี้แล้วสร้าง Excel แสดง 12 steps

สังเกตว่า User พิมพ์แค่ประโยคเดียว แต่เบื้องหลัง LLM ทำงานไป 12 ขั้นตอน เรียก tool มากกว่า 13 ครั้ง อ่านอีเมลทีละฉบับ วิเคราะห์เนื้อหา สร้างไฟล์ Excel แล้วรายงานผลกลับมา ทั้งหมดนี้เกิดขึ้นอัตโนมัติโดยที่ User ไม่ต้องทำอะไรเพิ่มเลย

นี่คือสิ่งที่เรียกว่า Agentic AI มันไม่ใช่แค่ chatbot ที่ตอบคำถาม แต่เป็นตัวแทนที่ลงมือทำงานจริงให้คุณ

สรุป: จาก LLM เปล่าๆ สู่ AI Agent เต็มรูปแบบ

ถ้าจะสรุปทั้งหมดให้กระชับที่สุด LLM เปล่าๆ คือสมองที่ไม่มีมือ Tool Use คือการให้มือให้เท้ามัน และ MCP คือมาตรฐานที่ทำให้มือเท้าเหล่านั้นต่อเข้ากับทุกอย่างได้อย่างเป็นระเบียบ

สิ่งที่น่าตื่นเต้นคือ MCP เป็น open protocol ทุกคนสามารถสร้าง MCP Server ของตัวเองได้ ไม่ว่าจะเป็นบริการอะไร ถ้ามี API ก็ครอบ MCP ได้ แล้ว AI ทุกตัวที่รองรับ MCP ก็จะใช้งานได้ทันที

เราอยู่ในจุดที่ AI กำลังเปลี่ยนจาก "เครื่องมือที่เราต้องบอกทุกขั้นตอน" ไปเป็น "ผู้ช่วยที่เข้าใจเป้าหมายแล้วหาทางทำให้สำเร็จเอง" และ MCP คือโครงสร้างพื้นฐานที่ทำให้สิ่งนี้เป็นไปได้