Meta เพิ่งสร้างสิ่งที่นักวิทยาศาสตร์ใฝ่ฝันมาตลอด นั่นคือ "ฝาแฝดดิจิทัล" ของการทำงานของสมองมนุษย์ที่แม่นยำจนน่าขนลุก ข้อมูลล่าสุดบอกว่า AI ตัวนี้สามารถทำนายได้ว่าสมองของคุณจะ "สว่าง" ขึ้นตรงไหนบ้างเวลาดูหนังหรือฟังเพลง โดยที่ความแม่นยำของมันสูงกว่าการเอาคนจริงๆ เข้าไปนอนในเครื่องสแกนสมองด้วยซ้ำ

คุณอ่านไม่ผิดครับ ในการทดสอบกับชุดข้อมูล Human Connectome Project พบว่าการทำนายของ AI ตัวนี้มีความสอดคล้องกับการทำงานของสมองกลุ่มตัวอย่าง สูงเป็น 2 เท่าเมื่อเทียบกับผลสแกนจริงของคนคนเดียว นั่นหมายความว่า AI สามารถตัด "เสียงรบกวน" (noise) ของร่างกายมนุษย์ออกไป และมองเห็นรูปแบบพื้นฐานของการประมวลผลในสมองเราได้อย่างชัดเจนกว่าที่เครื่องมือแพทย์ทั่วไปจะทำได้

นี่คือก้าวสำคัญที่ Meta บอกว่าจะเปลี่ยนวงการประสาทวิทยาไปตลอดกาล เหมือนกับที่ AlphaFold เคยทำไว้กับวงการโปรตีน ผมขุดข้อมูลมาให้แล้วว่ามันทำงานยังไง และทำไมเราถึงต้องเริ่มกังวลเรื่องความเป็นส่วนตัวของ "ความคิด" กันได้แล้ว


futuristic human brain glowing with digital data particles
futuristic human brain glowing with digital data particles (Ruiqi Kong on Unsplash)

จากภาพมัวๆ สู่ความละเอียดระดับ 4K ในสมอง

โมเดลนี้มีชื่อว่า TRIBE v2 ย่อมาจาก TRImodal Brain Encoder รุ่นที่ 2 ซึ่งพัฒนาโดยทีม FAIR หรือทีมวิจัย AI ฝ่ายบุ๋นของ Meta สิ่งที่น่าตกใจที่สุดคือการกระโดดของความละเอียดในการมองเห็นสมองครับ

ถ้าเปรียบการสแกนสมองเป็นเหมือนการสร้างแผนที่ ในรุ่นแรก (TRIBE v1) AI ตัวนี้มองเห็นความละเอียดของสมองแค่ 1,000 จุด หรือที่ในทางเทคนิคเรียกว่า Voxel (มันคือ Pixel แบบ 3 มิติในสมอง) แต่พอมาเป็นรุ่น v2 นี้ Meta พัฒนาให้มันมองเห็นได้ถึง 70,000 จุด เพิ่มขึ้นถึง 70 เท่าในเวลาเพียงไม่นาน

"มันเหมือนการเปลี่ยนจากทีวีจอแก้วยุคเก่า มาเป็นหน้าจอความละเอียดสูงระดับ 4K ที่เราเห็นทุกรูขุมขนของการทำงานในสมอง"

ตัวเลข 70,000 Voxel นี้ไม่ได้ใส่มาเท่ๆ แต่มันครอบคลุมแทบทุกส่วนสำคัญในสมองมนุษย์ ทำให้ AI ไม่ได้มองแค่จุดใดจุดหนึ่ง แต่มองเห็น "โครงข่าย" ทั้งหมดที่ทำงานประสานกันเวลาคุณได้รับข้อมูลจากโลกภายนอก


สูตรลับ 3 ช่องสัญญาณ: เมื่อ AI มีหู มีตา และมีความคิด

ทำไมต้องเรียกว่า Trimodal? คำตอบคือมันรับข้อมูลขาเข้าได้ 3 รูปแบบ (Modalities) พร้อมกันครับ Meta ไม่ได้เขียนโค้ดใหม่ทั้งหมด แต่เขาฉลาดพอที่จะเอา "ขุนพล" เก่งๆ 3 ตัวที่เขามีอยู่แล้วมารวมร่างกัน

หนึ่งคือ Video-JEPA-2 สำหรับทำความเข้าใจภาพเคลื่อนไหว สองคือ Wav2Vec-Bert-2.0 สำหรับฟังเสียง และสามคือ Llama 3.2 สำหรับถอดรหัสภาษา ลองนึกภาพว่าสมองคุณมีทีวีเปิดอยู่ 3 ช่องพร้อมกัน ช่องหนึ่งภาพ ช่องหนึ่งเสียง ช่องหนึ่งซับไตเติ้ล TRIBE v2 คือคนที่นั่งดูทั้ง 3 ช่องนี้แล้วบอกได้ว่าสมองคุณจะรู้สึกยังไง

ผมว่าจุดที่เจ๋งที่สุดคือตอนที่ข้อมูลทั้ง 3 อย่างนี้วิ่งมาเจอกันในบริเวณสมองที่เรียกว่า Multisensory Junction หรือจุดเชื่อมต่อประสาทสัมผัส การที่ AI ใช้ข้อมูลครบทั้ง 3 ช่อง ทำให้มันทำนายแม่นขึ้นกว่าการใช้ข้อมูลแค่ทางเดียวถึง 50% เลยทีเดียว

abstract visualization of three data streams merging into a human brain profile
abstract visualization of three data streams merging into a human brain profile (pompom art on Unsplash)

ทำนายสมองคนแปลกหน้าได้ทันที โดยไม่ต้องสแกน

เรื่องนี้ผมอ่านแล้วขนลุกของจริง คือสิ่งที่เรียกว่า Zero-shot capability ปกติแล้วถ้าเราจะทำนายสมองใคร เราต้องเอาคนนั้นไปนอนในอุโมงค์ fMRI (เครื่องสร้างภาพด้วยสนามแม่เหล็กไฟฟ้า) นานหลายชั่วโมงเพื่อให้ AI เรียนรู้ลักษณะเฉพาะของคนคนนั้น

แต่ TRIBE v2 ก้าวข้ามจุดนั้นไปแล้วครับ มันถูกฝึกด้วยข้อมูลจากอาสาสมัครกว่า 720 คน และชั่วโมงการสแกนกว่า 1,115 ชั่วโมง จนมันเข้าใจ "กฎเกณฑ์สากล" ของสมองมนุษย์ ตอนนี้มันสามารถทำนายการตอบสนองของสมองคนที่ไม่เคยเจอกันมาก่อนได้ทันที โดยไม่ต้องไปนอนสแกนซ้ำ

"โดยไม่ต้องฝึกใหม่แม้แต่นิดเดียว TRIBE v2 สามารถทำนายการตอบสนองของสมองคนแปลกหน้าได้แม่นยำกว่าวิธีเดิมๆ ถึง 2-3 เท่า"

นี่คือเหตุผลที่ Meta กล้าเรียกสิ่งนี้ว่า In-silico neuroscience หรือการทำประสาทวิทยาในคอมพิวเตอร์ ต่อไปนี้นักวิจัยอาจจะสามารถรันการทดลองกับ "สมองจำลอง" นับพันครั้งได้ภายในไม่กี่วินาที แทนที่จะต้องใช้เงินมหาศาลจ้างอาสาสมัครมานอนสแกนสมองจริงๆ


มันรู้กระทั่งว่าคุณเจ็บปวด "ทางกาย" หรือ "ทางใจ"

ความลึกของ TRIBE v2 คือมันไม่ได้แค่บอกว่าสมองซีกซ้ายหรือขวาทำงาน แต่มันแยกแยะอารมณ์ที่ซับซ้อนได้ด้วย ในรายงานระบุว่าโมเดลนี้สามารถระบุพื้นที่เฉพาะที่จัดการกับ ใบหน้า สถานที่ ร่างกาย หรือแม้แต่ตัวอักษรได้อย่างถูกต้อง

ที่น่าทึ่งไปกว่านั้นคือมันสามารถแยกแยะระหว่าง การประมวลผลความเจ็บปวดทางกาย (Physical Pain) กับความเจ็บปวดทางอารมณ์ (Emotional Pain) ได้อย่างแม่นยำ รวมถึงเห็นการทำงานของสมองซีกซ้ายที่เด่นชัดเวลาเราอ่านประโยคที่มีความหมาย เทียบกับการอ่านแค่รายการคำที่เอามาวางต่อกันเฉยๆ

นอกจากนี้ AI ยังค้นพบเครือข่ายหลัก 5 รูปแบบในสมองเราเองโดยที่ไม่มีใครบอก ทั้งเรื่องการได้ยิน ภาษา การเคลื่อนไหว ความจำ และการมองเห็น ซึ่งข้อมูลเหล่านี้ตรงเป๊ะกับสิ่งที่นักประสาทวิทยาค้นพบมาตลอดหลายสิบปี


ดาบสองคม: เมื่อ Meta รู้ว่าปุ่มไหนในหัวคุณสว่าง

ถ้าถามผม เรื่องนี้มีทั้งด้านที่น่าตื่นเต้นและด้านที่น่ากลัวครับ ในแง่ดี มันจะช่วยให้เราสร้างเครื่องมือสื่อสารสำหรับผู้ป่วยที่ไม่สามารถพูดได้ หรือช่วยหาวิธีรักษาโรคทางระบบประสาทได้เร็วขึ้นมาก

แต่ในอีกมุมหนึ่ง Meta คือบริษัทที่ครองโซเชียลมีเดียอันดับต้นๆ ของโลก การที่เขามีโมเดลที่รู้ว่าภาพแบบไหน เสียงแบบไหน หรือประโยคแบบไหน จะไปกระตุ้นสมองส่วนไหนของคุณได้แม่นยำที่สุด มันคือเครื่องมือชั้นยอดในการออกแบบคอนเทนต์ให้อยู่หมัด หรือที่แย่กว่านั้นคือการกระตุ้นอารมณ์บางอย่างผ่านหน้าจอ

อย่างไรก็ตาม ตอนนี้ Meta ปล่อยโมเดลนี้ออกมาภายใต้ลิขสิทธิ์ CC BY-NC ซึ่งเป็นแบบไม่แสวงหากำไร และเปิดโค้ดให้คนทั่วไปเข้าไปดูได้บน GitHub รวมถึงปล่อยน้ำหนักของโมเดล (Weights) บน HuggingFace เพื่อให้นักวิจัยทั่วโลกช่วยกันพัฒนาต่อ

"เรากำลังก้าวเข้าสู่ยุคที่ความเป็นส่วนตัวไม่ได้หยุดอยู่แค่ที่หน้าจอ แต่อาจหมายถึงสิ่งที่เกิดขึ้นภายในกะโหลกศีรษะของเราด้วย"

แน่นอนว่ามันยังมีข้อจำกัดครับ อย่างเช่นมันยังรับรู้ได้แค่ 3 สัมผัส (ยังไม่เข้าใจเรื่องกลิ่น รสชาติ หรือการสัมผัส) และ fMRI เองก็เป็นการวัดทางอ้อมผ่านการไหลเวียนของเลือด ซึ่งมีความล่าช้าเป็นวินาที ไม่ใช่การวัดกระแสไฟฟ้าในเส้นประสาทโดยตรงแบบเรียลไทม์

แต่จากสถิติที่ผ่านมา ความแม่นยำของ TRIBE v2 ยังคงเพิ่มขึ้นเรื่อยๆ ตามปริมาณข้อมูลที่ใส่เข้าไปโดยที่ยังไม่เห็นจุดอิ่มตัว นี่คือ Scaling Laws ของจริงที่เคยทำให้ ChatGPT เก่งขึ้นมาแล้ว และตอนนี้มันกำลังเกิดขึ้นกับการจำลองสมองมนุษย์

ถ้าถามผมว่าเราควรทำยังไง? ผมว่าอย่าเพิ่งตื่นตระหนก แต่นี่คือเวลาที่เราควรจับตามองอย่างใกล้ชิดครับ เพราะเส้นกั้นระหว่างความฉลาดของมนุษย์กับอัลกอริทึม กำลังจะจางลงเรื่อยๆ จนเราอาจแยกไม่ออกในเร็วๆ นี้

แหล่งอ้างอิง