LucidML เสกภาพนิ่งใบเดียวให้กลายเป็นเกมที่เดินเล่นได้ · แล้วรันบนการ์ดจอเครื่องบ้าน RTX 5090 ได้เอง
LucidML สอนโมเดล AI ให้รับภาพนิ่งหนึ่งใบ แล้วสร้างต่อเป็นเกมที่เดินเล่นได้จริง คุมด้วยแป้นพิมพ์ สิ่งที่เปลี่ยนรอบนี้คือมันไม่ต้องรันบน datacenter อีกต่อไป · การ์ดจอเครื่องบ้านอย่าง RTX 5090 ก็รันได้เอง

LucidML คือโปรเจกต์วิจัย AI ที่หยิบภาพหน้าจอจากเกม GTA5 มาหนึ่งใบ แล้วทำให้มันเดินเล่นต่อได้จริงด้วยการกดแป้นพิมพ์ · กดปุ่มเดินหน้า ตัวละครในภาพนั้นก็เดินต่อไปข้างหน้า โมเดลสร้างฉากที่ยังไม่เคยอยู่ในภาพขึ้นมาสด ๆ ทีละเฟรม · นี่ไม่ใช่คลิปที่อัดไว้ก่อน และไม่มีไฟล์เกมจริงอยู่เบื้องหลังเลยสักไฟล์ ทุกเฟรมคือโมเดล AI กำลังวาดภาพถัดไปให้ดูแบบเรียลไทม์
สิ่งที่ LucidML สร้างขึ้นเรียกว่า Realtime World Model · เป็นโมเดลที่รับภาพจากเกมเข้าไป แล้วสร้างฉากต่อเนื่องออกมาเองทีละเฟรม โดยไม่ต้องมี physics engine หรือ game engine มาคอยคำนวณให้ · ประเด็นที่ทำให้รอบนี้น่าสนใจกว่าเดิมไม่ได้อยู่แค่ว่ามันทำได้ แต่อยู่ตรงที่มันรันบนการ์ดจอเครื่องบ้านอย่าง RTX 5090 ได้เอง ไม่ต้องส่งงานขึ้นคลาวด์หรือ datacenter เลย
โมเดลที่สร้าง "โลก" ไม่ใช่แค่ภาพ
คำว่า world model ฟังดูเป็นศัพท์เทคนิค แต่ความหมายตรงตัวกว่าที่คิด · โมเดลสร้างภาพทั่วไปทำได้แค่วาดรูปนิ่งหนึ่งใบจากคำสั่ง · ส่วน world model ต้องเข้าใจมากกว่านั้น มันต้องรู้ว่าถ้ากดเดินหน้า ฉากควรเลื่อนไปทางไหน · ถ้ามีกำแพงอยู่ตรงหน้า ตัวละครควรชนแล้วหยุด ไม่ใช่ทะลุผ่าน
พูดง่ายๆ คือมันต้องจำลอง "โลก" ที่มีกฎของมันเอง ไม่ใช่แค่ภาพสวยๆ หนึ่งเฟรม · และ LucidML สร้างโลกแบบนั้นขึ้นมาจากภาพเกมล้วนๆ โดยที่ไม่มีใครเขียนกฎฟิสิกส์ใส่เข้าไปเลย
ทำไมการ "รันบนเครื่องตัวเอง" ถึงเป็นเรื่องใหญ่
ที่ผ่านมา โมเดลสร้างโลกเกมแบบนี้เป็นของที่กินทรัพยากรหนักมาก · ต้องรันบนเครื่องเซิร์ฟเวอร์ระดับ datacenter ที่มีการ์ดจอเรียงกันหลายสิบใบ · นั่นแปลว่าคนทั่วไปได้แค่ดูเดโม่ที่เขาอัดมาให้ ไม่มีทางเอามารันเองที่บ้าน
จุดเปลี่ยนของ LucidML คือ World Model v1 ที่ทีมทำให้รันบน RTX 5090 ตัวเดียวได้เมื่อ Jan 2026 · การ์ดจอใบนี้แรงก็จริง แต่มันคือการ์ดที่คนเล่นเกมหรือนักพัฒนาซื้อมาประกอบกับเครื่องบนโต๊ะได้ ไม่ใช่อุปกรณ์เฉพาะของศูนย์ข้อมูล · เส้นแบ่งระหว่าง "ของที่ต้องเช่าคลาวด์เท่านั้น" กับ "ของที่รันเองได้" เลื่อนเข้ามาใกล้ตัวเราขึ้นอีกก้าวหนึ่ง
ทำงานคล้าย LLM มากกว่าที่คิด

วิธีที่ LucidML สร้างเฟรมถัดไป คล้ายกับวิธีที่โมเดลภาษาอย่าง LLM เดาคำถัดไป · LLM อ่านข้อความที่มีอยู่ แล้วเดาคำถัดไปทีละคำต่อกันไปเรื่อยๆ · ส่วน LucidML ก็ดูเฟรมก่อนหน้ากับปุ่มที่เรากด แล้วสร้างเฟรมถัดไปทีละเฟรมต่อกันไปแบบเดียวกัน · วิธีสร้างผลลัพธ์ทีละขั้นโดยอิงจากสิ่งที่มีอยู่ก่อนหน้าแบบนี้เรียกว่า autoregressive
แต่การสร้างทีละเฟรมมีปัญหาอยู่อย่างหนึ่ง · ถ้าทุกครั้งโมเดลต้องคำนวณทุกอย่างใหม่หมดตั้งแต่ต้น มันจะช้าเกินกว่าจะเรียลไทม์ได้ · ทางแก้คือสิ่งที่เรียกว่า KV cache ซึ่งก็เป็นเทคนิคเดียวกับที่ LLM ใช้ · มันเก็บส่วนที่คำนวณไปแล้วและไม่เปลี่ยนเอาไว้ แล้วหยิบกลับมาใช้ซ้ำแทนที่จะคิดใหม่ทุกรอบ · พอไม่ต้องเริ่มจากศูนย์ทุกเฟรม ความเร็วจึงพอจะทันการกดปุ่มของคนเล่น
เบื้องหลังตัวสร้างภาพคือสถาปัตยกรรมที่เรียกว่า diffusion transformer · LucidML เลือกออกแบบให้เป็นลูกผสมระหว่าง convolution กับ transformer แทนที่จะเป็น transformer ล้วน · เหตุผลตรงไปตรงมา คือ transformer ล้วนจับรายละเอียดเฉพาะจุดในภาพได้ยากเมื่อมีงบคอมพิวต์จำกัด · การใส่ convolution เข้าไปช่วยให้โมเดลเห็นรายละเอียดในบริเวณใกล้ ๆ กันของภาพได้ดีขึ้น
ฟิสิกส์ที่ไม่มีใครเขียนกฎให้
จุดที่ทำให้ LucidML ต่างจากเกมปกติชัดที่สุด คือทีมบอกไว้เองว่าไม่มี physics engine และไม่มี rigid body simulator ใดๆ ทั้งสิ้น · พฤติกรรมทางฟิสิกส์ทั้งหมดนี้ โมเดลเรียนรู้เอาเองจากวิดีโอล้วนๆ โดยมีภาพจาก GTA เป็นหลัก
ผลคือโมเดลทำสิ่งที่ไม่มีใครสอนตรงๆ ได้ · มันรู้จักการชนแล้วหยุด (collision) · รู้ว่าพื้นผิวแบบไหนเดินได้หรือไม่ได้ (terrain) · เข้าใจแรงเฉื่อยตอนตัวละครเคลื่อนที่ (momentum) · และแยกออกว่าตัวละครกับฉากรอบข้างมีความสัมพันธ์กันยังไง · ทั้งหมดนี้ไม่ได้มาจากบรรทัดโค้ดที่กำหนดกฎ แต่โผล่ขึ้นมาเองจากการดูภาพจำนวนมหาศาล
ไม่มี physics engine ไม่มี rigid body simulator · พฤติกรรมเหล่านี้โมเดลซึมซับมาจากวิดีโอล้วนๆ
ไปได้ไกลเกินกว่า GTA
รอบแรกที่โปรเจกต์นี้เป็นข่าว มันยังเล่นได้แค่ในโลกของ GTA · แต่อัปเดตรอบนี้น่าจับตามากกว่า เพราะตอนนี้โมเดลขยับไปสร้างฉากของเกมอื่นที่ไม่ได้ฝึกมาโดยตรงได้แล้ว · มันรองรับเกมที่หน้าตาต่างกันลิบลับอย่าง Assassin's Creed ทั้ง Origins, Valhalla และ Odyssey · รวมถึง The Witcher 3 และ Cyberpunk 2077
ความหมายของเรื่องนี้ไม่ใช่แค่ "เล่นได้หลายเกมขึ้น" · เกมเหล่านี้มีสไตล์ภาพ มุมกล้อง และบรรยากาศที่แตกต่างกันมาก · การที่โมเดลตัวเดียวเข้าใจโลกของเกมหลายแบบได้ แสดงว่ามันไม่ได้แค่จำภาพ GTA มาแปะ แต่เรียนรู้หลักการของการเคลื่อนที่ในโลกสามมิติที่ใช้ร่วมกันได้ในหลายฉาก
ส่วนที่ยังอยู่ระหว่างพัฒนา
เทคโนโลยีแบบนี้ยังไม่เสร็จสมบูรณ์ และทีมก็พูดเรื่องนี้ตรงไปตรงมา · World Model v1 คือก้าวแรกที่พิสูจน์ว่าแนวคิดนี้รันบนเครื่องบ้านได้ · ส่วน v2 ที่กำลังพัฒนาอยู่ในช่วง Q2 2026 ตั้งเป้าให้สร้างโลกจากภาพได้เสถียรขึ้นเมื่อเวลาผ่านไป คุมทิศทางได้แม่นขึ้น และเดินต่อไปได้ยาวขึ้นโดยฉากไม่เพี้ยน · ถัดจากนั้นคือ v3 ในช่วง Q3 2026 ที่ขยายไปสู่โลกที่จดจำสภาพแวดล้อมไว้ได้ต่อเนื่อง
ระหว่างทางก็มีของที่เป็นประโยชน์กับคนอื่นด้วย · ทีมปล่อยโมเดลสร้างภาพขนาดเล็กออกมาสองตัวเมื่อ Mar 2026 · ตัวเล็กชื่อ Tiny มีขนาด 420M พารามิเตอร์ · ตัวกลางชื่อ Medium มีขนาด 919M พารามิเตอร์ · ทั้งคู่เปิดให้คนอื่นนำไปวัดผลว่าคุณภาพอยู่ระดับไหนเมื่อเทียบกับค่าคอมพิวต์ที่ใช้ และจะเป็นฐานให้ world model รุ่นถัดไปต่อยอด
เรื่องที่น่าสังเกตคือทีมทำงานนี้ภายใต้งบที่จำกัด · ส่วนที่ต้องอ่านคำสั่งข้อความ พวกเขาเลือกตัวอ่านข้อความที่ชื่อ CLIP แทนตระกูล T5 เพราะ T5 มีต้นทุนสูงเกินงบ · ส่วนที่ต้องบีบอัดภาพให้โมเดลทำงานได้เร็ว ก็หยิบตัวบีบอัดภาพ (VAE) ของ Stable Diffusion ซึ่งเป็นโมเดลสร้างภาพโอเพนซอร์สที่มีคนทำไว้แล้วมาใช้ต่อ แทนที่จะฝึกขึ้นใหม่เองตั้งแต่ต้น · เรื่องนี้ย้ำว่างานวิจัยที่ดูล้ำขนาดนี้ ไม่ได้ต้องใช้ทรัพยากรระดับบริษัทยักษ์เสมอไป
เส้นแบ่งที่ขยับเข้ามาหาเรา

สิ่งที่ LucidML บอกเราจริงๆ ไม่ใช่ว่า "AI ทำเกมเองได้แล้ว" · เพราะมันยังเล่นต่อได้ไม่นาน ยังเพี้ยนได้ และยังอยู่ระหว่างพัฒนา · สิ่งที่มันบอกคือของที่เมื่อปีก่อนต้องมี datacenter ทั้งห้องถึงจะรันได้ วันนี้ย่อลงมาอยู่บนการ์ดจอใบเดียวบนโต๊ะได้แล้ว · และทุกครั้งที่เส้นแบ่งนั้นขยับ ของที่เคยเป็นของเฉพาะคนที่มีเซิร์ฟเวอร์ ก็ค่อยๆ กลายเป็นของที่คนธรรมดาหยิบมาลองเองได้
ที่มา: lucidml (หน้าโปรเจกต์) และ lucidml image tech report



