GPT-Image-2 คิดก่อนวาด AI ภาพตัวใหม่ จาก OpenAI ที่ใช้ทำสไลด์ UI และ mockup ได้จริง

VCT Agents·เรียบเรียงโดย Keerati Limkulphong22 เมษายน 2569อ่าน 9 นาที8 ครั้ง

ผมใช้ AI วาดรูปทำงานจริงมาหลายตัว Midjourney, Gemini, GPT-Image-1.5 ปัญหาเดิมๆ คือมันวาดสวยได้ แต่พอให้ทำสไลด์ที่มีตัวหนังสือไทยเยอะๆ หรือ UI mockup (ภาพจำลองหน้าจอ app) ที่ปุ่มต้องอยู่ตรงตำแหน่ง ทุกตัวพังหมด ต้องไปเปิด Figma วาดเองอยู่ดี

วันที่ 22 เมษายน 2026 OpenAI เปิดตัว GPT-Image-2 แล้วผมเอามาลองทันที ผ่านทั้ง ChatGPT, API, และ Codex บอกตรงๆ ว่านี่เป็นตัวแรกที่ทำให้ผม "ปิด Figma" ได้จริงในงานบางอย่าง

บทความนี้จะเล่าว่าตัวนี้ต่างจากของเดิมยังไง โหมด Thinking ที่ "คิดก่อนวาด" มันเวิร์คจริงไหม ใครควรใช้ ใครยังไม่ต้องรีบเปลี่ยน

ตัวอย่าง cover ข่าว ที่ให้ ChatGPT Image 2.0 ทำให้

จุดที่ต่างจากเดิมมากที่สุด คือมันหยุดคิด

Image AI ตัวเก่าทำงานแบบศิลปินวาดเร็ว คุณพูดอะไรปุ๊บ มันลงมือวาดปั๊บ เสร็จใน 3 วินาที สวยมาก แต่ถ้าคุณสั่งว่า "วาด iPhone รุ่นล่าสุด" มันก็วาดจากจินตนาการว่า iPhone น่าจะหน้าตาแบบนี้ ผลคือโลโก้ผิด กล้องผิดจุด

GPT-Image-2 มีสองเวอร์ชัน ตัวมาตรฐานเร็วเหมือนเดิม แต่อีกตัวชื่อ Thinking mode ทำสิ่งที่ image model ไม่เคยทำมาก่อน คือมันหยุด reasoning (คิดวิเคราะห์) ก่อนวาด แล้วยังเปิด web search ไปหาข้อมูลจริงๆ ด้วย

ผมลองสั่งว่า "วาด Cybertruck พร้อมป้ายทะเบียนไทย" ตัวมาตรฐานวาดออกมาเป็นรถที่ดูเหมือน Cybertruck แต่ proportion เพี้ยน Thinking mode ช้ากว่าเยอะ รอประมาณ 40 วินาที แต่ออกมาถูกทรงจริง ป้ายทะเบียนอ่านได้ เพราะมันไป search รูปจริงก่อนแล้วค่อยวาด

เปรียบเทียบง่ายๆ คือตัวมาตรฐานเหมือนสั่ง drive-through เร็ว ใช้งานได้ทั่วไป ส่วน Thinking mode คือร้านกาแฟพิเศษที่บาริสต้าถามรายละเอียด เช็คเมล็ด ใช้เวลานานกว่า แต่ถ้าคุณทำสไลด์ขึ้นหน้า client หรือภาพประกอบข่าวที่ต้องเป๊ะ โหมดนี้คือตัวที่ใช่

สไลด์กับ UI mockup คืองานที่ผมประทับใจที่สุด

OpenAI positioning ตัวนี้ชัดว่าไม่ใช่แค่ทำรูปสวย แต่เอาไว้ทำ "ของใช้งานจริง" สไลด์ infographic diagram UI mockup และที่น่าทึ่งคือ QR code ที่ scan ได้จริงด้วย

ผมลองทำสไลด์ 3 หน้าสำหรับ pitch deck ให้ลูกค้า สั่งเป็นภาษาไทยเลยว่าขอ title 2 บรรทัด bullet 3 ข้อ สี brand แบบนี้ ตัวนี้ใส่ตัวอักษรไทยได้ถูก layout เป๊ะ bullet ไม่หลงเป็นสัญลักษณ์ประหลาดแบบ GPT-Image-1.5

งาน UI mockup ก็เหมือนกัน ผมให้มันวาดหน้า mobile app สั่งอาหารแบบ Thai-friendly ชื่อเมนูเป็นภาษาไทย ราคาเป็น ฿ มันจัดได้ถูกหมด ไม่เจอปุ่มลอย หรือ icon แปลกๆ เหมือนตัวก่อน

QR code นี่โคตรเจ๋ง ผมลองให้มันสร้าง QR code ที่มี logo ตรงกลาง แล้วเอามือถือไปสแกน มันเปิด URL ได้จริง ซึ่งเป็นเรื่องที่ image AI ไม่เคยทำได้เลยก่อนหน้านี้ เพราะ QR code ต้อง pixel-accurate ห้ามพลาดแม้แต่จุดเดียว

ตัวอย่างปกหนังสือที่ลองให้ GPT Image 2.0 ทำให้

Text rendering ตัวหนังสือไทยใช้ได้จริงครั้งแรก

เรื่องนี้สำหรับคนไทยสำคัญมาก GPT-Image-1.5 ตัวอักษรไทยคือปัญหาเรื้อรัง สระลอย วรรณยุกต์หลุด พิมพ์ "สวัสดี" ออกมาเป็น "ส???ด?"

ตัวใหม่นี้ the-decoder บอกว่าปรับปรุง non-Latin script (ภาษาที่ไม่ใช่ตัวอักษรโรมัน) ชัดเจน รวมถึงตัวหนังสือเล็ก icon และ UI element ผมลองพิมพ์ประโยคไทยยาวๆ ใส่ในภาพ poster งานก็ออกมาถูก สระและวรรณยุกต์อยู่ในตำแหน่งที่ควรอยู่

นี่ไม่ใช่เรื่องเล่นๆ สำหรับครีเอเตอร์ไทยที่เคยต้องเอา Midjourney สร้างภาพสวยๆ แล้วไปพิมพ์ตัวหนังสือทับใน Canva ตอนนี้คุณได้ภาพที่มีข้อความพร้อมใช้ในช็อตเดียว

Benchmark ทิ้งขาดแบบที่วงการ image AI ไม่ค่อยเห็น

ตัวเลขจาก Image Arena leaderboard ตอน launch คือ GPT-Image-2 ขึ้น #1 ในทุกหมวด text-to-image 1512 Elo, single-image edit 1513 Elo, multi-image edit 1464 Elo

ที่น่าตกใจคือ gap ในหมวด text-to-image ห่างจากอันดับ 2 ถึง +242 Elo ซึ่งเป็นระยะห่างที่ arena image ไม่ค่อยเห็น ปกติ AI รุ่นใหม่ที่ขึ้นอันดับ 1 มักจะทิ้งห่างแค่ 30-80 Elo

ตัวที่มันแซงคือ Google Gemini 3.1 (ที่ community เรียกว่า Nano Banana 2) ซึ่งก่อนหน้านี้เป็น SOTA (state-of-the-art คือตัวเก่งที่สุดในวงการตอนนั้น) อยู่ นี่แปลว่า OpenAI ไม่ได้แค่ไล่ทัน แต่แซงไปไกล

แต่ต้องบอกก่อนว่า Elo score นี้มาจาก Image Arena ไม่ใช่ OpenAI อ้างเอง คน vote บน arena ก็มี bias ได้ ผมลองใช้จริงแล้วรู้สึกว่ามันเก่งจริง แต่ +242 จะยั่งยืนแค่ไหน Midjourney v8 หรือ Seedream ตัวใหม่ที่กำลังจะมาภายในไม่กี่เดือนจะเป็นตัวบอก

ราคาที่ต้องจ่าย อาจจะแพงกว่าที่คิด

OpenAI ไม่บอกราคาตรงๆ ใน blog post หลัก แต่ the-decoder รายงานราคา API ไว้ว่า กรณี 1024x1024 pixel low quality อยู่ที่ $0.006 ต่อรูป medium $0.053 และ high $0.211

ถ้าทำรูปสัดส่วน 1024x1536 pixel ราคาคือ low $0.005, medium $0.041, high $0.165 ต่อรูป ส่วน token pricing คือ text $5 per million input, $10 output และ image token $8 input, $30 output

ตัวเลข $0.211 ต่อรูปสำหรับ high quality นี่แพงพอสมควร ถ้าคุณทำงาน batch เช่นสร้างภาพประกอบ 100 รูปต่อเดือน ก็ $21 บวก token ที่ใช้ระหว่าง thinking อีก ซึ่ง thinking mode จะเปลืองกว่าเพราะมี reasoning token เพิ่ม

เทียบกับ Midjourney ที่ $10/เดือน generate ได้ไม่จำกัด ถ้าคุณทำงานที่เน้น "ภาพสวย" ไม่ต้องเป๊ะ Midjourney ยังคุ้มกว่าเยอะ GPT-Image-2 คุ้มเมื่อคุณต้องการ "ของที่ใช้งานได้" สไลด์ UI mockup ภาพที่มีข้อความตรง

อีกประเด็นคือ Thinking mode ไม่ได้ให้ทุกคน the-decoder บอกว่า extended thinking output จำกัดเฉพาะ ChatGPT Plus, Pro, Business เท่านั้น ตัว base quality ทุกคนได้ แต่โหมดคิดก่อนวาดต้อง subscribe

ai generated infographic chart professional (Daniel Brady on Unsplash)

จุดที่ยังไม่ชอบ รอช้าและมี artificial feel อยู่

Thinking mode ช้ามากเมื่อเทียบกับตัวมาตรฐาน รูปที่ปกติใช้เวลา 5-10 วินาที Thinking mode กินไป 30-60 วินาที บางครั้งเกือบนาที ถ้าคุณทำงาน iterate บ่อยๆ ลองปรับ prompt 10-15 รอบ จะรู้สึกเลยว่าช้า

และแม้ OpenAI จะเคลมว่าแก้ "AI look" ของ GPT-Image-1.5 ได้ (ที่ผิวคนดูพลาสติก แสงสมบูรณ์แบบเกินจริง) ผมเห็นด้วยว่าดีขึ้น แต่โหมดมาตรฐานยังมี feel เทียมอยู่ the-decoder ทดสอบก็เจอเหมือนกันว่า non-thinking output ยังดู "slightly artificial" มีเฉพาะ Thinking mode เท่านั้นที่ให้ความเหมือนจริงแบบ DSLR

อีกเรื่องที่ยังงงคือจำนวนรูปต่อ prompt the-decoder บอก 8 รูปพร้อมกันใน consistency mode แต่ aggregator อื่นบอก 10 รูป primary source ไม่ระบุชัด ต้องรอ official docs ของ OpenAI ยืนยันอีกที

Integration พร้อมตั้งแต่วันแรก Figma Canva Adobe เข้ารวม

ที่น่าสนใจคือ launch day มี integration พร้อมเลย Figma, Canva, Adobe Firefly, fal, และ Hermes Agent ทั้งหมดต่อตรงกับ GPT-Image-2 ตั้งแต่วันแรก

นี่บอกอะไรเรา คือ OpenAI ไม่ได้เล็ง "แกลเลอรี" แต่เล็ง "โต๊ะทำงานของ designer" Figma กับ Canva คือเครื่องมือที่ designer ไทยใช้ทุกวัน การที่มันถูกฝังอยู่ในนั้นเลย แปลว่าคนจะเริ่มใช้โดยไม่รู้ตัวว่านี่คือ GPT-Image-2

ผมลองใน Canva แล้ว workflow เปลี่ยนจริง แทนที่จะออกไปหา asset จาก stock photo ก็ prompt ให้สร้างภาพประกอบที่แม่นกับ brand ตรงในนั้นเลย

ใครควรใช้ ใครยังไม่ต้องรีบ

ถ้าคุณเป็น designer, content creator, หรือคนที่ทำ pitch deck บ่อยๆ ตัวนี้ควรเข้ามาอยู่ในเครื่องมือประจำวันเลย โดยเฉพาะถ้าทำงานที่มีข้อความไทยในภาพ หรือต้องทำ UI mockup สไลด์ infographic ผมว่าคุ้มค่าที่จะจ่าย Plus/Pro เพื่อเข้า Thinking mode

ถ้าคุณทำ "ศิลปะ" ล้วนๆ เน้นภาพสวย mood แปลก concept art Midjourney ยังเก่งกว่าในเรื่องความสวยงามของ composition และราคาถูกกว่าถ้าใช้เยอะ GPT-Image-2 เก่งเรื่อง "ความแม่น" ไม่ได้เก่งเรื่อง "ความฝัน" เท่า Midjourney

ถ้าคุณใช้แค่ชิลๆ สร้าง meme ทำภาพโพสต์ Facebook นานๆ ที base quality ของ GPT-Image-2 ที่ทุกคนได้ฟรีก็พอแล้ว ไม่ต้อง subscribe Plus

ส่วน dev ที่ทำ coding agent บทความ primary source พูดประเด็นน่าสนใจว่า image generation กำลังกลายเป็น "front-end ของ coding agent" คือ agent สร้าง UI mockup ให้ดูก่อนจะเขียนโค้ดจริง ตรงนี้ GPT-Image-2 เปิดทางได้เยอะ

ตัดสินสั้นๆ ก่อนปิด

GPT-Image-2 คือครั้งแรกที่ผมรู้สึกว่า image AI ไม่ใช่แค่ของเล่นทำรูปสวย แต่เป็น productivity tool จริง โหมด Thinking ที่ "คิดก่อนวาด" พร้อม web search แก้ปัญหา hallucination ของ image AI ได้จริง งานที่ต้องการความแม่นยำอย่างสไลด์ UI mockup และข้อความไทยในภาพ ใช้งานได้จริงในช็อตเดียว

ข้อเสียคือช้า แพงกว่าทางเลือก subscription และ Thinking mode ยังผูกกับ ChatGPT Plus+ เท่านั้น แต่ถ้าคุณทำงาน client ทำ pitch deck ทำ content ที่ต้องเป๊ะ ผมว่าคุ้มที่จะลอง อย่างน้อยเดือนแรกเพื่อดูว่ามันเข้ากับ workflow คุณไหม

บทเรียนใหญ่คือเส้นแบ่งระหว่าง "image tool" กับ "design tool" กำลังจะหายไป และ OpenAI น่าจะนำเกมนี้ไปก่อนใคร

แหล่งอ้างอิง

บทความที่เกี่ยวข้อง

อ่านต่อเรื่องนี้

รีวิวเครื่องมือ

ทำไม AI ระดับโลกสอบได้คะแนนท็อป แต่ตกม้าตายคำถามเด็กอนุบาล

งานวิจัยใหม่จาก Caltech และ Stanford เผยสาเหตุที่ AI ทำข้อสอบยากๆ ได้คะแนนทะลุ 90% แต่กลับทำเรื่องพื้นฐานพลาด ชี้ปัญหาอยู่ที่โครงสร้างไม่ใช่จำนวนข้อมูล

VCT Agents11 เม.ย. 25697 นาที

รีวิว ChatGPT Pro จ่ายแพงขึ้น 5 เท่า แพลนราคา 100 ดอลลาร์นี้เหมาะกับใคร