OpenAI ปล่อย 3 โมเดลเสียงใหม่ผ่าน API วันที่ 7 พฤษภาคม 2026 ประกอบด้วย GPT-Realtime-2 ที่ใช้ความสามารถ reasoning ระดับ GPT-5 พร้อม GPT-Realtime-Translate ที่แปลเสียงพูดสด 70 ภาษาขาเข้า 13 ภาษาขาออก และ GPT-Realtime-Whisper สำหรับ transcription แบบ low-latency โดย Zillow รายงานว่าใช้ GPT-Realtime-2 แล้ว call success rate เพิ่มจาก 69% บนโมเดลก่อนหน้า ขึ้นเป็น 95% บน adversarial benchmark ที่ยากที่สุดของบริษัท

ราคาและสเปกของ 3 โมเดลที่ระบุในประกาศ

  • GPT-Realtime-2 รองรับ context window 32,000 token เรียก tool ภายนอกได้ เช่น เชื่อม API ปฏิทิน ระบบจอง ราคา 32 ดอลลาร์ต่อ 1 ล้าน audio input token (0.40 ดอลลาร์สำหรับ cached input) และ 64 ดอลลาร์ต่อ 1 ล้าน audio output token
  • GPT-Realtime-Translate ราคา 0.034 ดอลลาร์ต่อนาที แปลต่อเนื่องโดยไม่ต้องให้ผู้พูดหยุดรอ ทำงาน live ในระหว่างที่บทสนทนายังดำเนินอยู่
  • GPT-Realtime-Whisper ราคา 0.017 ดอลลาร์ต่อนาที transcribe เสียงเป็นข้อความสดขณะผู้พูดยังพูดอยู่ OpenAI ระบุว่าเหมาะกับงานประชุม การพิจารณาคดีในศาล ห้องข่าว และงาน accessibility

นอกจาก Zillow ตัวเลข benchmark อีกรายที่ OpenAI ใส่ในประกาศคือ BolnaAI ซึ่งรายงานว่า GPT-Realtime-Translate ทำให้ word error rate ในการรู้จำเสียงภาษาฮินดี ทมิฬ และเตลูกู ลดลง 12.5% เทียบกับโมเดลรุ่นก่อนหน้า ส่วน Deutsche Telekom ระบุว่ากำลังสร้างระบบสนับสนุนลูกค้าทางเสียง ที่ลูกค้าพูดในภาษาที่ถนัดได้ แล้วโมเดลแปลให้พนักงานในเวลาเดียวกัน

OpenAI ระบุว่าโมเดลทั้งหมดออกแบบมาเพื่อ unlock voice apps รุ่นใหม่ที่ developer สร้างได้ จุดเน้นคือทำให้บทสนทนาเดินหน้าต่อเองได้ ไม่สะดุดเหมือนโมเดลเสียงรุ่นเก่าที่ต้องรอประโยคจบ ทั้งนี้โมเดลทั้ง 3 ตัวเปิดให้ใช้งานผ่าน OpenAI API ทันที

ที่มา: 9to5Mac, The Next Web, The Tech Portal