OpenAI ปล่อย 3 โมเดลเสียงใหม่ใน API แปลสด 70 ภาษา Zillow ทดสอบ call success rate ขึ้นจาก 69% เป็น 95%

OpenAI ปล่อย 3 โมเดลเสียงใหม่ผ่าน API วันที่ 7 พ.ค. 2026 ประกอบด้วย GPT-Realtime-2 ที่ใช้ reasoning ระดับ GPT-5 พร้อม GPT-Realtime-Translate รองรับ 70 ภาษาขาเข้า 13 ภาษาขาออก และ GPT-Realtime-Whisper สำหรับ transcription แบบ low-latency Zillow รายงาน call success rate เพิ่มจาก 69% เป็น 95% บน benchmark adversarial ที่ยากที่สุด

10 พฤษภาคม 2569 · 2 นาที · อ่าน 14 ครั้ง

OpenAI ปล่อย 3 โมเดลเสียงใหม่ใน API แปลสด 70 ภาษา Zillow ทดสอบ call success rate ขึ้นจาก 69% เป็น 95% — Cover: codex (gpt-image-1) photo + Claude HTML/CSS overlay

OpenAI ปล่อย 3 โมเดลเสียงใหม่ผ่าน API วันที่ 7 พฤษภาคม 2026 ประกอบด้วย GPT-Realtime-2 ที่ใช้ความสามารถ reasoning ระดับ GPT-5 พร้อม GPT-Realtime-Translate ที่แปลเสียงพูดสด 70 ภาษาขาเข้า 13 ภาษาขาออก และ GPT-Realtime-Whisper สำหรับ transcription แบบ low-latency โดย Zillow รายงานว่าใช้ GPT-Realtime-2 แล้ว call success rate เพิ่มจาก 69% บนโมเดลก่อนหน้า ขึ้นเป็น 95% บน adversarial benchmark ที่ยากที่สุดของบริษัท

ราคาและสเปกของ 3 โมเดลที่ระบุในประกาศ

GPT-Realtime-2 รองรับ context window 32,000 token เรียก tool ภายนอกได้ เช่น เชื่อม API ปฏิทิน ระบบจอง ราคา 32 ดอลลาร์ต่อ 1 ล้าน audio input token (0.40 ดอลลาร์สำหรับ cached input) และ 64 ดอลลาร์ต่อ 1 ล้าน audio output token
GPT-Realtime-Translate ราคา 0.034 ดอลลาร์ต่อนาที แปลต่อเนื่องโดยไม่ต้องให้ผู้พูดหยุดรอ ทำงาน live ในระหว่างที่บทสนทนายังดำเนินอยู่
GPT-Realtime-Whisper ราคา 0.017 ดอลลาร์ต่อนาที transcribe เสียงเป็นข้อความสดขณะผู้พูดยังพูดอยู่ OpenAI ระบุว่าเหมาะกับงานประชุม การพิจารณาคดีในศาล ห้องข่าว และงาน accessibility

นอกจาก Zillow ตัวเลข benchmark อีกรายที่ OpenAI ใส่ในประกาศคือ BolnaAI ซึ่งรายงานว่า GPT-Realtime-Translate ทำให้ word error rate ในการรู้จำเสียงภาษาฮินดี ทมิฬ และเตลูกู ลดลง 12.5% เทียบกับโมเดลรุ่นก่อนหน้า ส่วน Deutsche Telekom ระบุว่ากำลังสร้างระบบสนับสนุนลูกค้าทางเสียง ที่ลูกค้าพูดในภาษาที่ถนัดได้ แล้วโมเดลแปลให้พนักงานในเวลาเดียวกัน

OpenAI ระบุว่าโมเดลทั้งหมดออกแบบมาเพื่อ unlock voice apps รุ่นใหม่ที่ developer สร้างได้ จุดเน้นคือทำให้บทสนทนาเดินหน้าต่อเองได้ ไม่สะดุดเหมือนโมเดลเสียงรุ่นเก่าที่ต้องรอประโยคจบ ทั้งนี้โมเดลทั้ง 3 ตัวเปิดให้ใช้งานผ่าน OpenAI API ทันที

ที่มา: 9to5Mac, The Next Web, The Tech Portal

newschatgpt

ทีมผู้เขียน Vibe Coding Thailandvibecodingth

สอนใช้ AI กับงานจริงเป็นภาษาไทย ผ่านบทความ คอร์ส และเครื่องมือที่สร้างด้วย AI

หนังสือแนะนำ

Claude Cowork · The Business Playbook

฿1,400฿2,500ลด 44%

สั่งซื้อหนังสือ

$ tail -f journal.log

อ่านต่อจากเรื่องนี้

NEWS

24 มิ.ย. 2569 · 8 นาที

Baidu Unlimited-OCR โมเดลอ่านเอกสารโอเพนซอร์สตัวใหม่บน Hugging Face · ยิงรูปหรือ PDF เข้าไปแล้วได้ข้อความและตารางกลับมา ลองฟรีได้บน Colab/Kaggle

NEWS

24 มิ.ย. 2569 · 8 นาที

สัปดาห์เดียว Node.js 24.18 LTS · Astro 7 · Vite 8.1 ออกพร้อมกัน · เครื่องมือสาย JavaScript ขยับยกแผง

NEWS

23 มิ.ย. 2569 · 7 นาที · อ่าน 39 ครั้ง

Gemini Spark คืออะไร · ผู้ช่วย AI 24 ชม. ของ Google ที่รับงานหลายขั้นไปทำให้จบเอง

ดูบทความทั้งหมด

$ open facebook.com/groups

คุยกันต่อในกลุ่ม

ถาม-ตอบเรื่องการใช้ AI กับงานจริง กันทุกวัน · เข้าฟรี

เข้ากลุ่ม Facebook

Claude Cowork

฿1,400฿2,500

ซื้อหนังสือ

$ cat blog/[slug].md

$ cat blog/openai-realtime-voice-models-translation-70-languages.md

OpenAI ปล่อย 3 โมเดลเสียงใหม่ใน API แปลสด 70 ภาษา Zillow ทดสอบ call success rate ขึ้นจาก 69% เป็น 95%

10 พฤษภาคม 2569 · 2 นาที · อ่าน 14 ครั้ง

ราคาและสเปกของ 3 โมเดลที่ระบุในประกาศ

GPT-Realtime-2 รองรับ context window 32,000 token เรียก tool ภายนอกได้ เช่น เชื่อม API ปฏิทิน ระบบจอง ราคา 32 ดอลลาร์ต่อ 1 ล้าน audio input token (0.40 ดอลลาร์สำหรับ cached input) และ 64 ดอลลาร์ต่อ 1 ล้าน audio output token
GPT-Realtime-Translate ราคา 0.034 ดอลลาร์ต่อนาที แปลต่อเนื่องโดยไม่ต้องให้ผู้พูดหยุดรอ ทำงาน live ในระหว่างที่บทสนทนายังดำเนินอยู่
GPT-Realtime-Whisper ราคา 0.017 ดอลลาร์ต่อนาที transcribe เสียงเป็นข้อความสดขณะผู้พูดยังพูดอยู่ OpenAI ระบุว่าเหมาะกับงานประชุม การพิจารณาคดีในศาล ห้องข่าว และงาน accessibility

ที่มา: 9to5Mac, The Next Web, The Tech Portal

newschatgpt

ทีมผู้เขียน Vibe Coding Thailandvibecodingth

หนังสือแนะนำ