Grok TTS ขึ้นนำบน Humanness Index ของ Vapi · เสียง AI ที่ได้ 96 เมื่อเสียงคนจริงอยู่ที่ 100
Grok TTS คือโมเดลเสียงพูดตัวใหม่ของ xAI ที่ขึ้นนำโมเดล AI ทั้งหมดบน Humanness Index ของ Vapi ด้วยคะแนน 96 จุดที่น่าสนใจไม่ใช่ตัวเลข แต่เป็นวิธีวัด · ใช้การเทียบเสียงแบบปิดป้าย โดยมีเสียงคนจริงเป็นจุดอ้างอิง แล้วให้คนฟังเลือกว่าเสียงไหนเหมือนคนมากกว่า

Grok TTS คือโมเดลแปลงข้อความเป็นเสียงพูด (text-to-speech) ตัวใหม่ของ xAI · บริษัท AI ของ Elon Musk เจ้าของแชตบอต Grok ตอนนี้ขึ้นนำเสียง AI ทุกตัวบน Humanness Index ด้วยคะแนน 96 โดยตั้งเสียงคนจริงไว้ที่ 100 เป็นจุดอ้างอิง ห่างกันแค่ 4 คะแนน
Humanness Index คือการทดสอบของ Vapi · แพลตฟอร์มสำหรับสร้าง voice agent หรือผู้ช่วยเสียงอัตโนมัติ โดยตั้งใจวัดว่าเสียง AI ตัวไหน "ฟังเหมือนคนจริง" มากที่สุด · ไม่ได้วัดว่าตัวไหนพูดชัดที่สุด จุดที่น่าสนใจจริงๆ จึงไม่ใช่คะแนน 96 แต่เป็นวิธีที่ได้คะแนนนั้นมา เพราะคะแนนไม่ได้มาจากเดโมสวยๆ หรือคำโฆษณาของเจ้าของโมเดล แต่มาจากคนจำนวนมากที่นั่งฟังแล้วเลือกเองโดยไม่รู้ว่ากำลังฟังเสียงของใคร
ฟังสองเสียง แล้วชี้ว่าอันไหนเหมือนคนมากกว่า

หัวใจของ Humanness Index อยู่ที่การทดสอบแบบปิดป้าย (blind) · Vapi นำเสียงต้นแบบเสียงเดียวกันไปโคลนด้วยทุกโมเดลที่เข้าทดสอบ จากนั้นให้คนฟังได้ยินสองเวอร์ชันที่พูดประโยคเดียวกัน โดยไม่บอกว่าอันไหนมาจากโมเดลไหน แล้วให้เลือกว่าเสียงไหนฟังเหมือนคนมากกว่า
เพราะใช้เสียงต้นแบบตัวเดียวกันทั้งหมด คนฟังจึงไม่ได้ตัดสินว่า "เสียงใครเพราะกว่า" · แต่ตัดสินว่าโมเดลไหนทำให้เสียงนั้นฟังเป็นธรรมชาติกว่ากัน Vapi ตั้งเสียงคนจริงไว้ที่ 100 เป็นจุดอ้างอิง · ยิ่งโมเดลไหนได้คะแนนเข้าใกล้ 100 ก็ยิ่งแปลว่าคนแยกไม่ออกว่ามันคือ AI
สิ่งที่การทดสอบนี้จับไม่ใช่แค่ความชัดของคำ · แต่เป็นสามอย่างที่ทำให้เสียงฟังเหมือนคนจริง · การเน้นคำให้ถูกจังหวะอารมณ์ · น้ำเสียงขึ้นลงและทำนองการพูด · และเสียงเล็กๆ ที่คนทำโดยไม่รู้ตัว เช่น เสียงหายใจ สิ่งเหล่านี้แหละที่เสียงสังเคราะห์ส่วนใหญ่ยังทำได้ไม่เนียน
96 แปลว่าอะไร เมื่อเทียบกับตัวอื่นบนกระดาน

รอบนี้มีโมเดลเข้าทดสอบ 21 ตัว จาก 9 เจ้า · รวมโหวตจากคนฟังไปแล้ว 9,150 ครั้ง และในกระดานนั้น Grok TTS นำอยู่ที่ 96 · ตามมาด้วย ElevenLabs Eleven v3 และ MiniMax Speech 2.5 ที่เสมอกันอยู่ 92
ช่องว่าง 4 คะแนนระหว่าง Grok TTS กับเสียงคนจริง ทำให้ตัวเลขนี้มีความหมาย · เพราะในการฟังเทียบแบบปิดป้าย คนเลือก Grok TTS ว่า "เหมือนคน" บ่อยกว่าโมเดลอื่นบนกระดาน และเข้าใกล้เสียงคนจริงมากที่สุดเท่าที่เสียง AI เคยทำได้ในการทดสอบนี้
| โมเดล | คะแนนความเป็นมนุษย์ |
|---|---|
| เสียงคนจริง (เส้นเทียบ) | 100 |
| Grok TTS | 96 |
| ElevenLabs Eleven v3 | 92 |
| MiniMax Speech 2.5 | 92 |
| Canopy Labs Orpheus | 90 |
xAI ยังมีอีกหนึ่งตัวบนกระดานคือ Grok TTS Streaming ที่ได้ 88 · เวอร์ชันนี้เน้นสตรีมเสียงออกมาทันทีระหว่างสนทนา เหมาะกับงานที่ต้องตอบโต้สด ส่วน Grok TTS ตัวที่ได้ 96 เน้นคุณภาพเสียงเต็มที่
เอาไปใช้ทำอะไรได้บ้าง
จุดที่ทำให้เรื่องนี้ไม่ใช่แค่ผลทดสอบบนกระดาน คือ Vapi ตั้ง Grok เป็นระบบสร้างเสียงหลักสำหรับ 12 เสียงหลักแล้ว · ครอบคลุม voice agent กว่า 2.5 ล้านตัวที่สร้างบน Vapi อยู่ในตอนนี้
ถ้าใครมี agent บน Vapi อยู่แล้ว การเปลี่ยนมาใช้เสียงของ Grok ทำได้ง่ายมาก · เข้าไปที่ Vapi Dashboard แล้วเลือก Grok จากเมนู TTS ในช่องตั้งค่าเสียง · ตอนนี้ทั้ง Grok Speech-to-Text และ Text-to-Speech เปิดให้ใช้บน Dashboard แล้ว
สำหรับทีมที่อยากเชื่อมเสียงเข้ากับระบบของตัวเองโดยตรง · Grok เปิด Voice API ที่มีทั้งเสียงใหม่และการปรับแต่งขั้นสูง รวมถึงการโคลนเสียงของตัวเอง งานที่ xAI ยกมาเป็นตัวอย่างคือ การพากย์เสียงบรรยาย · พอดแคสต์ · โฆษณา · และงานเสียงประกอบ ซึ่งล้วนเป็นงานที่ "ฟังออกว่าเป็นเสียงหุ่นยนต์" เคยเป็นจุดตายมาตลอด
ตัวเลขนี้ดี แต่ต้องอ่านให้ครบ
ก่อนจะเชื่อคะแนน 96 เต็มร้อย มีสองอย่างที่ต้องเข้าใจให้ตรง
อย่างแรก · Humanness Index เป็นการทดสอบของ Vapi เอง ไม่ใช่มาตรฐานกลางของวงการ เมื่อเจ้าของแพลตฟอร์มที่เพิ่งเลือก Grok มาเป็นเสียงหลักทดสอบเอง · บริบทนี้ก็ควรรู้ไว้ ไม่ได้แปลว่าผลไม่จริง แต่แปลว่ามันคือผลจากเวทีของ Vapi · ไม่ใช่คำตัดสินของทั้งอุตสาหกรรม
อย่างที่สอง · คะแนนตอนนี้ยังเป็นผลชั่วคราว เพราะ xAI ประกาศขณะที่การโหวตเพิ่งเริ่มมาได้สองวัน และตัวกระดานเองก็ยังระบุว่าอันดับยังไม่นิ่งระหว่างที่โหวตยังเข้ามาเรื่อยๆ ตัวเลขจึงขยับได้ ไม่ใช่ผลสรุปสุดท้าย
ถึงอย่างนั้น สิ่งที่ไม่เปลี่ยนคือวิธีที่ได้คะแนนมา · มันไม่ใช่เดโมที่เลือกประโยคที่เสียงเนียนที่สุดมาโชว์ แต่เป็นคนเกือบหมื่นคนที่ฟังแล้วเลือกเองโดยไม่รู้ว่ากำลังฟังเสียงของใคร และนั่นคือข้อมูลที่หาไม่ได้จากคำโฆษณา
ในวันที่เสียง AI ห่างจากเสียงคนจริงแค่ 4 คะแนน · คำถามที่น่าคิดต่อไม่ใช่ "มันเหมือนคนพอหรือยัง" · แต่เป็น "เราจะแยกออกอยู่อีกนานแค่ไหน"
ที่มา:
- บทความ Grok Becomes Voice of Vapi จาก xAI
- บทความ Humanness Index™: Which TTS Voice Is Most Human? จาก Vapi
- โพสต์ xAI (@xai) on X จาก xAI



