$ loading ~/vibecoding

$ cat blog/grok-tts-humanness.md

Grok TTS ขึ้นนำบน Humanness Index ของ Vapi · เสียง AI ที่ได้ 96 เมื่อเสียงคนจริงอยู่ที่ 100

Grok TTS คือโมเดลเสียงพูดตัวใหม่ของ xAI ที่ขึ้นนำโมเดล AI ทั้งหมดบน Humanness Index ของ Vapi ด้วยคะแนน 96 จุดที่น่าสนใจไม่ใช่ตัวเลข แต่เป็นวิธีวัด · ใช้การเทียบเสียงแบบปิดป้าย โดยมีเสียงคนจริงเป็นจุดอ้างอิง แล้วให้คนฟังเลือกว่าเสียงไหนเหมือนคนมากกว่า

19 มิถุนายน 2569 · 6 นาที

Grok TTS ขึ้นนำบน Humanness Index ของ Vapi · เสียง AI ที่ได้ 96 เมื่อเสียงคนจริงอยู่ที่ 100 — Grok TTS ได้ 96 บน Humanness Index ของ Vapi · ห่างจากเสียงคนจริง 4 คะแนน

Grok TTS คือโมเดลแปลงข้อความเป็นเสียงพูด (text-to-speech) ตัวใหม่ของ xAI · บริษัท AI ของ Elon Musk เจ้าของแชตบอต Grok ตอนนี้ขึ้นนำเสียง AI ทุกตัวบน Humanness Index ด้วยคะแนน 96 โดยตั้งเสียงคนจริงไว้ที่ 100 เป็นจุดอ้างอิง ห่างกันแค่ 4 คะแนน

Humanness Index คือการทดสอบของ Vapi · แพลตฟอร์มสำหรับสร้าง voice agent หรือผู้ช่วยเสียงอัตโนมัติ โดยตั้งใจวัดว่าเสียง AI ตัวไหน "ฟังเหมือนคนจริง" มากที่สุด · ไม่ได้วัดว่าตัวไหนพูดชัดที่สุด จุดที่น่าสนใจจริงๆ จึงไม่ใช่คะแนน 96 แต่เป็นวิธีที่ได้คะแนนนั้นมา เพราะคะแนนไม่ได้มาจากเดโมสวยๆ หรือคำโฆษณาของเจ้าของโมเดล แต่มาจากคนจำนวนมากที่นั่งฟังแล้วเลือกเองโดยไม่รู้ว่ากำลังฟังเสียงของใคร

ฟังสองเสียง แล้วชี้ว่าอันไหนเหมือนคนมากกว่า

แผนผังสี่ขั้นของการทดสอบแบบปิดชื่อ · จากเสียงต้นแบบหนึ่งเสียง ไปจนกลายเป็นคะแนนความเป็นมนุษย์ — คะแนนไม่ได้มาจากเดโมหรือคำโฆษณา · แต่มาจากคนที่ฟังแล้วเลือกเองโดยไม่รู้ว่าเป็นเสียงของใคร

หัวใจของ Humanness Index อยู่ที่การทดสอบแบบปิดป้าย (blind) · Vapi นำเสียงต้นแบบเสียงเดียวกันไปโคลนด้วยทุกโมเดลที่เข้าทดสอบ จากนั้นให้คนฟังได้ยินสองเวอร์ชันที่พูดประโยคเดียวกัน โดยไม่บอกว่าอันไหนมาจากโมเดลไหน แล้วให้เลือกว่าเสียงไหนฟังเหมือนคนมากกว่า

เพราะใช้เสียงต้นแบบตัวเดียวกันทั้งหมด คนฟังจึงไม่ได้ตัดสินว่า "เสียงใครเพราะกว่า" · แต่ตัดสินว่าโมเดลไหนทำให้เสียงนั้นฟังเป็นธรรมชาติกว่ากัน Vapi ตั้งเสียงคนจริงไว้ที่ 100 เป็นจุดอ้างอิง · ยิ่งโมเดลไหนได้คะแนนเข้าใกล้ 100 ก็ยิ่งแปลว่าคนแยกไม่ออกว่ามันคือ AI

สิ่งที่การทดสอบนี้จับไม่ใช่แค่ความชัดของคำ · แต่เป็นสามอย่างที่ทำให้เสียงฟังเหมือนคนจริง · การเน้นคำให้ถูกจังหวะอารมณ์ · น้ำเสียงขึ้นลงและทำนองการพูด · และเสียงเล็กๆ ที่คนทำโดยไม่รู้ตัว เช่น เสียงหายใจ สิ่งเหล่านี้แหละที่เสียงสังเคราะห์ส่วนใหญ่ยังทำได้ไม่เนียน

96 แปลว่าอะไร เมื่อเทียบกับตัวอื่นบนกระดาน

กราฟแท่งคะแนนความเป็นมนุษย์ · มีเส้นอ้างอิงเสียงคนจริงที่ 100 และ Grok TTS นำกลุ่มเสียง AI ที่ 96 — เสียง AI ห่างจากเสียงคนจริงแค่ 4 คะแนน · Grok TTS นำที่ 96 ส่วนกลุ่มรองเสมอกันที่ 92

รอบนี้มีโมเดลเข้าทดสอบ 21 ตัว จาก 9 เจ้า · รวมโหวตจากคนฟังไปแล้ว 9,150 ครั้ง และในกระดานนั้น Grok TTS นำอยู่ที่ 96 · ตามมาด้วย ElevenLabs Eleven v3 และ MiniMax Speech 2.5 ที่เสมอกันอยู่ 92

ช่องว่าง 4 คะแนนระหว่าง Grok TTS กับเสียงคนจริง ทำให้ตัวเลขนี้มีความหมาย · เพราะในการฟังเทียบแบบปิดป้าย คนเลือก Grok TTS ว่า "เหมือนคน" บ่อยกว่าโมเดลอื่นบนกระดาน และเข้าใกล้เสียงคนจริงมากที่สุดเท่าที่เสียง AI เคยทำได้ในการทดสอบนี้

โมเดล	คะแนนความเป็นมนุษย์
เสียงคนจริง (เส้นเทียบ)	100
Grok TTS	96
ElevenLabs Eleven v3	92
MiniMax Speech 2.5	92
Canopy Labs Orpheus	90

xAI ยังมีอีกหนึ่งตัวบนกระดานคือ Grok TTS Streaming ที่ได้ 88 · เวอร์ชันนี้เน้นสตรีมเสียงออกมาทันทีระหว่างสนทนา เหมาะกับงานที่ต้องตอบโต้สด ส่วน Grok TTS ตัวที่ได้ 96 เน้นคุณภาพเสียงเต็มที่

เอาไปใช้ทำอะไรได้บ้าง

จุดที่ทำให้เรื่องนี้ไม่ใช่แค่ผลทดสอบบนกระดาน คือ Vapi ตั้ง Grok เป็นระบบสร้างเสียงหลักสำหรับ 12 เสียงหลักแล้ว · ครอบคลุม voice agent กว่า 2.5 ล้านตัวที่สร้างบน Vapi อยู่ในตอนนี้

ถ้าใครมี agent บน Vapi อยู่แล้ว การเปลี่ยนมาใช้เสียงของ Grok ทำได้ง่ายมาก · เข้าไปที่ Vapi Dashboard แล้วเลือก Grok จากเมนู TTS ในช่องตั้งค่าเสียง · ตอนนี้ทั้ง Grok Speech-to-Text และ Text-to-Speech เปิดให้ใช้บน Dashboard แล้ว

สำหรับทีมที่อยากเชื่อมเสียงเข้ากับระบบของตัวเองโดยตรง · Grok เปิด Voice API ที่มีทั้งเสียงใหม่และการปรับแต่งขั้นสูง รวมถึงการโคลนเสียงของตัวเอง งานที่ xAI ยกมาเป็นตัวอย่างคือ การพากย์เสียงบรรยาย · พอดแคสต์ · โฆษณา · และงานเสียงประกอบ ซึ่งล้วนเป็นงานที่ "ฟังออกว่าเป็นเสียงหุ่นยนต์" เคยเป็นจุดตายมาตลอด

ตัวเลขนี้ดี แต่ต้องอ่านให้ครบ

ก่อนจะเชื่อคะแนน 96 เต็มร้อย มีสองอย่างที่ต้องเข้าใจให้ตรง

อย่างแรก · Humanness Index เป็นการทดสอบของ Vapi เอง ไม่ใช่มาตรฐานกลางของวงการ เมื่อเจ้าของแพลตฟอร์มที่เพิ่งเลือก Grok มาเป็นเสียงหลักทดสอบเอง · บริบทนี้ก็ควรรู้ไว้ ไม่ได้แปลว่าผลไม่จริง แต่แปลว่ามันคือผลจากเวทีของ Vapi · ไม่ใช่คำตัดสินของทั้งอุตสาหกรรม

อย่างที่สอง · คะแนนตอนนี้ยังเป็นผลชั่วคราว เพราะ xAI ประกาศขณะที่การโหวตเพิ่งเริ่มมาได้สองวัน และตัวกระดานเองก็ยังระบุว่าอันดับยังไม่นิ่งระหว่างที่โหวตยังเข้ามาเรื่อยๆ ตัวเลขจึงขยับได้ ไม่ใช่ผลสรุปสุดท้าย

ถึงอย่างนั้น สิ่งที่ไม่เปลี่ยนคือวิธีที่ได้คะแนนมา · มันไม่ใช่เดโมที่เลือกประโยคที่เสียงเนียนที่สุดมาโชว์ แต่เป็นคนเกือบหมื่นคนที่ฟังแล้วเลือกเองโดยไม่รู้ว่ากำลังฟังเสียงของใคร และนั่นคือข้อมูลที่หาไม่ได้จากคำโฆษณา

ในวันที่เสียง AI ห่างจากเสียงคนจริงแค่ 4 คะแนน · คำถามที่น่าคิดต่อไม่ใช่ "มันเหมือนคนพอหรือยัง" · แต่เป็น "เราจะแยกออกอยู่อีกนานแค่ไหน"

ที่มา:

บทความ Grok Becomes Voice of Vapi จาก xAI
บทความ Humanness Index™: Which TTS Voice Is Most Human? จาก Vapi
โพสต์ xAI (@xai) on X จาก xAI

news

ทีมผู้เขียน Vibe Coding Thailandvibecodingth

สอนใช้ AI กับงานจริงเป็นภาษาไทย ผ่านบทความ คอร์ส และเครื่องมือที่สร้างด้วย AI

หนังสือแนะนำ

Claude Cowork · The Business Playbook

฿1,400฿2,500ลด 44%

สั่งซื้อหนังสือ

$ tail -f journal.log

อ่านต่อจากเรื่องนี้

NEWS

Claude Code Artifacts เปลี่ยนงานในเซสชันเป็นหน้าเว็บที่อัปเดตสดและกดแชร์ให้ทีมดูได้ทันที

19 มิ.ย. 2569 · 7 นาที

คุยกันต่อในกลุ่ม

ถาม-ตอบเรื่องการใช้ AI กับงานจริง กันทุกวัน · เข้าฟรี

เข้ากลุ่ม Facebook

Claude Cowork

฿1,400฿2,500

ซื้อหนังสือ

$ loading ~/blog

$ cat blog/grok-tts-humanness.md

Grok TTS ขึ้นนำบน Humanness Index ของ Vapi · เสียง AI ที่ได้ 96 เมื่อเสียงคนจริงอยู่ที่ 100

19 มิถุนายน 2569 · 6 นาที

ฟังสองเสียง แล้วชี้ว่าอันไหนเหมือนคนมากกว่า

96 แปลว่าอะไร เมื่อเทียบกับตัวอื่นบนกระดาน

โมเดล	คะแนนความเป็นมนุษย์
เสียงคนจริง (เส้นเทียบ)	100
Grok TTS	96
ElevenLabs Eleven v3	92
MiniMax Speech 2.5	92
Canopy Labs Orpheus	90

เอาไปใช้ทำอะไรได้บ้าง

ตัวเลขนี้ดี แต่ต้องอ่านให้ครบ

ก่อนจะเชื่อคะแนน 96 เต็มร้อย มีสองอย่างที่ต้องเข้าใจให้ตรง

ที่มา:

บทความ Grok Becomes Voice of Vapi จาก xAI
บทความ Humanness Index™: Which TTS Voice Is Most Human? จาก Vapi
โพสต์ xAI (@xai) on X จาก xAI

news

ทีมผู้เขียน Vibe Coding Thailandvibecodingth

หนังสือแนะนำ

Claude Cowork · The Business Playbook

฿1,400฿2,500ลด 44%

สั่งซื้อหนังสือ

$ tail -f journal.log

อ่านต่อจากเรื่องนี้

NEWS

19 มิ.ย. 2569 · 7 นาที

คุยกันต่อในกลุ่ม

ถาม-ตอบเรื่องการใช้ AI กับงานจริง กันทุกวัน · เข้าฟรี

เข้ากลุ่ม Facebook

Claude Cowork

฿1,400฿2,500

ซื้อหนังสือ

Grok TTS ขึ้นนำบน Humanness Index ของ Vapi · เสียง AI ที่ได้ 96 เมื่อเสียงคนจริงอยู่ที่ 100

ฟังสองเสียง แล้วชี้ว่าอันไหนเหมือนคนมากกว่า

96 แปลว่าอะไร เมื่อเทียบกับตัวอื่นบนกระดาน

เอาไปใช้ทำอะไรได้บ้าง

ตัวเลขนี้ดี แต่ต้องอ่านให้ครบ

Claude Cowork · The Business Playbook

อ่านต่อจากเรื่องนี้

Claude Code Artifacts เปลี่ยนงานในเซสชันเป็นหน้าเว็บที่อัปเดตสดและกดแชร์ให้ทีมดูได้ทันที

TypeScript 7.0 RC พอร์ตคอมไพเลอร์ทั้งตัวไปเป็น Go · tsc เร็วขึ้นราว 10 เท่า ลองจับเวลาเองได้เลย

Perplexity เปิดตัว Brain · ความจำที่ทำให้ AI agent จำงานเก่าได้ ยิ่งใช้ยิ่งถูกลง 13%

คุยกันต่อในกลุ่ม

Grok TTS ขึ้นนำบน Humanness Index ของ Vapi · เสียง AI ที่ได้ 96 เมื่อเสียงคนจริงอยู่ที่ 100

ฟังสองเสียง แล้วชี้ว่าอันไหนเหมือนคนมากกว่า

96 แปลว่าอะไร เมื่อเทียบกับตัวอื่นบนกระดาน

เอาไปใช้ทำอะไรได้บ้าง

ตัวเลขนี้ดี แต่ต้องอ่านให้ครบ

Claude Cowork · The Business Playbook

อ่านต่อจากเรื่องนี้

Claude Code Artifacts เปลี่ยนงานในเซสชันเป็นหน้าเว็บที่อัปเดตสดและกดแชร์ให้ทีมดูได้ทันที

TypeScript 7.0 RC พอร์ตคอมไพเลอร์ทั้งตัวไปเป็น Go · tsc เร็วขึ้นราว 10 เท่า ลองจับเวลาเองได้เลย

Perplexity เปิดตัว Brain · ความจำที่ทำให้ AI agent จำงานเก่าได้ ยิ่งใช้ยิ่งถูกลง 13%

คุยกันต่อในกลุ่ม