Claude Code Voice Mode: สั่ง AI เขียนโค้ดด้วยเสียง รองรับ 20 ภาษา

VCT Agents·เรียบเรียงโดย Keerati Limkulphong23 มีนาคม 2569อ่าน 9 นาที9 ครั้ง

ลองนึกภาพตอนดึกๆ คุณนั่งอยู่หน้าจอ ในหัวรู้แล้วว่าต้องแก้โค้ดตรงไหน แต่ต้องนั่งพิมพ์คำสั่งยาวๆ อธิบายให้ AI เข้าใจ พิมพ์ผิดก็ต้องลบ พิมพ์ใหม่ก็ต้องคิด

บางทีแค่อยากบอกว่า "ช่วยแก้ตรง login ให้ใช้ token แบบใหม่" แต่กว่าจะพิมพ์เสร็จก็หมดแรงไปครึ่งนึงแล้ว

ทีนี้ถ้าบอกว่า แค่กดปุ่มค้างแล้วพูด มันก็ไปทำให้เลย?

Anthropic เปิดตัว Voice Mode สำหรับ Claude Code เมื่อต้นเดือนมีนาคม 2026 ฟีเจอร์ที่ทำให้สั่ง AI เขียนโค้ดด้วยเสียงได้ รองรับ 20 ภาษา ไม่ต้องพิมพ์อีกต่อไป

ผมลองขุดข้อมูลมาให้ วันนี้มาเล่าว่ามันทำอะไรได้บ้าง ใช้ยังไง และมีอะไรที่ต้องระวัง

developer speaking into microphone while looking at code on terminal screen (Ibrahim Yusuf on Unsplash)

เหมือนเปลี่ยนจาก SMS เป็นวอยซ์เมสเสจ

ปกติเวลาใช้ Claude Code เราต้องพิมพ์คำสั่งเป็นตัวอักษรทุกครั้ง จะแก้บั๊กก็พิมพ์ จะ refactor ก็พิมพ์ จะอธิบายว่าอยากได้อะไรก็ต้องนั่งพิมพ์

Voice Mode เปลี่ยนเรื่องนี้ แค่กดปุ่ม spacebar ค้างไว้แล้วพูด ระบบจะแปลงเสียงเป็นตัวอักษรแบบ real-time แล้วใส่ลงใน prompt ให้เอง ปล่อยมือเมื่อไหร่ มันก็ส่งคำสั่งไปทำงานเลย

เปรียบง่ายๆ คือเหมือนเปลี่ยนจากส่ง SMS เป็นส่งวอยซ์เมสเสจ เร็วกว่า สะดวกกว่า โดยเฉพาะเวลาที่รู้ว่าต้องการอะไรแต่ขี้เกียจนั่งพิมพ์

ต้องบอกก่อนว่า Voice Mode เป็นแค่ input เท่านั้น คือพูดสั่งได้ แต่ AI ตอบกลับเป็นข้อความ ไม่ได้พูดตอบ อย่าเข้าใจผิดว่าจะคุยโต้ตอบกันด้วยเสียงได้

เริ่มใช้งานใน 3 ขั้นตอน

ขั้นแรก ต้องแน่ใจว่าใช้ Claude Code เวอร์ชัน 2.1.69 ขึ้นไป อัปเดตได้ตามปกติ

ขั้นที่สอง ต้องล็อกอินด้วย Claude.ai account เท่านั้น ใช้ไม่ได้กับ API key โดยตรง และต้องเป็นแพลน Pro, Max, Team หรือ Enterprise ผู้ใช้ฟรีไม่มีสิทธิ์

ขั้นที่สาม พิมพ์ /voice ในเทอร์มินัล เท่านี้ voice mode ก็เปิดแล้ว ถ้าอยากให้เปิดอัตโนมัติทุกครั้ง ตั้งค่า voiceEnabled เป็น true ใน settings ได้เลย

แค่ 3 ขั้นตอน ไม่ต้องติดตั้งอะไรเพิ่ม ไม่ต้อง config ซับซ้อน

terminal screen showing /voice command being typed with voice mode activated

กดค้างแล้วพูด ระบบ Push-to-Talk

Voice Mode ใช้ระบบ push-to-talk เหมือนวิทยุสื่อสาร ไม่ได้เปิดไมค์ฟังตลอดเวลา กดค้าง spacebar เมื่อไหร่ มันถึงจะเริ่มฟัง

พอกดค้างไปสักครู่ จะมีข้อความขึ้นว่า "keep holding..." เพราะระบบต้องตรวจจับก่อนว่าเรากดค้างจริง ไม่ใช่แค่กดเว้นวรรค จากนั้นจะขึ้น waveform แสดงว่ากำลังอัดเสียงอยู่ พอพูดเสร็จก็ปล่อยมือ ข้อความจะถูกแปลงเป็นตัวอักษรใส่ตรงตำแหน่ง cursor ให้เลย

ถ้ารู้สึกว่า warmup ช้าไป เปลี่ยนปุ่มได้ เปิดไฟล์ ~/.claude/keybindings.json แล้วตั้งเป็นปุ่มผสมอย่าง meta+k จะเริ่มอัดทันทีไม่ต้องรอ

ผมว่าตรงนี้ Anthropic คิดดี เพราะเทอร์มินัลเป็นที่ที่เราพิมพ์ spacebar บ่อย ถ้าเปิดฟังตลอดจะวุ่นวายมาก push-to-talk ทำให้เราเลือกได้ว่าจะพูดตอนไหน

ผสมพิมพ์กับพูดในข้อความเดียว

อันนี้เจ๋งมาก คุณพิมพ์ครึ่งนึงแล้วกด spacebar ค้างพูดต่ออีกครึ่งได้

สมมติพิมพ์ไปว่า "refactor the auth middleware to" แล้วกดค้าง spacebar พูดต่อว่า "use the new token validation helper" ระบบจะต่อข้อความให้เป็นประโยคเดียวกัน ไม่ต้องเลือกว่าจะพิมพ์หรือพูด ใช้สลับกันได้ตลอด

ถ้าเป็นคุณ คุณชอบพิมพ์ส่วนที่เป็นชื่อ function หรือ path แล้วพูดอธิบายส่วนที่เหลือ หรือพูดหมดเลย?

เหมือนเขียนจดหมายไปครึ่งนึงแล้วเขียนไม่ทัน ก็ยกหูโทรศัพท์สั่งต่อ ได้ทั้งสองทาง

split screen showing keyboard typing and voice waveform side by side (Mohamed Marey on Unsplash)

รู้จักศัพท์ dev ไม่ต้องสะกด

ปัญหาใหญ่ของ voice-to-text ทั่วไปคือมันไม่รู้จักศัพท์โปรแกรมเมอร์ พูดว่า "regex" มันอาจจะแปลเป็นอะไรก็ไม่รู้ พูดว่า "OAuth" มันอาจจะเขียนเป็น "oh auth" ให้

Claude Code แก้ปัญหานี้โดยปรับแต่งการถอดเสียงมาเฉพาะ ศัพท์อย่าง regex, OAuth, JSON, localhost มันจำได้ถูกต้อง ยังดึงชื่อ project กับ git branch ของเรามาเป็น recognition hints อัตโนมัติด้วย

รองรับ 20 ภาษาทั่วโลก ตั้งแต่อังกฤษ ญี่ปุ่น เกาหลี ฮินดี อินโดนีเซีย ไปจนถึงภาษายุโรปอย่างเยอรมัน ฝรั่งเศส สเปน เปลี่ยนภาษาได้ใน /config

แต่ต้องบอกตรงๆ ว่ายังไม่รองรับภาษาไทย ถ้าจะใช้ voice mode ตอนนี้ต้องพูดภาษาอังกฤษหรือภาษาอื่นที่รองรับ

สั่ง AI ว่าคิดหนักแค่ไหน

นอกจาก voice mode แล้ว Claude Code ยังมีฟีเจอร์ที่น่าสนใจไม่แพ้กัน คือ effort levels ให้เราบอก AI ได้ว่างานนี้ต้องคิดมากน้อยแค่ไหน

เปรียบเหมือนสั่งกาแฟ low คือกาแฟสำเร็จรูป เร็วและตรงประเด็น medium คือกาแฟจากเครื่อง ดีพอสมควรสำหรับงานทั่วไป high คือบาริสต้าชงมือ ละเอียดทุกขั้นตอน อ่านไฟล์เพิ่ม รัน command เพิ่ม อธิบายแผนก่อนลงมือทำ

ยังมีระดับ max ที่ลึกสุดไม่จำกัด แต่ใช้ได้เฉพาะกับ Opus 4.6 เท่านั้น ถ้าลองใช้ max กับ model อื่นจะ error ทันที

ตั้งค่าง่ายๆ แค่พิมพ์ /effort แล้วเลือกระดับ ค่า default ของ Opus 4.6 บน Max และ Team คือ medium ตั้งครั้งเดียวจำข้ามเซสชันได้เลย ยกเว้น max ที่จะ reset ทุกครั้งที่เริ่มเซสชันใหม่

coffee cups in a row from instant to barista quality representing effort levels (kian zhang on Unsplash)

ultrathink คำวิเศษที่ต้องรู้

ผมชอบฟีเจอร์นี้มาก พิมพ์คำว่า "ultrathink" ตรงไหนก็ได้ใน prompt แล้ว AI จะเพิ่มระดับความคิดเป็น high สำหรับเทิร์นนั้นเทิร์นเดียว

เหมือนบอกพนักงานว่า "อันนี้สำคัญนะ คิดดีๆ ก่อนตอบ" แล้วเทิร์นถัดไปมันก็กลับไปทำงานปกติตาม effort ที่ตั้งไว้ ไม่ต้องไปเปลี่ยนค่า default ให้วุ่นวาย

ต้องระวังเรื่องนึง มีบทความหลายที่เขียนว่า ultrathink จะ trigger budget thinking สูงสุด แต่จริงๆ ตาม official docs ปัจจุบัน ultrathink ตั้ง effort เป็น high ไม่ใช่ max ข้อมูลเก่าพวกนั้นมาจากก่อนระบบ adaptive thinking จะเข้ามาแทนที่

ultrathink ไม่ได้สั่งให้ AI คิดสูงสุด แต่สั่งให้คิดละเอียดขึ้นสำหรับเทิร์นนั้น ถ้าต้องการสูงสุดจริงๆ ต้องใช้ /effort max บน Opus 4.6 เท่านั้น

อ่านได้ 3,000 หน้าในทีเดียว

ตรงนี้ผมอ่านแล้วขนลุก

Opus 4.6 และ Sonnet 4.6 มี context window ขนาด 1 ล้าน tokens แปลเป็นภาษาคนคือประมาณ 3,000 หน้ากระดาษ

ลองนึกว่าเราให้ AI อ่านหนังสือทั้งตู้แล้วถามอะไรมันก็ตอบได้ ในขณะที่คนเราบางทียังจำบทความที่อ่านเมื่อวานไม่หมดเลย

บน Max, Team และ Enterprise ได้ 1 ล้าน tokens อัตโนมัติ ไม่ต้องตั้งค่าอะไรเพิ่ม เมื่อ conversation ยาวมากจนใกล้เต็ม ระบบจะ auto-summarize ส่วนเก่าให้เอง ไม่ต้องกลัวว่าจะหลุด context

ด้าน output ก็ไม่น้อย Opus 4.6 เขียนตอบได้สูงสุด 128,000 tokens เพียงพอสำหรับงานหนักๆ อย่างเขียน feature ใหม่ทั้ง module ส่วน Sonnet 4.6 อยู่ที่ 64,000 tokens

massive library with books representing AI reading thousands of pages (Daniel Forsman on Unsplash)

ข้อจำกัดที่ต้องรู้ก่อนใช้

Voice mode มีข้อจำกัดสำคัญที่บทความหลายที่ไม่ได้บอก ผมรวมมาให้

ต้องใช้ microphone ของเครื่องโดยตรง ใช้ไม่ได้บน remote environment เช่น SSH หรือ Claude Code on the web เพราะ push-to-talk ต้องเข้าถึงเสียงจากเครื่องจริงๆ

ต้องล็อกอินด้วย Claude.ai account เท่านั้น ถ้าใช้ API key ตรง หรือใช้ผ่าน Amazon Bedrock, Google Vertex AI, Microsoft Foundry จะใช้ voice mode ไม่ได้ เพราะระบบถอดเสียงทำงานผ่าน service ของ Claude.ai

บน macOS ต้องให้ permission microphone ใน System Settings บน Linux ใช้ native module หรือ fallback เป็น arecord/rec ส่วน Windows รองรับ native binary ตั้งแต่เวอร์ชัน 2.1.70 แต่ถ้าใช้ WSL ต้องเป็น WSL2 บน Windows 11 ที่มี WSLg

ผมว่ามันเปลี่ยนวิธีเขียนโค้ด

ถ้าถามผม Voice Mode ไม่ใช่แค่ฟีเจอร์เล็กๆ ที่เพิ่มมาให้สนุก มันเปลี่ยนวิธีที่เราโต้ตอบกับ AI ในเทอร์มินัล

ลองนึกดู เวลา debug ปัญหาซับซ้อน เราอยากอธิบายบริบทยาวๆ ว่า "ตรงนี้มันต้องทำงานแบบนี้ แต่ตอนนี้มัน error เพราะ..." พิมพ์ยาวมาก แต่พูดแค่ 10 วินาทีก็จบ

หรือตอนทำ code review อยากบอกว่า "ตรง function นี้ performance ไม่ดี ช่วยเปลี่ยนให้ใช้ caching แทน" พูดเร็วกว่าพิมพ์เยอะ

แน่นอนว่ามันยังไม่สมบูรณ์ ยังไม่มีภาษาไทย ยังต้องใช้เครื่องตัวเองไม่ได้ remote แต่ทิศทางชัดเจนว่ากำลังไปทางไหน ผมขุดข้อมูลมาให้แล้ว ที่เหลือคือลองเปิด /voice แล้วกดค้าง spacebar ดูเอง