DeepSeek เปิดซอร์ส DSpark · เร่งโมเดลให้ตอบเร็วขึ้น 57–85% โดยไม่เทรนใหม่ ไม่เปลี่ยนการ์ดจอ คำตอบเท่าเดิม
DeepSeek เปิดซอร์ส DSpark โมดูล speculative decoding ที่เร่งให้โมเดลตอบเร็วขึ้น 57–85% ต่อผู้ใช้หนึ่งคน โดยคำตอบยังเหมือนเดิมทุกตัวอักษร บทความนี้อธิบายว่ามันทำงานยังไง และใครได้ประโยชน์จริง เพราะบนเครื่องส่วนตัวอาจไม่ช่วย หรือช้าลงด้วยซ้ำ

DSpark คือโมดูลเร่งความเร็วโมเดล AI ที่ DeepSeek แล็บ AI เจ้าของโมเดลโอเพนซอร์สตระกูล V4 เพิ่งเปิดซอร์สออกมา จุดขายของมันคือทำให้โมเดลตอบเร็วขึ้น 57–85% ต่อผู้ใช้หนึ่งคน โดยไม่ต้องเทรนโมเดลใหม่ ไม่ต้องซื้อการ์ดจอเพิ่ม และคำตอบที่ออกมาเหมือนเดิมทุกตัวอักษร
ช่วงหลังหลายคนน่าจะรู้สึกว่าโมเดล AI ที่ใช้อยู่ตอบไวขึ้นเรื่อย ๆ ไม่ว่าจะเป็น Copilot ตอนช่วยเขียนโค้ด โมเดลที่รันเองผ่าน Ollama หรือแชตบอตทั่วไป เบื้องหลังความไวส่วนใหญ่มาจากเทคนิคเดียวกันชื่อ speculative decoding วิธีนี้ให้โมเดลตัวเล็กเดาคำล่วงหน้า แล้วให้โมเดลตัวใหญ่ตรวจทีเดียว ส่วน DSpark คือเวอร์ชันที่ DeepSeek ปรับให้แรงกว่าเดิม พร้อมปล่อยทั้งโค้ดและ checkpoint ออกมาให้ใช้ได้จริง
ทำไม AI ถึงเขียนคำตอบช้า
เวลาโมเดลภาษาเขียนคำตอบให้เรา มันไม่ได้พ่นทั้งย่อหน้าออกมาทีเดียว แต่สร้างทีละโทเคน (token · ชิ้นคำเล็ก ๆ) เรียงต่อกันไปทีละตัว กว่าจะได้ย่อหน้าหนึ่งก็คือวนซ้ำหลายร้อยรอบ
แต่ที่มันช้าไม่ใช่เพราะการ์ดจอคิดหนักจนคิดไม่ทัน จริง ๆ แล้วตรงกันข้าม การ์ดจอส่วนใหญ่นั่งรอให้ระบบโหลดค่าพารามิเตอร์ (weight) จำนวนมหาศาลของโมเดลจากหน่วยความจำเข้ามาในหน่วยประมวลผล เพื่อสร้างโทเคนแค่ตัวเดียว พอได้ตัวนั้นแล้วก็ต้องโหลด weight ชุดเดิมเข้ามาใหม่อีกรอบ เพื่อสร้างโทเคนถัดไป
speculative decoding คือคำตอบตรง ๆ ของโจทย์นี้ ถ้าเราโหลด weight เข้ามาทีหนึ่งอยู่แล้ว ทำไมไม่ตรวจหลาย ๆ โทเคนรวดเดียวไปเลย
โมเดลเล็กเดา โมเดลใหญ่ตรวจทีเดียว

หัวใจของ speculative decoding คือจับคู่โมเดลสองตัวทำงานด้วยกัน ตัวเล็กที่เร็ว เรียกว่า draft และตัวใหญ่ตัวจริงที่แม่นกว่า เรียกว่า target
รอบการทำงานเป็นแบบนี้ โมเดล draft เดาคำถัดไปล่วงหน้าเป็นบล็อกยาว ๆ ในทีเดียว เพราะมันเล็กเลยเดาได้ไว จากนั้นโมเดล target ตรวจทั้งบล็อกในรอบเดียว ตรงไหนที่ตัวเล็กเดาตรงกับสิ่งที่ตัวใหญ่จะเขียนอยู่แล้ว โทเคนช่วงนั้นก็ผ่านทันทีโดยแทบไม่มีต้นทุนเพิ่ม เจอตัวแรกที่เดาผิดเมื่อไหร่ ตัวใหญ่ก็แก้ตรงนั้นเอง แล้วเริ่มเดารอบใหม่ต่อจากจุดนั้น
ที่สำคัญคือผลลัพธ์สุดท้ายเหมือนกันเป๊ะกับตอนที่ให้ตัวใหญ่เขียนเองล้วน ๆ ทุกตัวอักษร เพราะทุกโทเคนที่ผ่านต้องตรงกับที่ตัวใหญ่จะเลือกอยู่ดี เราจึงได้ความเร็วมาฟรี ๆ โดยไม่ต้องแลกด้วยคุณภาพ ภาษาเทคนิคเรียกว่า lossless
เทคนิคนี้จะเร็วแค่ไหนจึงขึ้นกับว่าโมเดลเล็กเดาได้ยาวและแม่นแค่ไหน ยิ่งเดาถูกติดกันยาว target ก็ยิ่งตรวจผ่านได้เยอะต่อหนึ่งรอบ ความเร็วก็ยิ่งเพิ่ม และตรงนี้เองที่ของเก่ายังทำได้ไม่สุด
DSpark เติมอะไรเข้าไปสองอย่าง
ก่อนหน้านี้วิธีทำ draft มีสองสายหลัก แต่ละสายมีจุดอ่อนคนละแบบ
สายแรกเดาแบบอนุกรม (เช่น Eagle 3) คือเดาทีละคำโดยดูคำก่อนหน้าประกอบ วิธีนี้แม่นแต่ช้า เพราะต้องรอเดาทีละตัว ทำให้บล็อกที่ผ่านการตรวจสั้น สายที่สองเดาแบบขนาน (เช่น DFlash) คือเดาทั้งบล็อกออกมาพร้อมกันทีเดียว จึงเร็วและได้บล็อกยาว แต่ปัญหาคือช่วงท้ายของบล็อกมักเพี้ยนออกนอกทาง จนโดนตัวใหญ่ปฏิเสธทิ้ง เปเปอร์ของ DSpark เรียกอาการนี้ว่า suffix decay คือยิ่งไปทางท้ายบล็อก อัตราที่เดาถูกยิ่งร่วง (วัดชัดบน Qwen-3)
DSpark แก้สองจุดนี้ด้วยของเสริมสองชิ้น
ชิ้นแรก · serial head บาง ๆ ที่ทำให้เดาได้ยาวขึ้น DSpark เอาแกนเดาแบบขนานที่เร็วอยู่แล้ว มาเสริมส่วนเดาแบบอนุกรมเบา ๆ ให้แต่ละคำที่เดาได้ดูคำก่อนหน้าหนึ่งตัว แค่นี้ก็ช่วยกันไม่ให้ท้ายบล็อกเพี้ยน โดยแทบไม่เสียความเร็วของการเดาขนาน ผลคือในหนึ่งรอบ โมเดลเดาถูกและผ่านการตรวจได้มากขึ้นราว 30% เทียบกับ Eagle 3 และมากกว่า DFlash อยู่ 16–18% (วัดบน Qwen-3) ยิ่งผ่านได้มากก็ยิ่งเร็ว
ชิ้นที่สอง · confidence head กับตัวจัดคิวที่ดูโหลดเซิร์ฟเวอร์ DSpark เพิ่มตัวให้คะแนนว่าคำที่เดาแต่ละคำมีโอกาสผ่านการตรวจแค่ไหน แล้วจับคู่กับตัวจัดคิวที่คอยดูว่าตอนนี้เซิร์ฟเวอร์งานหนักหรือว่าง ถ้าว่างก็ตรวจทั้งบล็อกตามปกติ แต่ถ้างานหนัก มันจะเลือกตรวจเฉพาะช่วงต้นที่มั่นใจ แล้วข้ามช่วงท้ายที่ยังไงก็คงโดนทิ้งอยู่ดี ทำให้ทั้งระบบตอบเร็วขึ้น ไม่ใช่แค่คำขอเดียว
ถ้ามองเป็นสมการ เวลาต่อโทเคนหนึ่งตัวเท่ากับเวลาที่ใช้เดาบวกเวลาที่ใช้ตรวจ แล้วหารด้วยจำนวนโทเคนที่ผ่านต่อรอบ ของเสริมชิ้นแรกของ DSpark เพิ่มตัวหาร เพราะเดาถูกต่อรอบได้มากขึ้น ส่วนชิ้นที่สองลดตัวตั้ง เพราะไม่เสียเวลาตรวจส่วนที่จะทิ้ง สองแรงนี้รวมกันคือที่มาของตัวเลขที่ DeepSeek โชว์
เร็วขึ้น 57–85% แต่ต้องดูว่าวัดจากตรงไหน
ตัวเลขพาดหัวคือ เร็วขึ้น 57–85% ต่อผู้ใช้หนึ่งคน แต่ต้องอ่านเงื่อนไขให้ครบ ตัวเลขนี้มาจากระบบให้บริการโมเดล V4 Flash และ V4 Pro ของ DeepSeek เอง โดยปริมาณงานรวมของเครื่อง (throughput) เท่าเดิม ฮาร์ดแวร์เท่าเดิม และไม่ได้เทรนโมเดลใหม่ พูดง่าย ๆ คือแต่ละคนได้คำตอบไวขึ้นด้วยการ์ดจอชุดเดิมที่มีอยู่
มีตัวเลขที่สูงกว่านั้นให้เห็นอยู่บ้าง เช่นช่วง 50–400% แต่ต้องเข้าใจว่านั่นเป็นกรณีสุดขั้วบางจังหวะของระบบให้บริการ ไม่ใช่ค่าปกติ เลขที่ควรจำและเอาไปพูดต่อคือ 57–85%
อีกจุดที่ต้องแยกให้ชัดคือ DSpark ไม่ใช่โมเดล มันคือเฟรมเวิร์กเร่งความเร็วที่แปะเพิ่มเข้าไป ส่วน V4 Flash และ V4 Pro คือตัวโมเดล อย่างที่ในหน้า model card เขียนไว้ตรง ๆ ว่านี่ไม่ใช่โมเดลใหม่ เป็น checkpoint ตัวเดิมที่พ่วงโมดูล speculative decoding เข้าไปเฉย ๆ
ของดีอีกอย่างคือมันเปิดซอร์สจริง ทั้งโค้ดที่ใช้เทรนและ checkpoint ของตัว draft ปล่อยออกมาภายใต้สัญญาอนุญาต MIT ผ่านโปรเจกต์ DeepSpec และตัว draft ของ DSpark ก็ไม่ได้ผูกกับสถาปัตยกรรมของ DeepSeek อย่างเดียว ถ้ามี draft checkpoint ที่ตรงรุ่น ก็เอาไปใช้กับ Qwen หรือ Gemma ได้เหมือนกัน
ใครได้ประโยชน์จริง ๆ

ตรงนี้คือส่วนที่ต้องพูดตามตรง เพราะไม่ใช่ทุกคนที่เปิด DSpark แล้วจะเร็วขึ้น
คนที่ได้เต็ม ๆ คือทีมที่ให้บริการ LLM กับคนจำนวนมากพร้อมกัน ทั้งฝั่งโปรดักชันและงานที่รันหลายเครื่องพร้อมกัน เพราะตัวจัดคิวที่คอยดูโหลดของเครื่องจะมีประโยชน์เต็มที่ตอนมีคำขอเข้ามาเยอะ กลุ่มนี้จะตอบผู้ใช้ได้ไวขึ้นด้วยการ์ดจอชุดเดิม ซึ่งแปลว่าประหยัดต้นทุนโดยตรง
แต่บนโน้ตบุ๊กหรือเครื่องส่วนตัวที่รันให้ตัวเองใช้คนเดียว มันอาจไม่ช่วย และบางทีช้าลงด้วยซ้ำ เหตุผลอยู่ที่อัตราส่วนความเร็วระหว่างตัวเล็กกับตัวใหญ่ speculative decoding จะคุ้มก็ต่อเมื่อ draft เร็วกว่า target ราว 10–30 เท่า ถ้าช่องว่างแคบกว่านั้น เวลาที่เสียไปกับการเดาแล้วโดนปฏิเสธจะมากกว่าเวลาที่ประหยัดได้ จนสุดท้ายช้ากว่าการถอดรหัสแบบปกติ
มีคนลองทำซ้ำบน MacBook M2 Max โดยจับ draft ขนาด 0.6B คู่กับ target ขนาด 8B ผลคือ 3 ใน 4 คำตอบตรงกับตัวใหญ่ทุกตัวอักษร ส่วนอีกคำตอบต่างไปนิดเดียวเพราะบางจุดคะแนนสูสีกันมาก แต่โดยรวมกลับช้าลง ไม่ใช่เร็วขึ้น เพราะ draft เร็วกว่า target แค่ประมาณ 3.5 เท่า ทั้งที่ต้องให้ draft เร็วกว่า target ราว 10–30 เท่าถึงจะคุ้ม แถมยังไม่มี draft ของ DSpark ตัวจริงที่ฝึกมาแล้วให้ใช้ด้วย
สำหรับทีมที่ให้บริการ LLM อยู่แล้วและอยากลองจริง จุดเริ่มไม่ยาก โหลด checkpoint ตัว DeepSeek-V4-Pro-DSpark หรือ V4-Flash-DSpark มาก่อน แล้วรันด้วย vLLM โดยเปิด DSpark ด้วยแฟล็กเดียวตอนสั่งรัน
--speculative-config '{"method":"dspark","num_speculative_tokens":7,"draft_sample_method":"greedy"}'ถ้าฐานที่ใช้อยู่เป็น Qwen หรือ Gemma ก็จับคู่ draft checkpoint ที่ตรงรุ่นได้ตามหลักเดียวกัน กลไกและตัวเลขทั้งหมดนี้ DeepSeek เขียนอธิบายไว้เองในบล็อกเปิดตัว DSpark และในหน้า model card บน Hugging Face
รู้ไว้ ถึงจะไม่ได้รันเซิร์ฟเวอร์เอง
ต่อให้ไม่ได้ดูแลเซิร์ฟเวอร์ LLM สักตัว เรื่องนี้ก็ยังควรรู้ เพราะ speculative decoding คือหนึ่งในเหตุผลหลักที่โมเดลทั้งวงการตอบไวขึ้นเรื่อย ๆ โดยที่คุณภาพไม่ตก และ DSpark คือเครื่องมือล่าสุดในสายนี้ที่เปิดให้ทุกคนหยิบไปใช้ต่อได้
ความเร็วที่เพิ่มขึ้นไม่ได้มาจากการที่โมเดลคิดเร็วขึ้น แต่มาจากการเดาให้แม่นแล้วตรวจทีเดียว โดยคำตอบต้องเท่าเดิมทุกตัวอักษร พอเข้าใจแก่นตรงนี้ ครั้งต่อไปที่เห็นใครโชว์ว่าโมเดลของตัวเองเร็วขึ้นกี่เปอร์เซ็นต์ เราจะถามต่อทันทีว่าเร็วตรงไหน วัดกับใคร และแลกอะไรไปหรือเปล่า
ที่มา:
- บทความ DSpark Speculative Decoding จาก DeepSeek
- model card deepseek-ai/DeepSeek-V4-Pro-DSpark · Hugging Face จาก DeepSeek



