$ loading

$ loading ~/vibecoding

$ cat blog/opus-4-8-long-running-tasks.md

Opus 4.8 รันงานยาวเองได้ 11 ชั่วโมงครึ่ง · เลิก babysit AI ทีละ prompt มาเป็น 'มอบโจทย์ก้อนเดียวแล้วเดินจากไป'

Anthropic เปิดตัว Claude Opus 4.8 (28 พ.ค. 2026) โดยชูจุดขายเรื่อง "ความนิ่งและการทำงานเองได้ในงานที่รันยาวต่อเนื่อง". ในคลิปสาธิตของ Claude เอา 4.8 มาคู่กับ Claude Code (auto mode + /goal + Remote Control) แล้วปล่อยให้ย้ายทั้ง monorepo รันเอง 11 ชั่วโมง 38 นาที จบเป็น PR เขียวที่รีวิวแล้ว ระหว่างที่เจ้าของโค้ดเดินไปเล่นว่าว. บทความนี้สรุปว่าเปลี่ยนอะไรจริง วิธีมอบงานยาวให้ทำตามได้ และทำไม "รันเองได้" ที่ดีต้องมาคู่กับวินัยที่คนยังอยู่ในวงตัดสินใจ

31 พฤษภาคม 2569 · 16 นาที · อ่าน 27 ครั้ง

Opus 4.8 รันงานยาวเองได้ 11 ชั่วโมงครึ่ง · เลิก babysit AI ทีละ prompt มาเป็น 'มอบโจทย์ก้อนเดียวแล้วเดินจากไป' — เฟรมจากคลิปสาธิตของ Claude (ช่อง Anthropic): Claude Code รันงานย้าย monorepo เองจนขึ้น "Crunched for 11h 38m 27s"

มีคลิปสาธิตหนึ่งจากช่อง Claude (ของ Anthropic) ที่อธิบายการเปลี่ยนวิธีทำงานกับ AI ได้ตรงกว่าสเปกยาวๆ หลายหน้า. ในคลิปนั้น เจ้าของโค้ดมอบงานย้ายทั้ง monorepo (repo เดียวที่รวมหลายแอปไว้ด้วยกัน) สี่แอปจากระบบ routing เก่าไปเป็นระบบใหม่ของ Next.js ให้ Claude Code ทำเป็น "โจทย์ก้อนเดียว" แล้วเดินออกไปเล่นว่าวที่สวนสาธารณะ. เมื่อกลับมา หน้าจอ terminal ขึ้นว่า Crunched for 11h 38m 27s พร้อม PR (คำขอรวมโค้ด หรือ pull request) ที่ผ่านการตรวจครบทุกด่านและมีรีวิวแนบมาให้ ทั้งหมดนี้เกิดขึ้นโดยที่คนไม่ได้นั่งเฝ้าหน้าจอ.

จุดเริ่มของเรื่องคือโมเดลรุ่นใหม่. Anthropic เปิดตัว Claude Opus 4.8 เมื่อวันที่ 28 พฤษภาคม 2026 ในราคาเท่ารุ่นก่อนหน้า ($5 ต่อล้าน input token และ $25 ต่อล้าน output token) โดยชูจุดขายตรงๆ บนหน้า product ว่าโมเดลนี้มี "consistency and autonomy to keep working on long-running tasks" หรือความนิ่งและการทำงานเองได้เพื่อรันงานที่ยาวต่อเนื่อง (Anthropic). บทความนี้จะแยกให้เห็นว่าอะไรเปลี่ยนจริง อะไรคือภาพในคลิปสาธิตที่ยังไม่ได้การันตีผลของทุกคน วิธีมอบงานยาวให้ Claude แบบที่ทำตามได้ และทำไม "AI ทำงานเองได้" ที่น่าไว้ใจต้องมาพร้อมวินัยที่ยังมีคนกำกับอยู่เสมอ.

Note: ตัวเลขทุกตัวที่ปรากฏในคลิป (11 ชั่วโมง 38 นาที, ลดโค้ด 1,847 บรรทัด, bundle เล็กลง 18%, คะแนน lighthouse 81 ขึ้น 94, ผ่าน 7 ด่านตรวจ) เป็นภาพจากเดโมที่ Anthropic จัดมาหนึ่งชิ้น ไม่ใช่ผลเฉลี่ยที่การันตีกับงานจริงของทุกคน ดังนั้นบทความนี้จะกำกับว่า "ในคลิปสาธิต" ทุกครั้งที่อ้างถึงตัวเลขเหล่านี้

1. 11 ชั่วโมง 38 นาทีที่ไม่มีใครเฝ้า

คลิปนี้ไม่มีเสียงพากย์ เป็นการบันทึกหน้าจอ Claude Code ล้วนๆ และเล่าเรื่องผ่านข้อความบน terminal. เปิดเรื่องด้วยวิธีทำงานแบบเดิม: เปิดหลาย session พร้อมกัน แต่ละ session ทำงานสั้นๆ แล้วเด้งกลับมาถามคนตลอด เช่น "Ready to implement this change?" หรือ "New admin toggle is ready for review." ภาพนี้สื่อความรู้สึกที่นักพัฒนาหลายคนคุ้นเคย นั่นคือคนกลายเป็นคอขวด ต้องคอยกดอนุมัติทีละจังหวะ (คลิปสาธิตของ Claude).

จากนั้นคลิปขึ้นการ์ด "Introducing Opus 4.8" แล้วสาธิตวิธีใหม่: พิมพ์โจทย์เข้าไปครั้งเดียว สั่งให้ย้าย apps/dashboard ไปเป็น App Router พร้อมอธิบายว่าแอปนี้เป็นหน้าหลักที่ทั้งบริษัทใช้ และยังมีอีกสามแอปตามมา จึงอยากให้วาง pattern ให้ถูกตั้งแต่ครั้งแรก. พอสั่งเสร็จ คนในคลิปก็ลุกออกไปเล่นว่าวจริงๆ (มีการ์ดนัด "Afternoon at the park" โผล่ขึ้นมา) แล้วปล่อยให้ Claude ทำงานต่อระหว่างที่ตัวเองไม่อยู่ (คลิปสาธิตของ Claude).

ปลายทางในคลิปสาธิตคือ terminal ขึ้นว่า Crunched for 11h 38m 27s ย้ายครบทั้งสี่แอป ลบโฟลเดอร์ pages/ ออกหมด และจบเป็น PR ที่ผ่านด่านตรวจครบ. นี่คือภาพรวมที่บทความจะค่อยๆ แกะให้เห็นว่าทำไมถึงเป็นไปได้ และมีวินัยอะไรซ่อนอยู่เบื้องหลังคำว่า "รันเอง 11 ชั่วโมง".

2. 4.7 → 4.8 เปลี่ยนอะไรจริงๆ

ก่อนอื่นต้องตั้งกรอบให้ตรง เพราะจุดนี้พลาดง่าย. 4.8 ไม่ได้แปลว่า 4.7 "ทำงานยาวไม่ได้". เอกสาร migration guide ของ Anthropic ระบุชัดว่า 4.7 เองก็เป็นโมเดลที่ "highly autonomous and performs exceptionally well on long-horizon agentic work" อยู่แล้ว และการย้ายจาก 4.7 ไป 4.8 ก็ "ไม่มี breaking change" ใช้ราคาเท่ากันและ context window 1M เท่ากัน (Claude API Docs). คลิปที่เอา 4.7-หลาย-session-หยุดถาม มาเทียบกับ 4.8-งานเดียว-รันยาว จึงเป็นการเล่าเรื่องให้เห็นภาพ ไม่ใช่การบอกว่ารุ่นเก่าทำไม่ได้.

สิ่งที่ 4.8 ปรับปรุงจริงคือ "ความนิ่งเวลารันยาว". เอกสาร What's new ของ Anthropic อธิบายว่า 4.8 พัฒนาด้าน long-horizon agentic coding โดยจัดการ context ยาวๆ ได้ดีขึ้น เจอการบีบอัดบริบท (compaction คือเมื่อบทสนทนายาวมากจนระบบต้องบีบความจำ) น้อยลง และฟื้นจากการบีบได้ดีขึ้น. จุดสำคัญคือประโยคที่ว่า "long agentic traces stay on task with fewer derailments after compaction" หรือเส้นงานยาวๆ ยังเกาะเป้าหมายได้ เพี้ยนออกนอกทางน้อยลงหลังบริบทถูกบีบ นอกจากนี้ยังเรียกใช้ tool (เครื่องมือที่โมเดลเรียกใช้) ได้แม่นขึ้น พลาดข้ามขั้นที่จำเป็นน้อยลง (Claude API Docs).

อีกมุมที่ Anthropic ชูคือเรื่องความซื่อตรงของโมเดล โดยรายงานว่า 4.8 "มีโอกาสปล่อยให้ข้อบกพร่องในโค้ดผ่านไปโดยไม่ทักท้วง น้อยกว่า 4.7 ราว 4 เท่า" (Anthropic). ตัวเลขนี้เป็นค่าที่ผู้พัฒนาโมเดลรายงานเอง ไม่ใช่ benchmark จากบุคคลที่สาม จึงควรอ่านในฐานะคำของ Anthropic. รวมกันแล้วภาพของ 4.8 คือ ทำงานยาวได้นิ่งขึ้น เกาะเป้าหมายดีขึ้น ทักท้วงตัวเองมากขึ้น และถามคนเฉพาะเมื่อจำเป็นจริงๆ ซึ่งใน Claude Code เองก็มีการปรับให้ "สงวนคำถามแบบเลือกตอบไว้สำหรับการตัดสินใจที่มันทำเองไม่ได้จริงๆ" แทนที่จะถามทั้งที่มีบริบทพอจะไปต่อได้แล้ว (Claude Code Docs).

เทียบ Opus 4.7 กับ 4.8 ว่าคอขวดอยู่ที่ใคร ฝั่ง 4.7 เปิดหลาย session ที่เด้งกลับมาขอ input ตลอด คนเลยกลายเป็นคอขวด ส่วนฝั่ง 4.8 รับโจทย์ก้อนเดียวแล้วรันต่อเนื่องเอง ถามคนน้อยลง

3. "งานที่รันยาวต่อเนื่อง" จริงๆ แล้วคืออะไร

คำว่า long-running task ฟังดูเหมือนแค่ "งานที่ใช้เวลานาน" แต่หัวใจจริงๆ ไม่ได้อยู่ที่เวลา มันอยู่ที่ "นิยามว่าเสร็จ" ที่ตรวจสอบได้. งานที่เหมาะจะปล่อยให้ AI รันยาวคืองานก้อนใหญ่ที่มีปลายทางวัดผลได้ชัด เช่น build ผ่าน (เขียว), test ผ่านครบ, ไฟล์ที่ต้องลบหายไปจริง, หรือคิว issue ว่างเปล่า. เอกสาร Claude Code ยกตัวอย่างงานแบบนี้ไว้ตรงๆ ได้แก่ การย้าย module ไป API ใหม่จนทุกจุดที่เรียกใช้ compile ผ่านและ test เขียว, การทำตาม design doc จนผ่าน acceptance ครบทุกข้อ, หรือการไล่เคลียร์ backlog ของ issue จนคิวหมด (Claude Code Docs).

หลักคิดสำคัญคือ ถ้าวัด "เสร็จ" ไม่ได้ ก็ยังไม่ควรปล่อยให้รันยาว. เพราะสิ่งที่ทำให้ AI รันต่อเนื่องเองได้โดยไม่ต้องถามทุกก้าว คือมันรู้ว่าเป้าหมายหน้าตาเป็นยังไงและจะรู้ได้อย่างไรว่าถึงแล้ว. ในคลิป ทีมแปลงโจทย์ออกมาเป็นนิยามที่ชัดมาก คือ "ย้ายแอปที่เหลือทั้งหมดไป App Router, ลบ pages/ ทิ้ง และ build ต้องเขียว" ซึ่งทุกเงื่อนไขพิสูจน์ได้ด้วยการรันคำสั่งจริงแล้วดูผล (คลิปสาธิตของ Claude).

มุมนี้สอดคล้องกับคำที่ Anthropic ใช้บนหน้า product ว่า Opus 4.8 "plans deliberately, uses memory to learn across sessions, and drives long-running work forward with minimal oversight" หรือวางแผนอย่างตั้งใจ ใช้ memory เรียนรู้ข้ามเซสชัน และผลักงานยาวให้เดินหน้าโดยพึ่งการกำกับน้อยลง (Anthropic). คำว่า "minimal oversight" สำคัญ เพราะมันบอกว่า "น้อยลง" ไม่ใช่ "ไม่มีเลย" ซึ่งจะกลับมาเป็นแกนของเรื่องในส่วนที่ว่าด้วยวินัย human-in-the-loop ต่อไป.

4. วิธีมอบงานยาวให้ Claude จริงๆ

ส่วนนี้คือหัวใจที่เอาไปใช้ได้จริง. การ "มอบงานก้อนเดียวแล้วเดินจากไป" ไม่ได้เกิดจากโมเดลอย่างเดียว แต่เกิดจากการประกอบเครื่องมือสามชิ้นของ Claude Code เข้าด้วยกัน คือ auto mode, /goal, และ Remote Control. ถ้าคุณอยากลองทำตาม นี่คือลำดับที่ใช้ได้จริง.

1. เลือกงานที่มีนิยาม "เสร็จ" ตรวจสอบได้ แล้วตั้งโจทย์ก้อนเดียวพร้อมบอกเหตุผล. อย่าสั่งแค่ "ย้ายไป App Router" แต่ให้บริบทด้วยว่าทำไม เช่นในคลิปที่บอกว่า "นี่คือหน้าหลักที่ทั้งบริษัทใช้ และยังมีอีกสามแอปตามมา ขอให้วาง pattern ให้ถูกตั้งแต่ครั้งแรก". ถ้าคุณใส่บริบท ข้อจำกัด และลำดับความสำคัญไว้ชัด มันจะตัดสินใจระหว่างทางได้ตรงกับที่คุณต้องการ ซึ่งเข้ากับคำว่า "plans deliberately" ที่ Anthropic ใช้ (คลิปสาธิตของ Claude).

2. เปิด auto mode เพื่อตัดการกดอนุมัติทีละ tool. auto mode คือโหมดที่ให้ Claude อนุมัติการเรียก tool เองได้ โดยมีตัวกรอง (classifier) คอยตรวจทุก action ก่อนรันและบล็อกของอันตรายไว้เบื้องหลัง จึงรันได้ต่อเนื่องโดยไม่ต้องเด้งมาถามทุกคำสั่ง (claude.com). คุณเปิดได้ด้วยการสลับโหมดในตัวโปรแกรม (Shift+Tab ใน terminal หรือ toggle ใน Desktop / VS Code).

3. ตั้ง /goal เป็นนิยาม "เสร็จ" เพื่อตัดการถามทีละ turn. /goal คือคำสั่งที่ตั้งเงื่อนไขจบงาน แล้ว Claude จะทำงานข้าม turn ไปเองจนกว่าเงื่อนไขจะเป็นจริง โดยหลังจบแต่ละ turn จะมีโมเดลเล็กเร็ว (ค่าเริ่มต้นคือ Haiku) คอยเช็กว่าถึงเป้าหรือยัง ถ้ายังก็เริ่ม turn ใหม่แทนที่จะคืนคิวมาให้คน และเคลียร์เป้าให้เองเมื่อสำเร็จ (Claude Code Docs). เอกสารระบุชัดว่า auto mode กับ /goal เป็นของคู่กัน โดย "auto mode ตัด prompt ราย tool ส่วน /goal ตัด prompt ราย turn".

Tip: ตัวประเมินของ /goal ตัดสินจาก "สิ่งที่ Claude พิมพ์ออกมาในบทสนทนา" เท่านั้น มันไม่ได้ไปรันคำสั่งหรืออ่านไฟล์เอง (Claude Code Docs). ดังนั้นคุณต้องเขียนเงื่อนไขให้ Claude พิสูจน์ผลออกมาได้ เช่น สั่งให้รัน build แล้วโชว์ผลว่าเขียว แทนที่จะเขียนลอยๆ ว่า "ทำให้เสร็จ" และถ้ากลัวหลงทาง ใส่เพดานได้ เช่น or stop after 20 turns

4. เปิด Remote Control เพื่อเดินจากไปแบบยังคุมได้. พิมพ์ /remote-control ในเซสชันที่รันอยู่ จะได้ลิงก์และ QR เปิดบนมือถือ จุดที่หลายคนเข้าใจผิดคือ เซสชันยังรันอยู่บน "เครื่องของคุณ" ไม่ได้ย้ายขึ้น cloud ส่วนมือถือหรือเบราว์เซอร์เป็นแค่หน้าต่างให้มองเข้าไปคุมเครื่องตัวเอง (Claude Code Docs). คุณพิมพ์และกดอนุมัติจากมือถือได้ และมันจะเด้ง push มาหาคุณเองเมื่องานยาวเสร็จหรือเมื่อเจอจุดที่ต้องตัดสินใจ. ข้อควรรู้คือฟีเจอร์นี้ต้องใช้แพลน Pro, Max, Team หรือ Enterprise (ใช้ API key ไม่ได้) และยังเป็น research preview.

5. ให้มันทำงานบน branch แล้วปิดท้ายเป็น PR. ในคลิป Claude ไม่ได้ลุยแก้รวดเดียวบน main แต่ commit และ push ความคืบหน้าลง branch ระหว่างทาง (เห็นคำสั่ง git push origin app-router จริง) แล้วเปิดเป็น PR ให้ทุกอย่างผ่าน CI และตรวจได้ก่อน merge (คลิปสาธิตของ Claude). จุดนี้คือ git ปกติ ไม่ใช่ฟีเจอร์อื่น และมันสำคัญพอที่จะเป็นเรื่องของส่วนถัดไป.

ลำดับการมอบงานยาวให้ Claude ตั้งโจทย์พร้อมเหตุผล แล้วเปิด auto mode, /goal และ Remote Control จากนั้น Claude รันบน branch และปิดท้ายเป็น PR เขียวที่ฝากให้คนรีวิวสองจุด

5. รันยาว ไม่ได้แปลว่ารันมั่ว

นี่คือจังหวะที่ทรงพลังที่สุดของทั้งคลิป และเป็นเหตุผลว่าทำไม "AI ทำงานเองได้" ถึงน่าไว้ใจ. ระหว่างที่เจ้าของโค้ดอยู่ที่สวน Claude เจออุปสรรคจริง คือพอจะ push ขึ้น branch กลับโดนปฏิเสธเพราะมีคนอื่น push เข้ามาก่อนหน้า (Error: ! [rejected] app-router -> app-router (fetch first)). มันรายงานขึ้นมือถือว่า origin มี auth hotfix ที่เพิ่งลงเวลา 11:42 เข้ามาระหว่างที่มันทำงาน แล้วเสนอว่าจะ rebase (ดึงงานของตัวเองไปต่อยอดบนของใหม่) แล้วลองใหม่ (คลิปสาธิตของ Claude).

จากนั้นคนพิมพ์สั่งทางลัดจากมือถือว่า "Just force it" หรือ "ก็ force มันไปสิ" ซึ่งหมายถึง force-push (ดันทับประวัติ git ของรีโมต). Claude ตอบกลับด้วยการ "ปฏิเสธ" คำสั่งนั้น โดยบอกว่าจะไม่ force-push เพราะจะทำให้ hotfix เวลา 11:42 ของทีมหายไปจาก origin มันจึง rebase แทนและยืนยันว่าได้ diff เหมือนเดิม (คลิปสาธิตของ Claude).

จุดที่ทำให้ฉากนี้ไม่ใช่แค่การใส่สีใส่ไข่ คือมันตรงกับ safeguard ที่มีอยู่จริง. เอกสารวิศวกรรมของ Anthropic ว่าด้วยการสร้าง auto mode ระบุว่า force-push อยู่ในกลุ่ม action ที่ classifier บล็อกเป็นค่าเริ่มต้น (กลุ่ม "Destroy or Exfiltrate") เมื่อบล็อกแล้ว ระบบใช้แนวทาง deny-and-continue คือไม่ทำตามคำสั่งอันตราย แต่อธิบายและเสนอทางที่ปลอดภัยกว่าให้แทน (Anthropic Engineering). พฤติกรรมปฏิเสธ "just force it" แล้วเสนอ rebase ในคลิป จึงสอดคล้องกับการออกแบบจริง ไม่ใช่ฉากที่แต่งขึ้นลอยๆ.

นี่คือแก่นของเรื่อง ไม่ใช่ caveat ท้ายเล่ม. การทำงานเองได้ที่ดีต้องมาคู่กับการรู้จักปฏิเสธทางลัดที่จะทำให้งานของคนอื่นพัง. เอกสารชุดเดียวกันนี้พูดตรงๆ ว่า auto mode "should not replace careful human review on high-stakes infrastructure" หรือไม่ควรใช้แทนการรีวิวอย่างรอบคอบของคนบนระบบที่มีความเสี่ยงสูง และรายงานว่ายังมีอัตราพลาด (false negative) ราว 17% บน action ที่ก้ำกึ่งเกินเหตุ (Anthropic Engineering). พูดอีกแบบคือ classifier ช่วยกันของอันตรายได้มาก แต่ไม่ใช่เกราะที่สมบูรณ์แบบ คนยังต้องอยู่ในวงตัดสินใจ.

6. หลักฐานที่จับต้องได้

งานยาวที่ดีไม่ได้วัดแค่ว่า "จบ" แต่วัดว่าทิ้งอะไรไว้ให้ตรวจและให้ใช้ต่อได้. ในคลิปสาธิต ปลายทางคือ PR หมายเลข 14825 ที่เปิดโดย claude-code[bot] และผ่านด่านตรวจครบ 7 ด่าน ได้แก่ lint, typecheck, test:unit, next build, e2e:playwright, ขนาด bundle เล็กลง 18% และคะแนน lighthouse จาก 81 ขึ้นเป็น 94 โดย diff รวมคือเพิ่ม 0 บรรทัดและลบออก 1,847 บรรทัด ส่วนใหญ่เป็น boilerplate ที่ App Router ไม่ต้องใช้แล้ว (คลิปสาธิตของ Claude).

ที่สำคัญไม่แพ้ตัวเลข คือ bot เขียนรีวิวให้ PR ของตัวเอง และฝากจุดที่เป็นการตัดสินใจเชิงดุลพินิจสองจุดกลับมาให้คน เช่นเส้นทาง /settings ของแอป admin ที่ยังค้างอยู่บนระบบเดิมเพราะใช้ form library คนละตัว โดยระบุว่าทั้งสองจุด "ไม่บล็อกการ merge" (คลิปสาธิตของ Claude). นี่คือภาพของ "minimal oversight" ที่เป็นจริง: งานเดินไปเองเกือบหมด แต่จุดที่ต้องใช้วิจารณญาณยังส่งกลับมาให้คนเลือก.

การ์ดสรุปผลจากคลิปสาธิต PR หมายเลข 14825 ผ่านการตรวจครบ 7 ด่าน ลบโค้ดทิ้ง 1,847 บรรทัด รันเอง 11 ชั่วโมง 38 นาที และไม่มีงานต้องทำต่อ

อีกชิ้นที่คลิปจงใจโชว์คือ ก่อนจบ Claude สั่ง "บันทึก migration pattern ลง memory ของ repo" แล้วขึ้นว่า "wrote 2 memories". ส่วนนี้คือฟีเจอร์ Auto memory ของ Claude Code ที่เปิดเป็นค่าเริ่มต้น ทำให้ Claude จดโน้ตให้ตัวเองเก็บไว้และโหลดกลับมาตอนเริ่มเซสชันใหม่ (Claude Code Docs). ผลคืองานยาวครั้งนี้ไม่ได้แค่เสร็จ แต่ทิ้ง "บทเรียนที่นำกลับมาใช้ซ้ำ" ไว้ให้รอบหน้าทำได้เร็วขึ้น ซึ่งตรงกับคำว่า "uses memory to learn across sessions" บนหน้า product ของ 4.8.

สำหรับสาย dev ที่อยากเห็นของจริง pattern ที่ Claude ดึงมาใช้ในคลิปคือสูตรย้าย Pages Router ไป App Router สี่ขั้น. เริ่มจากแปลง _app.tsx เป็น app/layout.tsx (ย้าย <Head> ไปเป็น metadata export), ยก provider ขึ้นไปเป็นไฟล์ providers.tsx แบบ "use client", เปลี่ยน pages/foo.tsx เป็น app/foo/page.tsx, และใส่ client component เฉพาะจุดที่ต้องใช้จริง (เช่น swr) ที่เหลือปล่อยเป็น Server Component (คลิปสาธิตของ Claude).

สูตรย้าย Pages Router ไป App Router 4 ขั้นที่ Claude ดึงมาใช้ซ้ำในคลิป ย้าย entry, ยก providers ออกมาเป็น use client, ย้ายหน้าทีละหน้า และใช้ client component เฉพาะที่จำเป็น

7. เหมาะกับงานแบบไหน และเริ่มวันนี้ยังไง

วิธีทำงานแบบนี้เหมาะกับงานก้อนใหญ่ที่ "เสร็จ" วัดได้ชัด เช่น การย้ายเฟรมเวิร์กทั้ง repo, การไล่ทำตาม design doc จนผ่าน acceptance, หรือการเคลียร์ backlog จนคิวว่าง. ในทางกลับกัน งานที่นิยามปลายทางไม่ชัด หรืองานบนระบบที่พลาดแล้วเสียหายสูง ยังควรให้คนกำกับใกล้ชิด ตามที่ Anthropic เองก็เตือนเรื่อง high-stakes infrastructure (Anthropic Engineering).

ฝั่งเทคนิค ถ้าจะเริ่ม ให้ดูเวอร์ชันก่อน. /goal ต้องใช้ Claude Code ตั้งแต่ v2.1.139, Remote Control ตั้งแต่ v2.1.51 ขึ้นไป และ push ขึ้นมือถือตั้งแต่ v2.1.110 ส่วน Opus 4.8 เข้า Claude Code ตั้งแต่ v2.1.154 เมื่อวันที่ 28 พฤษภาคม (Claude Code Docs). บนทุก surface ค่าเริ่มต้นของ effort สำหรับ 4.8 คือ high แต่สำหรับงาน coding และงานที่ต้องทำงานเองหนักๆ เอกสารแนะนำให้ตั้ง /effort xhigh (Claude API Docs).

แล้วถ้าไม่ใช่สาย dev เรื่องนี้เกี่ยวอะไรด้วย? คำตอบคือหลักคิด ไม่ใช่โค้ด. แม้ตัวอย่างในคลิปจะเป็นงาน migration แต่สิ่งที่เอาไปใช้ได้กับงานความรู้ทั่วไปมีสองข้อ. หนึ่ง มอบงานก้อนใหญ่ที่ตั้ง "นิยามว่าเสร็จ" ไว้ชัดเจน แล้วค่อยปล่อยให้ทำเอง อย่ามอบงานที่ตัวเองยังบอกไม่ได้ว่าเสร็จหน้าตาเป็นยังไง. สอง เลือกตัวช่วยที่รู้จักปฏิเสธทางลัดอันตราย เพราะตัวช่วยที่ทำตามทุกคำสั่งโดยไม่ทักท้วง อันตรายกว่าตัวช่วยที่กล้าทวนว่า "อันนี้จะทำให้ของคนอื่นพังนะ".

ภาพรวมของ Opus 4.8 กับ Claude Code จึงไม่ใช่ "AI มาแทนนักพัฒนา" แต่เป็นการขยับเส้นว่าคนต้องเฝ้าตรงไหน. จากเดิมที่ต้องกดอนุมัติทีละจังหวะ มาเป็นการตั้งโจทย์ให้ดี ปล่อยให้รันยาวเอง แล้วกลับมาตรวจงานที่ผ่าน CI และมีรีวิวรออยู่ โดยจุดที่ต้องใช้วิจารณญาณยังเป็นของคน. คนที่อยากลองวางระบบทำงานกับ AI ให้เป็นแบบนี้ เริ่มจากคอร์สและบทความเรียนฟรีของ vibe coding thailand ได้ที่ลิงก์ด้านล่าง.

ที่มา: คลิปสาธิตของ Claude (ช่อง Anthropic), Introducing Claude Opus 4.8 (Anthropic), Claude Opus product page, What's new in Opus 4.8 (Claude API Docs), Auto mode engineering (Anthropic), /goal command (Claude Code Docs), Remote Control (Claude Code Docs)

modelsclaude-code

ทีมผู้เขียน Vibe Coding Thailandvibecodingth

สอนใช้ AI กับงานจริงเป็นภาษาไทย ผ่านบทความ คอร์ส และเครื่องมือที่สร้างด้วย AI

หนังสือแนะนำ

Claude Cowork · The Business Playbook

฿1,400฿2,500ลด 44%

สั่งซื้อหนังสือ

$ tail -f journal.log

อ่านต่อจากเรื่องนี้

MODELS

Bonsai 27B · โมเดล AI ตัวเต็มขนาด 27B ที่ย่อจาก 54GB เหลือ 3.9GB จนรันบนมือถือของเราเองได้

15 ก.ค. 2569 · 7 นาที

คุยกันต่อในกลุ่ม

ถาม-ตอบเรื่องการใช้ AI กับงานจริง กันทุกวัน · เข้าฟรี

เข้ากลุ่ม Facebook

Claude Cowork

฿1,400฿2,500

ซื้อหนังสือ

$ cat blog/[slug].md

$ cat blog/opus-4-8-long-running-tasks.md

Opus 4.8 รันงานยาวเองได้ 11 ชั่วโมงครึ่ง · เลิก babysit AI ทีละ prompt มาเป็น 'มอบโจทย์ก้อนเดียวแล้วเดินจากไป'

31 พฤษภาคม 2569 · 16 นาที · อ่าน 27 ครั้ง

Note: ตัวเลขทุกตัวที่ปรากฏในคลิป (11 ชั่วโมง 38 นาที, ลดโค้ด 1,847 บรรทัด, bundle เล็กลง 18%, คะแนน lighthouse 81 ขึ้น 94, ผ่าน 7 ด่านตรวจ) เป็นภาพจากเดโมที่ Anthropic จัดมาหนึ่งชิ้น ไม่ใช่ผลเฉลี่ยที่การันตีกับงานจริงของทุกคน ดังนั้นบทความนี้จะกำกับว่า "ในคลิปสาธิต" ทุกครั้งที่อ้างถึงตัวเลขเหล่านี้

1. 11 ชั่วโมง 38 นาทีที่ไม่มีใครเฝ้า

2. 4.7 → 4.8 เปลี่ยนอะไรจริงๆ

3. "งานที่รันยาวต่อเนื่อง" จริงๆ แล้วคืออะไร

4. วิธีมอบงานยาวให้ Claude จริงๆ

Tip: ตัวประเมินของ /goal ตัดสินจาก "สิ่งที่ Claude พิมพ์ออกมาในบทสนทนา" เท่านั้น มันไม่ได้ไปรันคำสั่งหรืออ่านไฟล์เอง (Claude Code Docs). ดังนั้นคุณต้องเขียนเงื่อนไขให้ Claude พิสูจน์ผลออกมาได้ เช่น สั่งให้รัน build แล้วโชว์ผลว่าเขียว แทนที่จะเขียนลอยๆ ว่า "ทำให้เสร็จ" และถ้ากลัวหลงทาง ใส่เพดานได้ เช่น or stop after 20 turns

5. รันยาว ไม่ได้แปลว่ารันมั่ว

6. หลักฐานที่จับต้องได้

7. เหมาะกับงานแบบไหน และเริ่มวันนี้ยังไง

modelsclaude-code

ทีมผู้เขียน Vibe Coding Thailandvibecodingth

หนังสือแนะนำ

Claude Cowork · The Business Playbook

฿1,400฿2,500ลด 44%

สั่งซื้อหนังสือ

$ tail -f journal.log

อ่านต่อจากเรื่องนี้

MODELS

15 ก.ค. 2569 · 7 นาที

คุยกันต่อในกลุ่ม

ถาม-ตอบเรื่องการใช้ AI กับงานจริง กันทุกวัน · เข้าฟรี

เข้ากลุ่ม Facebook

Claude Cowork

฿1,400฿2,500

ซื้อหนังสือ

Opus 4.8 รันงานยาวเองได้ 11 ชั่วโมงครึ่ง · เลิก babysit AI ทีละ prompt มาเป็น 'มอบโจทย์ก้อนเดียวแล้วเดินจากไป'

1. 11 ชั่วโมง 38 นาทีที่ไม่มีใครเฝ้า

2. 4.7 → 4.8 เปลี่ยนอะไรจริงๆ

3. "งานที่รันยาวต่อเนื่อง" จริงๆ แล้วคืออะไร

4. วิธีมอบงานยาวให้ Claude จริงๆ

5. รันยาว ไม่ได้แปลว่ารันมั่ว

6. หลักฐานที่จับต้องได้

7. เหมาะกับงานแบบไหน และเริ่มวันนี้ยังไง

Claude Cowork · The Business Playbook

อ่านต่อจากเรื่องนี้

Bonsai 27B · โมเดล AI ตัวเต็มขนาด 27B ที่ย่อจาก 54GB เหลือ 3.9GB จนรันบนมือถือของเราเองได้

GPT-5.6 Sol ชนะ Claude Fable 5 เกือบทุกการทดสอบในตารางที่ OpenAI โชว์เอง แต่แพ้การทดสอบแก้บั๊กในโค้ดจริงถึง 15.4 จุด

GPT-Live โมเดลเสียงใหม่ของ OpenAI ที่ฟังและพูดพร้อมกันได้ เบื้องหลัง ChatGPT Voice ที่มีคนใช้กว่า 150 ล้านคนต่อสัปดาห์

คุยกันต่อในกลุ่ม

Opus 4.8 รันงานยาวเองได้ 11 ชั่วโมงครึ่ง · เลิก babysit AI ทีละ prompt มาเป็น 'มอบโจทย์ก้อนเดียวแล้วเดินจากไป'

1. 11 ชั่วโมง 38 นาทีที่ไม่มีใครเฝ้า

2. 4.7 → 4.8 เปลี่ยนอะไรจริงๆ

3. "งานที่รันยาวต่อเนื่อง" จริงๆ แล้วคืออะไร

4. วิธีมอบงานยาวให้ Claude จริงๆ

5. รันยาว ไม่ได้แปลว่ารันมั่ว

6. หลักฐานที่จับต้องได้

7. เหมาะกับงานแบบไหน และเริ่มวันนี้ยังไง

Claude Cowork · The Business Playbook

อ่านต่อจากเรื่องนี้

Bonsai 27B · โมเดล AI ตัวเต็มขนาด 27B ที่ย่อจาก 54GB เหลือ 3.9GB จนรันบนมือถือของเราเองได้

GPT-5.6 Sol ชนะ Claude Fable 5 เกือบทุกการทดสอบในตารางที่ OpenAI โชว์เอง แต่แพ้การทดสอบแก้บั๊กในโค้ดจริงถึง 15.4 จุด

GPT-Live โมเดลเสียงใหม่ของ OpenAI ที่ฟังและพูดพร้อมกันได้ เบื้องหลัง ChatGPT Voice ที่มีคนใช้กว่า 150 ล้านคนต่อสัปดาห์

คุยกันต่อในกลุ่ม