$ loading

$ loading ~/vibecoding

$ cat blog/baidu-unlimited-ocr.md

Baidu Unlimited-OCR โมเดลอ่านเอกสารโอเพนซอร์สตัวใหม่บน Hugging Face · ยิงรูปหรือ PDF เข้าไปแล้วได้ข้อความและตารางกลับมา ลองฟรีได้บน Colab/Kaggle

Baidu เพิ่งปล่อย Unlimited-OCR โมเดลโอเพนซอร์สที่อ่านเอกสารจากรูปหรือ PDF แล้วดึงข้อความ พร้อมตารางออกมาเป็นข้อมูลที่เอาไปใช้ต่อได้ ของใหม่สด ๆ ที่ลองได้ฟรีบน Colab หรือ Kaggle โดยยังไม่ต้องลงเครื่องเอง · มาดูกันว่ามันคืออะไรและเริ่มลองยังไง

24 มิถุนายน 2569 · 8 นาที

Baidu Unlimited-OCR โมเดลอ่านเอกสารโอเพนซอร์สตัวใหม่บน Hugging Face · ยิงรูปหรือ PDF เข้าไปแล้วได้ข้อความและตารางกลับมา ลองฟรีได้บน Colab/Kaggle — Baidu Unlimited-OCR · โมเดลอ่านเอกสารโอเพนซอร์สตัวใหม่บน Hugging Face

Baidu Unlimited-OCR คือโมเดลอ่านเอกสารตัวใหม่ที่เพิ่งขึ้น Hugging Face · เว็บที่เป็นเหมือนคลังกลางให้คนเอาโมเดล AI มาแชร์และโหลดไปใช้ · เมื่อ 22 มิถุนายน 2026 หน้าที่ของมันสั้นและตรงไปตรงมา · รับรูปภาพหรือไฟล์ PDF ทีละหน้า แล้วคืนข้อความในเอกสารออกมาให้ พร้อมโครงสร้างอย่างตารางที่ยังอยู่ครบ ไม่ใช่ก้อนข้อความที่ปนกันมั่ว งานที่เมื่อก่อนต้องนั่งคีย์มือทีละบรรทัด · ใบเสร็จ สลิปโอนเงิน เอกสารสแกนกองโต · กลายเป็นการยิงไฟล์เข้าโมเดลแล้วรอผลกลับมา

ที่มันมาแรงในวันสองวันนี้เพราะเป็นโมเดลเปิด · Baidu วางโค้ดและตัวโมเดลไว้ให้โหลดไปใช้ได้เลย ไม่ใช่บริการปิดที่ต้องจ่ายรายเดือน แต่ก่อนจะตื่นเต้นเกินไป มีจุดที่ต้องเข้าใจให้ตรงก่อน · เพราะ "ฟรีและลองได้" ในที่นี้ ไม่ได้แปลว่ากดปุ่มเดียวบนเว็บแล้วเสร็จ

ลองฟรีได้จริง แต่ไม่ใช่กดปุ่มเดียวบนเว็บ

ข่าวเครื่องมือ AI ส่วนใหญ่ชอบบอกว่า "เข้าไปกดลองได้เลยทันที" · กับตัวนี้ต้องพูดให้ชัด Baidu Unlimited-OCR ยังไม่มีหน้าเดโมสำเร็จรูป บน Hugging Face ที่ลากรูปเข้าไปแล้วได้ผลทันที ในหน้าโมเดลเขียนไว้ตรง ๆ ว่ายังไม่มี Inference Provider ไหนรันให้

วิธีที่ลองฟรีได้จริงคือเปิดโน้ตบุ๊กสำเร็จที่ Baidu เตรียมไว้ ผ่านเครื่องของแพลตฟอร์มอื่นที่มี GPU ให้ใช้ฟรี · มีสองทาง:

Google Colab · มีลิงก์โน้ตบุ๊กพร้อมใช้จากหน้าโมเดล · ใช้แค่บัญชี Google ก็เปิดได้
Kaggle · มี Tesla T4 GPU ให้ใช้ฟรี · เปิดโน้ตบุ๊กที่ตั้ง accelerator เป็น T4 มาให้แล้ว

ความต่างจาก "เดโมกดปุ่มเดียว" คือมันยังเป็นโน้ตบุ๊กที่ต้องกดรันทีละช่อง แต่ข้อดีคือไม่ต้องมีการ์ดจอแพง ๆ ที่บ้าน · งานจะรันบนเครื่องฟรีของ Google กับ Kaggle คนที่ไม่ใช่สายเทคก็เปิดตามได้ ถ้าโอเคกับการกดรันโน้ตบุ๊กทีละช่อง

ข้างในมันทำงานยังไง

แผนผังลำดับสี่ขั้น: รับเอกสารเป็นรูปหรือ PDF แยก PDF เป็นภาพทีละหน้า ส่งให้โมเดลอ่าน แล้วได้ข้อความและตารางกลับมา — จุดที่คนลองเองมักพลาด · ต้องแปลง PDF เป็นภาพทีละหน้าก่อน โมเดลถึงจะอ่านออก

Unlimited-OCR ไม่ใช่โปรแกรมอ่านตัวอักษรแบบเก่าที่เทียบทีละตัว · มันเป็นโมเดลภาษาที่มองภาพได้ (vision-language model) โครงสร้างหลักคือ LLM ขนาด 3B แบบ MoE ที่ใช้พารามิเตอร์จริงแค่ราว 570 ล้านตอนทำงาน · ฝั่งรับภาพต่อกับตัวเข้ารหัสภาพชื่อ DeepEncoder ที่แปลงรูปเอกสารให้โมเดลอ่านได้

จุดที่ทำให้ชื่อมันมีคำว่า "Unlimited" คือมันออกแบบมาให้อ่านเอกสารยาวในการประมวลผลครั้งเดียว · ทีมพัฒนาเรียกมันว่า "one-shot long-horizon parsing" รองรับ context ได้ถึง 32,768 token แต่ตรงนี้ต้องพูดให้ชัด · แหล่งข้อมูลไม่ได้ระบุตัวเลขว่าอ่านได้สูงสุดกี่หน้าหรือไฟล์ใหญ่แค่ไหน · "Unlimited" จึงเป็นชื่อที่สื่อแนวคิด ไม่ใช่ตัวเลขรับประกัน

เวลาใช้งานจริง โมเดลมีสองโหมดให้เลือกตามงาน:

โหมด gundam · ย่อภาพแล้ว crop · เหมาะกับรูปเดียวที่อยากได้ความละเอียดสูง เช่นสแกนหน้าเดียว
โหมด base · ไม่ crop · เหมาะกับงานหลายหน้าหรือ PDF ทั้งเล่ม

ถ้าเป็นไฟล์ PDF จะส่งเข้าโมเดลตรง ๆ ไม่ได้ · ต้องแปลงแต่ละหน้าเป็นภาพก่อน (ผ่านเครื่องมือชื่อ PyMuPDF) แล้วค่อยส่งให้โมเดลทีละหน้า รายละเอียดนี้สำคัญสำหรับคนที่จะลองเอง · เพราะถ้าส่งไฟล์ PDF เข้าไปเลย โมเดลจะไม่ทำงาน

เริ่มลองยังไงในไม่กี่ขั้น

ถ้าจะลองให้เร็วที่สุดโดยไม่ตั้งอะไรในเครื่องตัวเอง ทำตามนี้ได้เลย:

เข้าไปที่หน้าโมเดล baidu/Unlimited-OCR บน Hugging Face
มองหาลิงก์ Try on Google Colab หรือ Try on Kaggle · ทั้งสองทางมี GPU ฟรีให้รัน
เปิดโน้ตบุ๊กแล้วกดรันแต่ละช่องจากบนลงล่าง · ช่องแรกๆ จะติดตั้งของที่ต้องใช้ ช่องถัดมาจะโหลดโมเดล
แทนภาพตัวอย่างในโน้ตบุ๊กด้วยรูปเอกสารของเรา (เริ่มด้วยไฟล์ที่ไม่อ่อนไหวก่อน) แล้วกดรันช่องที่เรียก model.infer()
อ่านผลลัพธ์ที่เป็นข้อความ · ถ้ามีตารางในเอกสาร ดูว่าโครงสร้างยังอยู่ครบไหม

สำหรับคนที่อยากรันเองในเครื่องหรือทำเป็นระบบหลังบ้าน · โมเดลโหลดผ่าน AutoModel.from_pretrained ได้ และต่อกับ inference server อย่าง vLLM หรือ SGLang สำหรับงานที่ยิงหลายไฟล์พร้อมกันได้ แต่ทางนี้ต้องมี GPU ของ NVIDIA จริง ๆ · แหล่งระบุว่าต้องใช้ CUDA 12.9 กับ Python 3.12 · ไม่ใช่งานที่รันบนโน้ตบุ๊กธรรมดาที่ไม่มีการ์ดจอ

เทียบกับ OCR แบบบริการ ต่างกันตรงไหน

ตารางเปรียบเทียบสองทาง: บริการ OCR แบบ API กับโมเดลเปิดที่รันเอง พร้อมจุดเด่น จุดที่ต้องแลก และข้อสรุปว่าเลือกตามงาน — ไม่มีตัวไหนชนะขาด · เลือกตามโจทย์: อยากเริ่มเร็วไม่ต้องดูแลเครื่อง หรืออยากคุมข้อมูลไว้เอง

ตลาด OCR ยุคใหม่มีสองทรงให้เลือก ทรงแรกคือบริการสำเร็จที่ต่อผ่าน API · สมัครแล้วยิงไฟล์เข้า endpoint ได้เลย ไม่ต้องดูแลเครื่องเอง แต่จ่ายตามปริมาณที่ใช้ และข้อมูลวิ่งผ่านเซิร์ฟเวอร์ของเจ้าของบริการ ทรงที่สองคือโมเดลเปิดแบบ Unlimited-OCR · โหลดมาเก็บไว้เอง คุมข้อมูลได้เต็มที่ ไม่มีค่ารายเดือนของตัวโมเดล แต่ต้องมีเครื่องที่มี GPU และต้องตั้งค่าเอง

เลือกทางไหนขึ้นกับงาน · ถ้าอยากเริ่มเร็วและไม่อยากดูแลเครื่องเลย บริการแบบ API จะง่ายกว่า ถ้ากังวลเรื่องข้อมูลต้องไม่ออกนอกองค์กร หรืออยากปรับแต่งลึก ๆ โมเดลเปิดอย่างตัวนี้ให้อิสระมากกว่า สิ่งที่ยังบอกไม่ได้คือตัวไหนอ่านแม่นกว่ากัน · เพราะหน้าโมเดลของ Baidu ยังไม่มีตัวเลข benchmark เทียบให้เห็น · ใครจะใช้จริงต้องลองกับเอกสารแบบที่ตัวเองเจอ แล้ววัดผลเอง

ก่อนจะรีบเอาไปใช้กับงานจริง

มีอีกสองสามจุดที่แหล่งยังไม่ยืนยัน และไม่ควรสรุปเอง

เรื่องแรกคือ ภาษาไทย โมเดลติดแท็กว่า multilingual คืออ่านได้หลายภาษา แต่ในแหล่งข้อมูลไม่มีรายชื่อภาษาที่รองรับชัด ๆ และไม่มีตัวอย่างภาษาไทยให้ดู แปลว่ายังตอบไม่ได้ว่าอ่านเอกสารไทย ลายมือไทย หรือฟอนต์ไทยแปลก ๆ ได้ดีแค่ไหน · ต้องลองกับเอกสารไทยจริงของตัวเองก่อนถึงจะรู้

เรื่องที่สองคือ license หน้าโมเดลไม่ได้ระบุชัดว่าใช้เชิงพาณิชย์ได้หรือไม่ · ใครที่คิดจะเอาไปใส่ในสินค้าหรือบริการที่เก็บเงินลูกค้า ควรไปอ่านเงื่อนไขให้ครบก่อน ไม่ใช่สรุปเองว่า "ของเปิด = ใช้ขายได้"

และเรื่องสุดท้ายที่ต้องย้ำ · นี่คือข่าวเครื่องมือ AI ตัวใหม่ ไม่ใช่คำแนะนำเรื่องเอกสารบัญชี ภาษี หรือกฎหมาย OCR ช่วยแกะข้อความได้เร็วก็จริง แต่ผลที่ได้ยังต้องมีคนตรวจ · โดยเฉพาะตัวเลขในใบเสร็จหรือใบกำกับภาษีที่ผิดนิดเดียวก็ลามไปทั้งบัญชี

ของชิ้นนี้น่าสนใจตรงที่มันเปิด ลองฟรีได้ และเพิ่งออกสด ๆ · คนที่ลองวันนี้คือกลุ่มแรกที่ได้เห็นว่ามันอ่านเอกสารแบบที่เราเจอทุกวันได้ดีแค่ไหนจริง แต่ "ลองได้เลย" กับ "วางใจให้ทำงานแทนคน" คือคนละเรื่องกัน · และระยะห่างระหว่างสองคำนี้คือสิ่งที่ต้องวัดด้วยเอกสารของเราเอง ไม่ใช่ด้วยคำโฆษณา

ที่มา:

หน้าโมเดล baidu/Unlimited-OCR · Hugging Face จาก Baidu
โพสต์ AK (@_akhaliq) on X จาก AK (@_akhaliq)

news

ทีมผู้เขียน Vibe Coding Thailandvibecodingth

สอนใช้ AI กับงานจริงเป็นภาษาไทย ผ่านบทความ คอร์ส และเครื่องมือที่สร้างด้วย AI

หนังสือแนะนำ

Claude Cowork · The Business Playbook

฿1,400฿2,500ลด 44%

สั่งซื้อหนังสือ

$ tail -f journal.log

อ่านต่อจากเรื่องนี้

NEWS

สัปดาห์เดียว Node.js 24.18 LTS · Astro 7 · Vite 8.1 ออกพร้อมกัน · เครื่องมือสาย JavaScript ขยับยกแผง

24 มิ.ย. 2569 · 8 นาที

คุยกันต่อในกลุ่ม

ถาม-ตอบเรื่องการใช้ AI กับงานจริง กันทุกวัน · เข้าฟรี

เข้ากลุ่ม Facebook

Claude Cowork

฿1,400฿2,500

ซื้อหนังสือ

$ cat blog/[slug].md

$ cat blog/baidu-unlimited-ocr.md

Baidu Unlimited-OCR โมเดลอ่านเอกสารโอเพนซอร์สตัวใหม่บน Hugging Face · ยิงรูปหรือ PDF เข้าไปแล้วได้ข้อความและตารางกลับมา ลองฟรีได้บน Colab/Kaggle

24 มิถุนายน 2569 · 8 นาที

ลองฟรีได้จริง แต่ไม่ใช่กดปุ่มเดียวบนเว็บ

Google Colab · มีลิงก์โน้ตบุ๊กพร้อมใช้จากหน้าโมเดล · ใช้แค่บัญชี Google ก็เปิดได้
Kaggle · มี Tesla T4 GPU ให้ใช้ฟรี · เปิดโน้ตบุ๊กที่ตั้ง accelerator เป็น T4 มาให้แล้ว

ข้างในมันทำงานยังไง

เวลาใช้งานจริง โมเดลมีสองโหมดให้เลือกตามงาน:

โหมด gundam · ย่อภาพแล้ว crop · เหมาะกับรูปเดียวที่อยากได้ความละเอียดสูง เช่นสแกนหน้าเดียว
โหมด base · ไม่ crop · เหมาะกับงานหลายหน้าหรือ PDF ทั้งเล่ม

เริ่มลองยังไงในไม่กี่ขั้น

ถ้าจะลองให้เร็วที่สุดโดยไม่ตั้งอะไรในเครื่องตัวเอง ทำตามนี้ได้เลย:

เข้าไปที่หน้าโมเดล baidu/Unlimited-OCR บน Hugging Face
มองหาลิงก์ Try on Google Colab หรือ Try on Kaggle · ทั้งสองทางมี GPU ฟรีให้รัน
เปิดโน้ตบุ๊กแล้วกดรันแต่ละช่องจากบนลงล่าง · ช่องแรกๆ จะติดตั้งของที่ต้องใช้ ช่องถัดมาจะโหลดโมเดล
แทนภาพตัวอย่างในโน้ตบุ๊กด้วยรูปเอกสารของเรา (เริ่มด้วยไฟล์ที่ไม่อ่อนไหวก่อน) แล้วกดรันช่องที่เรียก model.infer()
อ่านผลลัพธ์ที่เป็นข้อความ · ถ้ามีตารางในเอกสาร ดูว่าโครงสร้างยังอยู่ครบไหม

เทียบกับ OCR แบบบริการ ต่างกันตรงไหน

ก่อนจะรีบเอาไปใช้กับงานจริง

มีอีกสองสามจุดที่แหล่งยังไม่ยืนยัน และไม่ควรสรุปเอง

ที่มา:

หน้าโมเดล baidu/Unlimited-OCR · Hugging Face จาก Baidu
โพสต์ AK (@_akhaliq) on X จาก AK (@_akhaliq)

news

ทีมผู้เขียน Vibe Coding Thailandvibecodingth

หนังสือแนะนำ

Claude Cowork · The Business Playbook

฿1,400฿2,500ลด 44%

สั่งซื้อหนังสือ

$ tail -f journal.log

อ่านต่อจากเรื่องนี้

NEWS

24 มิ.ย. 2569 · 8 นาที

คุยกันต่อในกลุ่ม

ถาม-ตอบเรื่องการใช้ AI กับงานจริง กันทุกวัน · เข้าฟรี

เข้ากลุ่ม Facebook

Claude Cowork

฿1,400฿2,500

ซื้อหนังสือ

ลองฟรีได้จริง แต่ไม่ใช่กดปุ่มเดียวบนเว็บ

ข้างในมันทำงานยังไง

เริ่มลองยังไงในไม่กี่ขั้น

เทียบกับ OCR แบบบริการ ต่างกันตรงไหน

ก่อนจะรีบเอาไปใช้กับงานจริง

Claude Cowork · The Business Playbook

อ่านต่อจากเรื่องนี้

สัปดาห์เดียว Node.js 24.18 LTS · Astro 7 · Vite 8.1 ออกพร้อมกัน · เครื่องมือสาย JavaScript ขยับยกแผง

Gemini Spark คืออะไร · ผู้ช่วย AI 24 ชม. ของ Google ที่รับงานหลายขั้นไปทำให้จบเอง

Mistral OCR 4 (Document AI) อ่านเอกสารแล้วแยกหัวข้อ-ตาราง-รูปให้เลย ทำคะแนน OlmOCRBench 85.20 สูงสุด

คุยกันต่อในกลุ่ม

ลองฟรีได้จริง แต่ไม่ใช่กดปุ่มเดียวบนเว็บ

ข้างในมันทำงานยังไง

เริ่มลองยังไงในไม่กี่ขั้น

เทียบกับ OCR แบบบริการ ต่างกันตรงไหน

ก่อนจะรีบเอาไปใช้กับงานจริง

Claude Cowork · The Business Playbook

อ่านต่อจากเรื่องนี้

สัปดาห์เดียว Node.js 24.18 LTS · Astro 7 · Vite 8.1 ออกพร้อมกัน · เครื่องมือสาย JavaScript ขยับยกแผง

Gemini Spark คืออะไร · ผู้ช่วย AI 24 ชม. ของ Google ที่รับงานหลายขั้นไปทำให้จบเอง

Mistral OCR 4 (Document AI) อ่านเอกสารแล้วแยกหัวข้อ-ตาราง-รูปให้เลย ทำคะแนน OlmOCRBench 85.20 สูงสุด

คุยกันต่อในกลุ่ม