Baidu Unlimited-OCR โมเดลอ่านเอกสารโอเพนซอร์สตัวใหม่บน Hugging Face · ยิงรูปหรือ PDF เข้าไปแล้วได้ข้อความและตารางกลับมา ลองฟรีได้บน Colab/Kaggle
Baidu เพิ่งปล่อย Unlimited-OCR โมเดลโอเพนซอร์สที่อ่านเอกสารจากรูปหรือ PDF แล้วดึงข้อความ พร้อมตารางออกมาเป็นข้อมูลที่เอาไปใช้ต่อได้ ของใหม่สด ๆ ที่ลองได้ฟรีบน Colab หรือ Kaggle โดยยังไม่ต้องลงเครื่องเอง · มาดูกันว่ามันคืออะไรและเริ่มลองยังไง

Baidu Unlimited-OCR คือโมเดลอ่านเอกสารตัวใหม่ที่เพิ่งขึ้น Hugging Face · เว็บที่เป็นเหมือนคลังกลางให้คนเอาโมเดล AI มาแชร์และโหลดไปใช้ · เมื่อ 22 มิถุนายน 2026 หน้าที่ของมันสั้นและตรงไปตรงมา · รับรูปภาพหรือไฟล์ PDF ทีละหน้า แล้วคืนข้อความในเอกสารออกมาให้ พร้อมโครงสร้างอย่างตารางที่ยังอยู่ครบ ไม่ใช่ก้อนข้อความที่ปนกันมั่ว งานที่เมื่อก่อนต้องนั่งคีย์มือทีละบรรทัด · ใบเสร็จ สลิปโอนเงิน เอกสารสแกนกองโต · กลายเป็นการยิงไฟล์เข้าโมเดลแล้วรอผลกลับมา
ที่มันมาแรงในวันสองวันนี้เพราะเป็นโมเดลเปิด · Baidu วางโค้ดและตัวโมเดลไว้ให้โหลดไปใช้ได้เลย ไม่ใช่บริการปิดที่ต้องจ่ายรายเดือน แต่ก่อนจะตื่นเต้นเกินไป มีจุดที่ต้องเข้าใจให้ตรงก่อน · เพราะ "ฟรีและลองได้" ในที่นี้ ไม่ได้แปลว่ากดปุ่มเดียวบนเว็บแล้วเสร็จ
ลองฟรีได้จริง แต่ไม่ใช่กดปุ่มเดียวบนเว็บ
ข่าวเครื่องมือ AI ส่วนใหญ่ชอบบอกว่า "เข้าไปกดลองได้เลยทันที" · กับตัวนี้ต้องพูดให้ชัด Baidu Unlimited-OCR ยังไม่มีหน้าเดโมสำเร็จรูป บน Hugging Face ที่ลากรูปเข้าไปแล้วได้ผลทันที ในหน้าโมเดลเขียนไว้ตรง ๆ ว่ายังไม่มี Inference Provider ไหนรันให้
วิธีที่ลองฟรีได้จริงคือเปิดโน้ตบุ๊กสำเร็จที่ Baidu เตรียมไว้ ผ่านเครื่องของแพลตฟอร์มอื่นที่มี GPU ให้ใช้ฟรี · มีสองทาง:
- Google Colab · มีลิงก์โน้ตบุ๊กพร้อมใช้จากหน้าโมเดล · ใช้แค่บัญชี Google ก็เปิดได้
- Kaggle · มี Tesla T4 GPU ให้ใช้ฟรี · เปิดโน้ตบุ๊กที่ตั้ง accelerator เป็น T4 มาให้แล้ว
ความต่างจาก "เดโมกดปุ่มเดียว" คือมันยังเป็นโน้ตบุ๊กที่ต้องกดรันทีละช่อง แต่ข้อดีคือไม่ต้องมีการ์ดจอแพง ๆ ที่บ้าน · งานจะรันบนเครื่องฟรีของ Google กับ Kaggle คนที่ไม่ใช่สายเทคก็เปิดตามได้ ถ้าโอเคกับการกดรันโน้ตบุ๊กทีละช่อง
ข้างในมันทำงานยังไง

Unlimited-OCR ไม่ใช่โปรแกรมอ่านตัวอักษรแบบเก่าที่เทียบทีละตัว · มันเป็นโมเดลภาษาที่มองภาพได้ (vision-language model) โครงสร้างหลักคือ LLM ขนาด 3B แบบ MoE ที่ใช้พารามิเตอร์จริงแค่ราว 570 ล้านตอนทำงาน · ฝั่งรับภาพต่อกับตัวเข้ารหัสภาพชื่อ DeepEncoder ที่แปลงรูปเอกสารให้โมเดลอ่านได้
จุดที่ทำให้ชื่อมันมีคำว่า "Unlimited" คือมันออกแบบมาให้อ่านเอกสารยาวในการประมวลผลครั้งเดียว · ทีมพัฒนาเรียกมันว่า "one-shot long-horizon parsing" รองรับ context ได้ถึง 32,768 token แต่ตรงนี้ต้องพูดให้ชัด · แหล่งข้อมูลไม่ได้ระบุตัวเลขว่าอ่านได้สูงสุดกี่หน้าหรือไฟล์ใหญ่แค่ไหน · "Unlimited" จึงเป็นชื่อที่สื่อแนวคิด ไม่ใช่ตัวเลขรับประกัน
เวลาใช้งานจริง โมเดลมีสองโหมดให้เลือกตามงาน:
- โหมด gundam · ย่อภาพแล้ว crop · เหมาะกับรูปเดียวที่อยากได้ความละเอียดสูง เช่นสแกนหน้าเดียว
- โหมด base · ไม่ crop · เหมาะกับงานหลายหน้าหรือ PDF ทั้งเล่ม
ถ้าเป็นไฟล์ PDF จะส่งเข้าโมเดลตรง ๆ ไม่ได้ · ต้องแปลงแต่ละหน้าเป็นภาพก่อน (ผ่านเครื่องมือชื่อ PyMuPDF) แล้วค่อยส่งให้โมเดลทีละหน้า รายละเอียดนี้สำคัญสำหรับคนที่จะลองเอง · เพราะถ้าส่งไฟล์ PDF เข้าไปเลย โมเดลจะไม่ทำงาน
เริ่มลองยังไงในไม่กี่ขั้น
ถ้าจะลองให้เร็วที่สุดโดยไม่ตั้งอะไรในเครื่องตัวเอง ทำตามนี้ได้เลย:
- เข้าไปที่หน้าโมเดล baidu/Unlimited-OCR บน Hugging Face
- มองหาลิงก์ Try on Google Colab หรือ Try on Kaggle · ทั้งสองทางมี GPU ฟรีให้รัน
- เปิดโน้ตบุ๊กแล้วกดรันแต่ละช่องจากบนลงล่าง · ช่องแรกๆ จะติดตั้งของที่ต้องใช้ ช่องถัดมาจะโหลดโมเดล
- แทนภาพตัวอย่างในโน้ตบุ๊กด้วยรูปเอกสารของเรา (เริ่มด้วยไฟล์ที่ไม่อ่อนไหวก่อน) แล้วกดรันช่องที่เรียก
model.infer() - อ่านผลลัพธ์ที่เป็นข้อความ · ถ้ามีตารางในเอกสาร ดูว่าโครงสร้างยังอยู่ครบไหม
สำหรับคนที่อยากรันเองในเครื่องหรือทำเป็นระบบหลังบ้าน · โมเดลโหลดผ่าน AutoModel.from_pretrained ได้ และต่อกับ inference server อย่าง vLLM หรือ SGLang สำหรับงานที่ยิงหลายไฟล์พร้อมกันได้ แต่ทางนี้ต้องมี GPU ของ NVIDIA จริง ๆ · แหล่งระบุว่าต้องใช้ CUDA 12.9 กับ Python 3.12 · ไม่ใช่งานที่รันบนโน้ตบุ๊กธรรมดาที่ไม่มีการ์ดจอ
เทียบกับ OCR แบบบริการ ต่างกันตรงไหน

ตลาด OCR ยุคใหม่มีสองทรงให้เลือก ทรงแรกคือบริการสำเร็จที่ต่อผ่าน API · สมัครแล้วยิงไฟล์เข้า endpoint ได้เลย ไม่ต้องดูแลเครื่องเอง แต่จ่ายตามปริมาณที่ใช้ และข้อมูลวิ่งผ่านเซิร์ฟเวอร์ของเจ้าของบริการ ทรงที่สองคือโมเดลเปิดแบบ Unlimited-OCR · โหลดมาเก็บไว้เอง คุมข้อมูลได้เต็มที่ ไม่มีค่ารายเดือนของตัวโมเดล แต่ต้องมีเครื่องที่มี GPU และต้องตั้งค่าเอง
เลือกทางไหนขึ้นกับงาน · ถ้าอยากเริ่มเร็วและไม่อยากดูแลเครื่องเลย บริการแบบ API จะง่ายกว่า ถ้ากังวลเรื่องข้อมูลต้องไม่ออกนอกองค์กร หรืออยากปรับแต่งลึก ๆ โมเดลเปิดอย่างตัวนี้ให้อิสระมากกว่า สิ่งที่ยังบอกไม่ได้คือตัวไหนอ่านแม่นกว่ากัน · เพราะหน้าโมเดลของ Baidu ยังไม่มีตัวเลข benchmark เทียบให้เห็น · ใครจะใช้จริงต้องลองกับเอกสารแบบที่ตัวเองเจอ แล้ววัดผลเอง
ก่อนจะรีบเอาไปใช้กับงานจริง
มีอีกสองสามจุดที่แหล่งยังไม่ยืนยัน และไม่ควรสรุปเอง
เรื่องแรกคือ ภาษาไทย โมเดลติดแท็กว่า multilingual คืออ่านได้หลายภาษา แต่ในแหล่งข้อมูลไม่มีรายชื่อภาษาที่รองรับชัด ๆ และไม่มีตัวอย่างภาษาไทยให้ดู แปลว่ายังตอบไม่ได้ว่าอ่านเอกสารไทย ลายมือไทย หรือฟอนต์ไทยแปลก ๆ ได้ดีแค่ไหน · ต้องลองกับเอกสารไทยจริงของตัวเองก่อนถึงจะรู้
เรื่องที่สองคือ license หน้าโมเดลไม่ได้ระบุชัดว่าใช้เชิงพาณิชย์ได้หรือไม่ · ใครที่คิดจะเอาไปใส่ในสินค้าหรือบริการที่เก็บเงินลูกค้า ควรไปอ่านเงื่อนไขให้ครบก่อน ไม่ใช่สรุปเองว่า "ของเปิด = ใช้ขายได้"
และเรื่องสุดท้ายที่ต้องย้ำ · นี่คือข่าวเครื่องมือ AI ตัวใหม่ ไม่ใช่คำแนะนำเรื่องเอกสารบัญชี ภาษี หรือกฎหมาย OCR ช่วยแกะข้อความได้เร็วก็จริง แต่ผลที่ได้ยังต้องมีคนตรวจ · โดยเฉพาะตัวเลขในใบเสร็จหรือใบกำกับภาษีที่ผิดนิดเดียวก็ลามไปทั้งบัญชี
ของชิ้นนี้น่าสนใจตรงที่มันเปิด ลองฟรีได้ และเพิ่งออกสด ๆ · คนที่ลองวันนี้คือกลุ่มแรกที่ได้เห็นว่ามันอ่านเอกสารแบบที่เราเจอทุกวันได้ดีแค่ไหนจริง แต่ "ลองได้เลย" กับ "วางใจให้ทำงานแทนคน" คือคนละเรื่องกัน · และระยะห่างระหว่างสองคำนี้คือสิ่งที่ต้องวัดด้วยเอกสารของเราเอง ไม่ใช่ด้วยคำโฆษณา
ที่มา:
- หน้าโมเดล baidu/Unlimited-OCR · Hugging Face จาก Baidu
- โพสต์ AK (@_akhaliq) on X จาก AK (@_akhaliq)



