$ loading ~/vibecoding

$ cat blog/pp-ocrv6.md

PP-OCRv6 โมเดลฟรีที่อ่านตัวหนังสือออกจากรูป รองรับถึง 50 ภาษาในตัวเดียว

PP-OCRv6 คือโมเดลโอเพนซอร์สตัวล่าสุดที่แปลงตัวหนังสือในรูปภาพให้เป็นข้อความที่ก๊อปวางได้ ลองได้ฟรีบนเว็บโดยไม่ต้องเขียนโค้ดสักบรรทัด

22 มิถุนายน 2569 · 6 นาที

PP-OCRv6 โมเดลฟรีที่อ่านตัวหนังสือออกจากรูป รองรับถึง 50 ภาษาในตัวเดียว — PP-OCRv6 เปลี่ยนรูปภาพให้กลายเป็นข้อความที่ก๊อปวางได้

ถ่ายรูปสลิป สกรีนช็อตเอกสาร หรือเก็บภาพป้ายไว้ในมือถือ แล้วต้องมานั่งพิมพ์ตัวเลขกับข้อความในนั้นใหม่ทีละตัว งานแบบนี้เสียเวลาและพิมพ์ผิดได้ง่ายมาก PP-OCRv6 คือโมเดลโอเพนซอร์สตัวล่าสุดที่ทำมาเพื่องานนี้โดยเฉพาะ เป็น OCR หรือ Optical Character Recognition ที่อ่านตัวหนังสือในรูปภาพออกมาเป็นข้อความให้ก๊อปวางต่อได้ทันที โมเดลนี้มาจาก PaddleOCR ซึ่งเป็นโปรเจกต์โอเพนซอร์สด้าน OCR ที่เปิดให้ทุกคนใช้ได้ฟรี

จุดที่น่าสนใจของรุ่นนี้คือรองรับได้ถึง 50 ภาษาในโมเดลเดียว และที่สำคัญคือทดลองใช้ได้ฟรีบนเว็บโดยไม่ต้องลงโปรแกรมหรือเขียนโค้ดสักบรรทัด แค่อัปโหลดรูปเข้าไปก็เห็นผลเลย

OCR คืออะไร ทำไมถึงช่วยให้ทำงานกับรูปง่ายขึ้น

OCR คือเทคโนโลยีที่มองรูปภาพแล้วบอกได้ว่าในรูปนั้นมีตัวหนังสือเขียนว่าอะไร พูดง่ายๆ คือเปลี่ยน "รูปที่มีตัวหนังสือ" ให้กลายเป็น "ข้อความที่แก้ไขและก๊อปได้"

ลองนึกถึงงานที่เจอกันทุกวัน เช่น สลิปโอนเงินที่ต้องคีย์ยอดเข้าระบบ เอกสารที่สแกนมาเป็นไฟล์รูป สกรีนช็อตหน้าจอที่อยากดึงข้อความออกมา หรือป้ายราคาและฉลากสินค้าในโรงงาน งานพวกนี้เดิมต้องนั่งพิมพ์เองทั้งหมด แต่ OCR ช่วยตัดขั้นตอนนั้นออกไป เพราะอ่านให้แล้วส่งกลับมาเป็นข้อความตรงๆ

PP-OCRv6 ออกแบบมาให้รับมือกับรูปที่เจอจริงและอ่านยาก ไม่ว่าจะเป็นตัวหนังสือเล็ก ตัวหนังสือเอียง พื้นหลังรก หรือภาพความละเอียดต่ำ ก็ยังพยายามอ่านออกมาให้ได้

ลองได้ทันทีโดยไม่ต้องลงอะไรเลย

จุดที่ทำให้รุ่นนี้เข้าถึงง่ายคือมีหน้าเว็บให้ลองใช้ฟรี ก่อนตัดสินใจว่าจะเอาไปใช้จริงไหม ไม่ต้องติดตั้งโปรแกรม ไม่ต้องสมัครอะไรซับซ้อน

เริ่มลองได้ในไม่กี่นาทีด้วยขั้นตอนนี้

เปิดหน้า PP-OCRv6 Online Demo บนเบราว์เซอร์
อัปโหลดรูปที่มีตัวหนังสือเข้าไป เช่น สกรีนช็อตเอกสารภาษาอังกฤษ หรือภาพป้าย
รอให้โมเดลประมวลผล แล้วดูข้อความที่มันอ่านออกมาได้

เท่านี้ก็เห็นแล้วว่ามันอ่านรูปของเราได้ดีแค่ไหน วิธีนี้ดีตรงที่ได้ทดสอบกับรูปจริงของตัวเอง ไม่ใช่ดูแค่ตัวอย่างที่เขาเลือกมาให้

มี 3 ขนาด เลือกตามงานที่จะใช้

ตารางเทียบ 3 ขนาดของ PP-OCRv6 (tiny · small · medium) ตามจำนวนพารามิเตอร์ ความแม่นในการอ่าน จำนวนภาษา และเครื่องที่เหมาะจะรัน โดยเน้นคอลัมน์ medium เป็นตัวเลือกสำหรับงานจริง — ยิ่งโมเดลใหญ่ ความแม่นยิ่งขยับขึ้น · งานจริงที่ต้องอ่านให้แม่น เลือก medium

PP-OCRv6 ไม่ได้มีแค่โมเดลเดียว แต่แบ่งเป็น 3 ขนาดให้เลือกตามว่าจะเอาไปรันที่ไหน เครื่องแรงแค่ไหน และต้องการความแม่นยำระดับไหน ทั้งสามตัวมาจากตระกูลเดียวกัน ต่างกันที่ขนาดและความละเอียดในการอ่าน

tiny (1.5M พารามิเตอร์) ตัวเล็กที่สุด เหมาะกับอุปกรณ์เล็กหรือเครื่องที่มีพลังประมวลผลจำกัด เน้นเบาและเร็ว
small (7.7M พารามิเตอร์) ตัวกลางสำหรับมือถือและคอมทั่วไป สมดุลระหว่างความเร็วกับความแม่นยำ
medium (34.5M พารามิเตอร์) ตัวใหญ่ที่สุด แม่นที่สุด เหมาะกับงานฝั่งเซิร์ฟเวอร์ที่ต้องการความถูกต้องเป็นหลัก เช่น งานประมวลผลเอกสารจำนวนมาก

แล้วควรเลือกตัวไหน? ถ้าแค่อยากลองหรือต้องรันบนเครื่องเล็ก ให้เริ่มที่ tiny หรือ small ถ้าเอาไปใช้กับงานจริงที่ต้องอ่านแม่นๆ ให้ใช้ medium ส่วนเรื่องภาษา ตัว small กับ medium รองรับ 50 ภาษา ตัว tiny แหล่งข้อมูลไม่ได้ระบุจำนวนภาษาที่ชัดเจนไว้

รองรับ 50 ภาษา แต่ต้องเข้าใจให้ตรงว่าภาษาไหนบ้าง

เรื่องนี้ต้องพูดให้ชัด 50 ภาษาที่ตัว small กับ medium รองรับ ประกอบด้วยภาษาจีนตัวย่อ จีนตัวเต็ม อังกฤษ ญี่ปุ่น และอีก 46 ภาษาที่ใช้อักษรละติน เช่น กลุ่มภาษายุโรป

นั่นแปลว่าถ้างานของเราเป็นเอกสารหรือภาพภาษาอังกฤษ จะใช้ได้สบาย แต่ภาษาไทยใช้อักษรของตัวเอง และไม่ได้อยู่ในรายชื่อภาษาที่แหล่งข้อมูลยืนยันไว้ เราจึงยังสรุปแทนไม่ได้ว่าอ่านภาษาไทยได้ดีแค่ไหน ทางที่ดีที่สุดคืออัปโหลดรูปภาษาไทยของเราเข้าไปลองในหน้าเดโม แล้วดูจากผลจริงว่าใช้กับงานได้พอไหม

ดีขึ้นจากรุ่นก่อนตรงไหน

เทียบกับ PP-OCRv5 รุ่นก่อนหน้า ตัว medium ของรุ่นใหม่นี้อ่านแม่นขึ้นทั้งสองด้าน ทั้งการตรวจจับว่าตัวหนังสืออยู่ตรงไหนในรูป และการแปลงตัวหนังสือนั้นเป็นข้อความ โดยขยับขึ้นราว 4 ถึง 5 จุดจากรุ่นก่อน

ถ้าดูตัวเลขของแต่ละขนาด ฝั่งความแม่นในการอ่านข้อความ tiny อยู่ที่ราว 73.5% small ราว 81.3% และ medium ราว 83.2% จะเห็นว่ายิ่งโมเดลใหญ่ขึ้น ความแม่นก็ขยับตามขึ้นไป นี่คือเหตุผลที่งานจริงที่ต้องการความถูกต้องสูงเลือกตัว medium

ได้ข้อความออกมาแล้ว เอาไปต่อยังไง

ลำดับ 4 ขั้นของการใช้ PP-OCRv6 ตั้งแต่ภาพที่มีตัวหนังสือ ไปจนถึงข้อความมีโครงสร้างที่นำไปต่อยอดอัตโนมัติ โดยเน้นขั้นสุดท้ายเป็นปลายทางที่ระบบรับงานต่อเอง — ผลลัพธ์ไม่ได้เป็นแค่ตัวหนังสือ แต่เป็นข้อมูลมีโครงสร้างที่ระบบนำไปทำงานต่อได้

ผลที่ได้จาก PP-OCRv6 ไม่ได้มีแค่ตัวหนังสือล้วนๆ แต่ออกมาเป็นข้อมูลที่มีโครงสร้าง บอกได้ว่าข้อความแต่ละก้อนอยู่ตรงไหนในรูป จุดนี้ทำให้เอาไปต่อยอดได้มากกว่าแค่ก๊อปวาง

เช่น ดึงเลขที่กับยอดเงินจากสลิปเข้าระบบบัญชีอัตโนมัติ ทำให้เอกสารที่สแกนเป็นภาพกลายเป็นไฟล์ที่ค้นหาด้วยคีย์เวิร์ดได้ หรือส่งข้อความที่อ่านได้ต่อให้ระบบ AI อื่นใช้ทำงานต่อ งานที่เคยต้องนั่งพิมพ์เองทั้งหมดก็กลายเป็นขั้นตอนที่ระบบจัดการอัตโนมัติได้

ทีม PaddlePaddle เผยแพร่ PP-OCRv6 ไว้ในบล็อกบน Hugging Face ให้ทุกคนใช้ฟรีแบบโอเพนซอร์ส ทั้งทดลองบนเว็บ และดาวน์โหลดไปรันบนเครื่องตัวเอง

ของฟรีที่อ่านตัวหนังสือออกจากรูปได้หลายภาษาอยู่ตรงหน้าแล้ว เหลือแค่ลากรูปแรกเข้าไปลอง คำตอบว่ามันใช้กับงานเราได้แค่ไหนอยู่ที่ผลที่มันอ่านออกมา ไม่ใช่ตัวเลขที่ใครเขียนไว้

ที่มา: บทความ PP-OCRv6 on Hugging Face: 50-Language OCR from 1.5M to 34.5M Parameters จาก PaddlePaddle (Hugging Face)

news

ทีมผู้เขียน Vibe Coding Thailandvibecodingth

สอนใช้ AI กับงานจริงเป็นภาษาไทย ผ่านบทความ คอร์ส และเครื่องมือที่สร้างด้วย AI

หนังสือแนะนำ

Claude Cowork · The Business Playbook

฿1,400฿2,500ลด 44%

สั่งซื้อหนังสือ

$ tail -f journal.log

อ่านต่อจากเรื่องนี้

NEWS

22 มิ.ย. 2569 · 8 นาที

deno desktop เปลี่ยนเว็บแอปให้เป็นโปรแกรม desktop ด้วยคำสั่งเดียว ไม่ต้องแตะโค้ดเดิม

NEWS

22 มิ.ย. 2569 · 9 นาที

ในสัปดาห์เดียว เครื่องมือเสริม Claude Code โผล่มาพร้อมกัน 5 ตัว ทั้ง Recall, claude-pulse, lazyskills และอีก 2 ตัว เริ่มจากไหนดี

NEWS

22 มิ.ย. 2569 · 8 นาที

LucidML เสกภาพนิ่งใบเดียวให้กลายเป็นเกมที่เดินเล่นได้ · แล้วรันบนการ์ดจอเครื่องบ้าน RTX 5090 ได้เอง

ดูบทความทั้งหมด

$ open facebook.com/groups

คุยกันต่อในกลุ่ม

ถาม-ตอบเรื่องการใช้ AI กับงานจริง กันทุกวัน · เข้าฟรี

เข้ากลุ่ม Facebook

Claude Cowork

฿1,400฿2,500

ซื้อหนังสือ

$ loading ~/blog

$ cat blog/pp-ocrv6.md

PP-OCRv6 โมเดลฟรีที่อ่านตัวหนังสือออกจากรูป รองรับถึง 50 ภาษาในตัวเดียว

22 มิถุนายน 2569 · 6 นาที

OCR คืออะไร ทำไมถึงช่วยให้ทำงานกับรูปง่ายขึ้น

ลองได้ทันทีโดยไม่ต้องลงอะไรเลย

เริ่มลองได้ในไม่กี่นาทีด้วยขั้นตอนนี้

เปิดหน้า PP-OCRv6 Online Demo บนเบราว์เซอร์
อัปโหลดรูปที่มีตัวหนังสือเข้าไป เช่น สกรีนช็อตเอกสารภาษาอังกฤษ หรือภาพป้าย
รอให้โมเดลประมวลผล แล้วดูข้อความที่มันอ่านออกมาได้

มี 3 ขนาด เลือกตามงานที่จะใช้

tiny (1.5M พารามิเตอร์) ตัวเล็กที่สุด เหมาะกับอุปกรณ์เล็กหรือเครื่องที่มีพลังประมวลผลจำกัด เน้นเบาและเร็ว
small (7.7M พารามิเตอร์) ตัวกลางสำหรับมือถือและคอมทั่วไป สมดุลระหว่างความเร็วกับความแม่นยำ
medium (34.5M พารามิเตอร์) ตัวใหญ่ที่สุด แม่นที่สุด เหมาะกับงานฝั่งเซิร์ฟเวอร์ที่ต้องการความถูกต้องเป็นหลัก เช่น งานประมวลผลเอกสารจำนวนมาก