PP-OCRv6 โมเดลฟรีที่อ่านตัวหนังสือออกจากรูป รองรับถึง 50 ภาษาในตัวเดียว
PP-OCRv6 คือโมเดลโอเพนซอร์สตัวล่าสุดที่แปลงตัวหนังสือในรูปภาพให้เป็นข้อความที่ก๊อปวางได้ ลองได้ฟรีบนเว็บโดยไม่ต้องเขียนโค้ดสักบรรทัด

ถ่ายรูปสลิป สกรีนช็อตเอกสาร หรือเก็บภาพป้ายไว้ในมือถือ แล้วต้องมานั่งพิมพ์ตัวเลขกับข้อความในนั้นใหม่ทีละตัว งานแบบนี้เสียเวลาและพิมพ์ผิดได้ง่ายมาก PP-OCRv6 คือโมเดลโอเพนซอร์สตัวล่าสุดที่ทำมาเพื่องานนี้โดยเฉพาะ เป็น OCR หรือ Optical Character Recognition ที่อ่านตัวหนังสือในรูปภาพออกมาเป็นข้อความให้ก๊อปวางต่อได้ทันที โมเดลนี้มาจาก PaddleOCR ซึ่งเป็นโปรเจกต์โอเพนซอร์สด้าน OCR ที่เปิดให้ทุกคนใช้ได้ฟรี
จุดที่น่าสนใจของรุ่นนี้คือรองรับได้ถึง 50 ภาษาในโมเดลเดียว และที่สำคัญคือทดลองใช้ได้ฟรีบนเว็บโดยไม่ต้องลงโปรแกรมหรือเขียนโค้ดสักบรรทัด แค่อัปโหลดรูปเข้าไปก็เห็นผลเลย
OCR คืออะไร ทำไมถึงช่วยให้ทำงานกับรูปง่ายขึ้น
OCR คือเทคโนโลยีที่มองรูปภาพแล้วบอกได้ว่าในรูปนั้นมีตัวหนังสือเขียนว่าอะไร พูดง่ายๆ คือเปลี่ยน "รูปที่มีตัวหนังสือ" ให้กลายเป็น "ข้อความที่แก้ไขและก๊อปได้"
ลองนึกถึงงานที่เจอกันทุกวัน เช่น สลิปโอนเงินที่ต้องคีย์ยอดเข้าระบบ เอกสารที่สแกนมาเป็นไฟล์รูป สกรีนช็อตหน้าจอที่อยากดึงข้อความออกมา หรือป้ายราคาและฉลากสินค้าในโรงงาน งานพวกนี้เดิมต้องนั่งพิมพ์เองทั้งหมด แต่ OCR ช่วยตัดขั้นตอนนั้นออกไป เพราะอ่านให้แล้วส่งกลับมาเป็นข้อความตรงๆ
PP-OCRv6 ออกแบบมาให้รับมือกับรูปที่เจอจริงและอ่านยาก ไม่ว่าจะเป็นตัวหนังสือเล็ก ตัวหนังสือเอียง พื้นหลังรก หรือภาพความละเอียดต่ำ ก็ยังพยายามอ่านออกมาให้ได้
ลองได้ทันทีโดยไม่ต้องลงอะไรเลย
จุดที่ทำให้รุ่นนี้เข้าถึงง่ายคือมีหน้าเว็บให้ลองใช้ฟรี ก่อนตัดสินใจว่าจะเอาไปใช้จริงไหม ไม่ต้องติดตั้งโปรแกรม ไม่ต้องสมัครอะไรซับซ้อน
เริ่มลองได้ในไม่กี่นาทีด้วยขั้นตอนนี้
- เปิดหน้า PP-OCRv6 Online Demo บนเบราว์เซอร์
- อัปโหลดรูปที่มีตัวหนังสือเข้าไป เช่น สกรีนช็อตเอกสารภาษาอังกฤษ หรือภาพป้าย
- รอให้โมเดลประมวลผล แล้วดูข้อความที่มันอ่านออกมาได้
เท่านี้ก็เห็นแล้วว่ามันอ่านรูปของเราได้ดีแค่ไหน วิธีนี้ดีตรงที่ได้ทดสอบกับรูปจริงของตัวเอง ไม่ใช่ดูแค่ตัวอย่างที่เขาเลือกมาให้
มี 3 ขนาด เลือกตามงานที่จะใช้

PP-OCRv6 ไม่ได้มีแค่โมเดลเดียว แต่แบ่งเป็น 3 ขนาดให้เลือกตามว่าจะเอาไปรันที่ไหน เครื่องแรงแค่ไหน และต้องการความแม่นยำระดับไหน ทั้งสามตัวมาจากตระกูลเดียวกัน ต่างกันที่ขนาดและความละเอียดในการอ่าน
- tiny (1.5M พารามิเตอร์) ตัวเล็กที่สุด เหมาะกับอุปกรณ์เล็กหรือเครื่องที่มีพลังประมวลผลจำกัด เน้นเบาและเร็ว
- small (7.7M พารามิเตอร์) ตัวกลางสำหรับมือถือและคอมทั่วไป สมดุลระหว่างความเร็วกับความแม่นยำ
- medium (34.5M พารามิเตอร์) ตัวใหญ่ที่สุด แม่นที่สุด เหมาะกับงานฝั่งเซิร์ฟเวอร์ที่ต้องการความถูกต้องเป็นหลัก เช่น งานประมวลผลเอกสารจำนวนมาก
แล้วควรเลือกตัวไหน? ถ้าแค่อยากลองหรือต้องรันบนเครื่องเล็ก ให้เริ่มที่ tiny หรือ small ถ้าเอาไปใช้กับงานจริงที่ต้องอ่านแม่นๆ ให้ใช้ medium ส่วนเรื่องภาษา ตัว small กับ medium รองรับ 50 ภาษา ตัว tiny แหล่งข้อมูลไม่ได้ระบุจำนวนภาษาที่ชัดเจนไว้
รองรับ 50 ภาษา แต่ต้องเข้าใจให้ตรงว่าภาษาไหนบ้าง
เรื่องนี้ต้องพูดให้ชัด 50 ภาษาที่ตัว small กับ medium รองรับ ประกอบด้วยภาษาจีนตัวย่อ จีนตัวเต็ม อังกฤษ ญี่ปุ่น และอีก 46 ภาษาที่ใช้อักษรละติน เช่น กลุ่มภาษายุโรป
นั่นแปลว่าถ้างานของเราเป็นเอกสารหรือภาพภาษาอังกฤษ จะใช้ได้สบาย แต่ภาษาไทยใช้อักษรของตัวเอง และไม่ได้อยู่ในรายชื่อภาษาที่แหล่งข้อมูลยืนยันไว้ เราจึงยังสรุปแทนไม่ได้ว่าอ่านภาษาไทยได้ดีแค่ไหน ทางที่ดีที่สุดคืออัปโหลดรูปภาษาไทยของเราเข้าไปลองในหน้าเดโม แล้วดูจากผลจริงว่าใช้กับงานได้พอไหม
ดีขึ้นจากรุ่นก่อนตรงไหน
เทียบกับ PP-OCRv5 รุ่นก่อนหน้า ตัว medium ของรุ่นใหม่นี้อ่านแม่นขึ้นทั้งสองด้าน ทั้งการตรวจจับว่าตัวหนังสืออยู่ตรงไหนในรูป และการแปลงตัวหนังสือนั้นเป็นข้อความ โดยขยับขึ้นราว 4 ถึง 5 จุดจากรุ่นก่อน
ถ้าดูตัวเลขของแต่ละขนาด ฝั่งความแม่นในการอ่านข้อความ tiny อยู่ที่ราว 73.5% small ราว 81.3% และ medium ราว 83.2% จะเห็นว่ายิ่งโมเดลใหญ่ขึ้น ความแม่นก็ขยับตามขึ้นไป นี่คือเหตุผลที่งานจริงที่ต้องการความถูกต้องสูงเลือกตัว medium
ได้ข้อความออกมาแล้ว เอาไปต่อยังไง

ผลที่ได้จาก PP-OCRv6 ไม่ได้มีแค่ตัวหนังสือล้วนๆ แต่ออกมาเป็นข้อมูลที่มีโครงสร้าง บอกได้ว่าข้อความแต่ละก้อนอยู่ตรงไหนในรูป จุดนี้ทำให้เอาไปต่อยอดได้มากกว่าแค่ก๊อปวาง
เช่น ดึงเลขที่กับยอดเงินจากสลิปเข้าระบบบัญชีอัตโนมัติ ทำให้เอกสารที่สแกนเป็นภาพกลายเป็นไฟล์ที่ค้นหาด้วยคีย์เวิร์ดได้ หรือส่งข้อความที่อ่านได้ต่อให้ระบบ AI อื่นใช้ทำงานต่อ งานที่เคยต้องนั่งพิมพ์เองทั้งหมดก็กลายเป็นขั้นตอนที่ระบบจัดการอัตโนมัติได้
ทีม PaddlePaddle เผยแพร่ PP-OCRv6 ไว้ในบล็อกบน Hugging Face ให้ทุกคนใช้ฟรีแบบโอเพนซอร์ส ทั้งทดลองบนเว็บ และดาวน์โหลดไปรันบนเครื่องตัวเอง
ของฟรีที่อ่านตัวหนังสือออกจากรูปได้หลายภาษาอยู่ตรงหน้าแล้ว เหลือแค่ลากรูปแรกเข้าไปลอง คำตอบว่ามันใช้กับงานเราได้แค่ไหนอยู่ที่ผลที่มันอ่านออกมา ไม่ใช่ตัวเลขที่ใครเขียนไว้
ที่มา: บทความ PP-OCRv6 on Hugging Face: 50-Language OCR from 1.5M to 34.5M Parameters จาก PaddlePaddle (Hugging Face)



