Tesseract.js
เป็นไลบรารี OCR (Optical Character Recognition) ที่ช่วยให้เราสามารถแปลงรูปภาพเป็นข้อความได้โดยใช้ JavaScript โดยไม่ต้องติดตั้งซอฟต์แวร์เพิ่มเติม เนื่องจากมันทำงานบน WebAssembly
ติดตั้งและนำเข้า Tesseract.js
1. ใช้ผ่าน CDN (แนะนำสำหรับเว็บเบราว์เซอร์)
คุณสามารถเพิ่มสคริปต์นี้ไปที่ <script>
ใน HTML ของคุณ:
2. ติดตั้งผ่าน NPM (สำหรับ Node.js)
ถ้าคุณใช้งานในโปรเจกต์ Node.js หรือ Webpack ให้ติดตั้งโดยใช้คำสั่ง:
ใช้งาน OCR ใน JavaScript
ตัวอย่างใช้งาน OCR จาก URL รูปภาพ
การใช้งาน OCR ใน Node.js
การใช้งานหลายภาษา (ไทย + อังกฤษ)
สรุป
- ใช้
Tesseract.recognize(image, language, options)
เพื่อแปลงภาพเป็นข้อความ - สามารถโหลดผ่าน CDN หรือ npm ได้
- รองรับหลายภาษา (
eng
,tha
, ฯลฯ) - ใช้ในเบราว์เซอร์หรือ Node.js ได้
- มี
logger
เพื่อดูความคืบหน้าขณะ OCR
หากต้องการ OCR ภาษาไทยให้ใช้ 'tha'
หรือ 'eng+tha'