So it seems that when training Tesseract. quân Posts: 236 Joined: Sat 1:51 am Location: Oxnard, CA - USA Hãy nhớ ghi tên của font mà bạn đã tập huấn cho, để người sử dụng biết phải load bộ data nào vào tessdata directory khi OCR văn bản của họ.
Tesseract ocr download train data download#
Chúng sẽ được đăng trong VietOCR's Download page. Để cộng đồng có thể hưởng lợi từ công lao của bạn, xin vui lòng gửi data files. Mức chính xác sẽ nằm trong tầm cao của 90% Chạy OCR trên ảnh gốc để chứng thực công quả của bạn. Thay tên file với tiếp đầu ngữ "vie." và copy data files vào tessdata directory, đè trên file đang hiện cóĨ.
Chạy tesseract command để tạo data files (clustering)ħ. Chỉnh sửa box file sử dụng bbTesseract editing toolĦ. Chạy tesseract command để tạo box filesĥ. Càng nhiều dữ kiện, kết quả OCR càng tốt, vì vậy hãy lập lại (1) and (2) cho đến khi bạn có ít nhất 4 trang. Đánh máy lại trang đó cho mục đích sửa lỗi và thực nghiệmģ. Làm một ảnh tốt, sạch, uncompressed 300 DPI TIFF scan từ 1 trang của văn bản của bạnĢ. Bạn sẽ phải tập huấn cho font của bạn, mà quy trình hơi phức tạp chút nhưng được giải thích chi tiết trong trang Tesseract Wiki.ġ. Cho chữ Quốc ngữ, nếu dáng phông khác với bốn phông được hỗ trợ, sự chính xác suy giảm hẳn. Ứng dụng thực tế cho thấy Tesseract OCR engine rất nhạy cảm tới sự khác biệt trong hình dáng phông chữ.
Be sure to indicate the names of the fonts that you have trained for, so users can know which data set they should load into tessdata directory when OCRing their document. They will be posted in the VietOCR's Download page. The accuracy rate should be in the high 90%So that the community can benefit from your work, please submit your data files. Run OCR on the original images to validate your work. Rename files with "vie." prefix and copy the files to tessdata directory, overriding the existing dataĨ. Execute tesseract command to generate the data files (clustering)ħ. Edit the box file using the bbTesseract editing toolĦ.
Execute tesseract command to obtain the box filesĥ. The more data, the better the OCR result, so repeat (1) and (2) until you have at least 4 pages. Obtain the text by retyping the page for correction and testing purposeģ. Obtain a good, clean, uncompressed 300 DPI TIFF scan of a page of your documentĢ. You would have to train for your fonts, the process of which is a bit complicated but explained in details in Tesseract Wiki page.ġ. For Vietnamese text, if the character shape deviates from the four supported fonts, the accuracy deteriorates quickly. Real applications have shown that the Tesseract OCR engine is very sensitive to font glyph variations.