Tại nơi làm việc của tôi, đôi khi tôi phải lấy một số mã nguồn đã in và tự nhập mã nguồn vào trình soạn thảo văn bản. Đừng hỏi tại sao.Cần OCR tốt cho danh sách mã nguồn được in, có ý tưởng nào không?
Rõ ràng là gõ nó lên mất một thời gian dài và luôn luôn thêm thời gian để gỡ lỗi gõ lỗi (oops bỏ lỡ một "$" dấu hiệu đó).
Tôi quyết định thử một số giải pháp OCR như:
- Microsoft Document Imaging - đã xây dựng trong OCR
- Kết quả: Bỏ lỡ tất cả các khoảng trắng hàng đầu, bỏ qua tất cả các dấu gạch dưới, giải thích rất nhiều các dấu chấm câu ký tự không đúng.
- Kết luận: Chậm hơn việc nhập mã theo cách thủ công.
- Nhiều web trực tuyến OCR apps
- Kết quả: tương tự hoặc tệ hơn Microsoft Document Imaging
- Kết luận: Chậm hơn so với nhập thủ công mã.
tôi cảm thấy như mã nguồn sẽ rất dễ dàng để OCR cho phông chữ là chữ serif và sans monospace.
Có ai trong số các bạn đã tìm thấy giải pháp OCR tốt hoạt động tốt trên mã nguồn không?
Có lẽ tôi chỉ cần một giải pháp OCR tốt hơn (không nhất thiết là mã nguồn cụ thể)?
Tôi đã thử khắc phục. Nó không thành công khi tôi tải nó lần đầu tiên. Readme trực tuyến chỉ định rằng nó không đi kèm với bất kỳ dữ liệu đào tạo nào. Tôi đã tải xuống dữ liệu đào tạo tiếng Anh từ trang web và được gỡ bỏ vào thư mục tessdata. NHƯNG sau đó nó vẫn phàn nàn về "không thể tìm thấy eng.unicharset". Làm thế nào tôi messing này lên? –
Xem ý tôi là gì? Tesseract chỉ miễn phí nếu thời gian của bạn không mất phí. Nhưng bạn có thể đăng câu hỏi trong nhóm người dùng tesseract. Họ thân thiện ở đó và đầu vào của bạn sẽ giúp làm cho nó dễ dàng hơn cho người tiếp theo để thiết lập con thú này lên. –
@Aaron Digulla, thưa bạn có thể chia sẻ cho tôi một số thư viện OCR có phạm vi từ $ 150 đến $ 500, –