2012-02-28 63 views
7

Tôi không hiểu bất kỳ thứ gì về công cụ OCR. Tôi chỉ cần (nếu nó thậm chí có thể) để có được một .jar để nhập khẩu vào Eclipse mà tôi có thể đưa ra một hình ảnh (.bmp, .tiff, .jpeg) cho đầu vào và nó cho tôi một chuỗi với nội dung văn bản của hình ảnh. Nó không phải là captchas hoặc viết tay, chỉ là một "bức ảnh" đơn giản của một số chữ cái.Mã nguồn mở JAVA OCR trên eclipse

Giải pháp nguồn mở được đánh giá cao. Tôi thấy các dự án như Tess4j hoặc JavaOCR nhưng họ được một chút phức tạp để xử lý :(

Bất cứ ai cũng có một gợi ý

Cập nhật:?. Tôi đã tìm thấy rằng AspriseOCR là rất dễ sử dụng Chỉ cần nhập .jar để đường dẫn xây dựng và gọi một phương thức Khá tốt nhưng ... Tôi không thể sử dụng nó trên các dự án của riêng tôi! Bạn có biết bất kỳ thư viện nào đơn giản như Asprise hay không (tôi không cần phải biên dịch bất cứ thứ gì, hoặc có bất kỳ loại đào tạo:. chỉ nhập khẩu và đó là nó !!)

+0

kiểm tra điều này: http://stackoverflow.com/questions/1813881/java-ocr-implementation và http://asprise.com/product/ocr/index.php?lang=java – Favonius

+0

1) Tại sao "mở -source? Bạn có gợi ý rằng một người không * "hiểu bất kỳ thứ gì về công cụ OCR" * có thể tạo ra các thay đổi hoặc tiện ích mở rộng cho mã một cách có lợi nhuận không? Hay bạn thực sự có nghĩa là 'miễn phí'? 2) 'Java' chỉ có một chữ cái viết hoa, nó là một tên thích hợp, chứ không phải là một từ viết tắt được viết là 'JAVA' 3) Vui lòng loại bỏ tiếng ồn như 'Greetings N.' –

+2

Cảm ơn câu trả lời của bạn. 1) Nguồn mở chỉ vì tôi không có tiền để mua thư viện! Tôi không muốn thực hiện bất kỳ phần mở rộng nào cho mã, nhưng tôi có thể sử dụng nó trên một trong các ứng dụng dành cho thiết bị di động của mình. 2) Tôi không có tiếng Anh là "ngôn ngữ mẹ đẻ" của tôi, vì vậy tôi có thể mắc lỗi, xin lỗi. 3) Tôi luôn cố gắng lịch sự :) – nunoaac

Trả lời

9

như xa như tôi biết rằng không có Java OCR SDK nguồn mở nào. Có các API Java bao bọc các cuộc gọi cho các giao diện gốc, ví dụ, cho một trong những công cụ OCR mã nguồn mở phổ biến nhất - Tesseract (http://groups.google.com/group/tesseract-ocr/) - có một số trình bao bọc Java như tesjeract (http://code.google.com/p/tesjeract/) hoặc Tess4J (http://tess4j.sf.net/). Điều đó có thể phù hợp với bạn, nhưng thật khó để thiết lập và sẽ yêu cầu phát triển tiền xử lý hình ảnh và đào tạo phông chữ ở bên cạnh bạn.

Một giải pháp khác có thể là dịch vụ đám mây. Nó đòi hỏi ứng dụng người dùng cuối phải có kết nối internet, nhưng nó độc lập với lựa chọn ngôn ngữ lập trình và các hạn chế về tài nguyên của bạn. Hãy xem http://ocrsdk.com, đó là SDK OCR dựa trên đám mây cho phép bạn tải lên hình ảnh thông qua API web và trả về cho bạn dữ liệu OCRed. SDK OCR dựa trên Web API này không miễn phí, có thể không phù hợp với bạn, nhưng tôi vẫn khuyên bạn nên dùng thử (nó có bản dùng thử miễn phí) vì giá của nó thực sự phải chăng so với các giải pháp doanh nghiệp trong khi nó cung cấp mức doanh nghiệp Độ chính xác OCR tốt hơn so với nguồn mở. Bạn cũng có thể thấy hữu ích này Java codesample tại github. Disclamer: tôi làm việc @ ABBYY.

+0

ABBYY cũng cho phép chúng tôi tải lên tệp PDF (có thể là tài liệu được quét) để nhận dữ liệu OCRed không? – Dax

Các vấn đề liên quan