2012-04-20 55 views
5

Tôi đang tìm cách xử lý một loạt các bưu thiếp được phản hồi đã quét có thông tin liên hệ được viết tay trên chúng (ví dụ: Tên, Địa chỉ, Điện thoại, Email, v.v.).Có thư viện/chương trình nhận dạng chữ viết tay không?

Tôi rất tò mò nếu có một thư viện nguồn mở khả thi hoặc một phần mềm để thực hiện điều này (lý tưởng là Java hoặc R). Nhìn xung quanh rất nhiều thông tin là từ năm 2009 hoặc sớm và không phải là rất đáng khích lệ.

Ngôn ngữ là tiếng Anh.

Mọi đề xuất?

EDIT: Tôi đã xem trang OCRopus nhưng phiên bản mới nhất là từ tháng 5 năm 2009. Bất kỳ ai có bất kỳ trải nghiệm nào với phiên bản này hoặc có phiên bản mới hơn không?

+0

Bất kỳ ngôn ngữ cụ thể nào? –

+1

Tôi không thực sự nhận được gắn thẻ trong câu hỏi này ... – talnicolas

+0

@DanW: Java hoặc R sẽ là lý tưởng. Chữ viết tay bằng tiếng Anh. – screechOwl

Trả lời

2

Để bắt đầu, theo như tôi biết không có Java OCR SDK nguồn mở nào. Có các API Java bao gồm các cuộc gọi cho các giao diện nguyên bản, tesjeract (http://code.google.com/p/tesjeract/) hoặc Tess4J (http://tess4j.sf.net/).

Tiếp theo, bạn cần xác định xem bạn có tìm kiếm văn bản viết tay hoặc viết tay hay không. Nếu bạn cần nhận dạng chữ viết tay - tôi không tin rằng bạn sẽ có thể giải quyết các công việc của mình vì những lý do được nêu trong các câu trả lời khác.

Tuy nhiên, nếu bạn cần ICR (viết tắt của nhận dạng ký tự thông minh) cho văn bản viết tay (chữ cái rõ ràng được sử dụng trong khảo sát, biểu mẫu, v.v.) có thể có giải pháp. Trong khi tôi tin rằng tesseract (mặc dù được coi là tốt nhất trong số các công cụ mã nguồn mở) sẽ không thực hiện công việc cho bạn ở đây, bạn có thể tìm các SDK chính xác hơn.

Có thể câu hỏi này sẽ giúp: Handwritten scanned Doc to .txt File?

3

Bạn có thể muốn xem http://code.google.com/p/ocropus/, là hệ thống OCR nguồn mở.

Nhưng, dường như nó được viết bằng C++ và python.

* UPDATE: *

Kể từ khi một trong những dự án nghiên cứu là một phân tích viết tay tôi hy vọng nó có thể giúp đỡ.

Động cơ OCRopus dựa trên hai dự án nghiên cứu: a chữ viết tay recognizer hiệu suất cao được phát triển vào giữa 90 và triển khai bởi US Census Bureau, và hiệu suất cao bố trí phương pháp phân tích tiểu thuyết.

Và nếu bạn nhìn vào http://code.google.com/p/ocropus/source/browse/ các file nguồn đã được cập nhật kể từ tháng 10/2011 (một trong ba là từ 3/2012), vì vậy nó có vẻ như đang được đang được phát triển vẫn còn.

+0

OCRopus KHÔNG dành cho nhận dạng chữ viết tay – Tomato

3

Tôi không biết về bất kỳ thư viện nhận dạng chữ viết mã nguồn mở đang hoạt động nào, bất kể tôi đang ở trong không gian OCR trong một thời gian rồi. Thông thường chữ viết tay khó hơn OCR và tôi sẽ nói rằng không có giải pháp thương mại nào cả. Tất cả những gì tồn tại có vấn đề riêng của họ và chỉ có thể làm việc trong các ứng dụng rất hẹp như khi từ điển bị hạn chế, văn bản được viết tốt, v.v. Nếu bạn vẫn quan tâm, tôi khuyên bạn nên kiểm tra công nghệ từ công ty Pháp I2IA

Các vấn đề liên quan