Tôi rất mới đối với OCR và hầu như không biết gì về các thuật toán được sử dụng để nhận dạng các từ. Tôi chỉ làm quen với điều đó.Phương pháp điển hình để tách các chữ cái được kết nối thành một từ bằng OCR
Có ai vui lòng tư vấn về phương pháp điển hình được sử dụng để nhận dạng và tách riêng các ký tự riêng lẻ ở dạng kết nối (ý tôi là trong một từ mà tất cả các chữ cái được liên kết với nhau)? Quên về chữ viết tay, giả sử các chữ cái được kết nối với nhau bằng cách sử dụng một phông chữ được biết, phương pháp tốt nhất để xác định từng ký tự riêng lẻ trong một từ là gì? Khi các ký tự được viết riêng thì không có vấn đề gì, nhưng khi chúng được nối với nhau, chúng ta nên biết mỗi ký tự đơn lẻ bắt đầu và kết thúc để chuyển sang bước tiếp theo và kết hợp chúng với một chữ cái. Có bất kỳ thuật toán đã biết nào không?
Tesseract không thể xử lý các tập lệnh được kết nối như tiếng Ả Rập. Nó sẽ mất một số thuật toán chuyên ngành để xử lý trường hợp này, và ngay bây giờ nó không có chúng. code.google.com/p/tesseract-ocr/wiki/TrainingTesseract – Meysam
Đủ công bằng. Tôi cho rằng bạn đang nói về nó kết nối tiếng Anh (ir Cursive). Hy vọng rằng các ý tưởng là hữu ích mặc dù. Tôi sẽ thêm một câu trả lời khác cho tiếng Ả Rập. –