2010-04-14 37 views
5

Tôi rất mới đối với OCR và hầu như không biết gì về các thuật toán được sử dụng để nhận dạng các từ. Tôi chỉ làm quen với điều đó.Phương pháp điển hình để tách các chữ cái được kết nối thành một từ bằng OCR

Có ai vui lòng tư vấn về phương pháp điển hình được sử dụng để nhận dạng và tách riêng các ký tự riêng lẻ ở dạng kết nối (ý tôi là trong một từ mà tất cả các chữ cái được liên kết với nhau)? Quên về chữ viết tay, giả sử các chữ cái được kết nối với nhau bằng cách sử dụng một phông chữ được biết, phương pháp tốt nhất để xác định từng ký tự riêng lẻ trong một từ là gì? Khi các ký tự được viết riêng thì không có vấn đề gì, nhưng khi chúng được nối với nhau, chúng ta nên biết mỗi ký tự đơn lẻ bắt đầu và kết thúc để chuyển sang bước tiếp theo và kết hợp chúng với một chữ cái. Có bất kỳ thuật toán đã biết nào không?

Trả lời

3

Thuật ngữ chuẩn cho quá trình này là "phân đoạn ký tự" - phân đoạn là thuật ngữ xử lý hình ảnh để tách hình ảnh thành các khu vực được nhóm để nhận dạng. "Phân đoạn ký tự tiếng Ả Rập" throws up a lot of hits in google scholar nếu bạn muốn tìm hiểu thêm.

Tôi khuyến khích bạn xem Tesseract - an open source OCR implementation, đặc biệt là the documents.

Tính năng như được định nghĩa trong the glossary có một chút về điều này, nhưng có rất nhiều thông tin ở đây.

Về cơ bản Tesseract giải quyết vấn đề (từ How Tesseract Works) bằng cách nhìn vào các đốm màu (không phải chữ cái) sau đó kết hợp các đốm màu đó thành các từ. Điều này tránh được vấn đề bạn mô tả, trong khi tạo ra các vấn đề mới.

Đối với tiếng ả rập (như bạn chỉ ra) Tesseract không hoạt động. Tôi không biết nhiều về lĩnh vực này nhưng this paper dường như ngụ ý Dynamic Time Warping (DTW) là một kỹ thuật hữu ích. Điều này cố gắng để kéo dài các từ để phù hợp với họ để biết từ, và một lần nữa hoạt động trong từ chứ không phải là không gian chữ.

+0

Tesseract không thể xử lý các tập lệnh được kết nối như tiếng Ả Rập. Nó sẽ mất một số thuật toán chuyên ngành để xử lý trường hợp này, và ngay bây giờ nó không có chúng. code.google.com/p/tesseract-ocr/wiki/TrainingTesseract – Meysam

+0

Đủ công bằng. Tôi cho rằng bạn đang nói về nó kết nối tiếng Anh (ir Cursive). Hy vọng rằng các ý tưởng là hữu ích mặc dù. Tôi sẽ thêm một câu trả lời khác cho tiếng Ả Rập. –

Các vấn đề liên quan