2013-05-16 42 views
11

Tôi đã sử dụng SDK OCR Tesseract 3.0.2 để trích xuất văn bản hình ảnh. Nhưng nếu tôi sử dụng hình ảnh văn bản Trung Quốc và đi qua OCR thì Tesseract không cung cấp cho tôi các ký tự Trung Quốc thay vì tôi nhận được các ký tự số và tiếng Anh. Nhưng tôi cần các ký tự Trung Quốc như được hiển thị trong hình ảnh tôi đang sử dụng.Nhận dạng ký tự tiếng Trung bằng Tesseract OCR

Tôi làm cách nào để đạt được điều này? Có cách nào tôi có thể có được nhân vật Trung Quốc hơn là bất kỳ nhân vật khác?

Trả lời

11

Bạn cần phải tải dữ liệu đào tạo Tiếng Trung Quốc (nó sẽ là một tập tin như chi_sim.traineddata) và thêm nó vào tessdata thư mục của bạn.

Để tải file https://github.com/tesseract-ocr/tessdata/raw/master/chi_sim.traineddata

và sử dụng như thế này

Tesseract* tesseract= [[Tesseract alloc] initWithDataPath:@"tessdata" language:@"chi_sim"]; 

nếu bạn có bất kỳ vấn đề bạn có thể tải thử nghiệm của tôi với tessaract (với sự hỗ trợ ngôn ngữ Trung Quốc) từ https://github.com/aryansbtloe/ExperimentWithTesseract.git

Tôi đã thử nghiệm này ... Hy vọng bạn sẽ thấy điều này hữu ích.

+1

Cảm ơn nó hoạt động :-) –

+0

Alok, tôi đã thử mẫu của bạn và nó hoạt động tốt trên một nửa số ký tự Trung Quốc đơn giản mà tôi đã thử. Đối với phần còn lại, nó có thể nhận ra một ký tự ghép là một số ký tự khác nhau, mỗi ký tự đại diện cho một thành phần trong ký tự ghép hoặc hoàn toàn sai. Bạn có biết phương pháp nào để cải thiện độ chính xác của sự công nhận không? – CodePlumber

+1

Liên kết dữ liệu được đào tạo mới là https://github.com/tesseract-ocr/tessdata/raw/master/chi_sim.traineddata –

Các vấn đề liên quan