2012-10-22 16 views
11

Tôi muốn biết những gì các tham số tập tin cấu hình được sử dụng bởi Tesseract OCR chấp nhận, làm thế nào để viết một tập tin cấu hình, vvLàm thế nào để tìm thấy các thông số được hỗ trợ trong tập tin cấu hình Tesseract OCR

tôi không thể tìm thấy bất kỳ tài liệu về vấn đề này trên their site. Làm cách nào để xác định tham số nào được hỗ trợ và ý nghĩa của chúng?

+0

http : //code.google.com/p/tesseract-ocr/wiki/ControlParams – rmtheis

+0

Tệp cấu hình mẫu: https://github.com/tesseract-ocr/tesseract/tree/master/tessdata/configs –

Trả lời

14

Tôi đã tìm thấy các hướng dẫn này trong liên kết bên dưới. Họ là về cách viết tập tin cấu hình và nơi để đặt nó:

tệp cấu hình là tệp văn bản đơn giản không có BOM và dấu cuối dòng Unix (trên Windows bạn có thể sử dụng một số trình soạn thảo văn bản nâng cao như Notepad ++ để đạt được điều này).

Nếu bạn sử dụng tệp thực thi tesseract thì đây chỉ là cách thay đổi tham số tesseract.

tệp cấu hình phải được đặt trong thư mục tessdata/configs của bạn. Có một cái nhìn ở đó cho một số ví dụ.

Có một danh sách của tất cả các biến cùng với mô tả của mỗi biến trong http://www.sk-spell.sk.cx/tesseract-ocr-parameters-in-302-version. Lưu ý nó cho Tesseract 3.02, mọi thứ có thể khác nhau trong các phiên bản khác.

Chỉnh sửa: Đồng thời thêm pastebin link trong trường hợp liên kết trên trở nên chết.

7

Nó chỉ là một tệp văn bản thuần túy chứa cặp khóa/giá trị phân tách bằng dấu cách cho biến cấu hình Tesseract, mỗi biến trên dòng riêng biệt; ví dụ:

interactive_display_mode T 
tessedit_display_outwords T 

Có một số tập tin cấu hình tiêu chuẩn - như chữ số, hocr - dưới Tesseract tessdata/configs thư mục.

+0

Tôi có thể tìm thấy ở đâu danh sách của tất cả các biến cấu hình, và các giá trị mà họ có thể mất? – sashoalm

+2

Vui lòng tham khảo bài đăng này: http://stackoverflow.com/questions/13087252/where-i-can-find-the-list-of-available-property-name-for-tesseract-setvariable – nguyenq

+0

và ... cách thực hiện cấu hình tập tin được lưu? ý tôi là ... tôi nên đưa cho tôi tên gì? và ... làm thế nào để lệnh "tesseract" sử dụng tập tin cấu hình đặc biệt? :(Tôi hơi bối rối. @nguyenq – gumuruh

5

Tesseract v3.04 hiện nay cung cấp các tùy chọn dòng lệnh --print-parameters, vì vậy bạn có thể gọi tesseract --print-parameters để có được một danh sách các thông số cấu hình 678, giá trị mặc định của họ, và một mô tả ngắn (!):

Tesseract parameters: 
editor_image_xpos 590 Editor image X Pos 
editor_image_ypos 10 Editor image Y Pos 
editor_image_menuheight 50 Add to image height for menu bar 
editor_image_word_bb_color 7 Word bounding box colour 
editor_image_blob_bb_color 4 Blob bounding box colour 
editor_image_text_color 2 Correct text colour 
...and many, many more 
Các vấn đề liên quan