Tôi đang cố gắng thêm phông chữ mới vào tesseract ocr. Tôi đang theo dõi this tutorial nhưng tôi đang gặp một số vấn đề.Thêm Phông chữ Mới vào Tesseract 3
Dưới đây là những gì tôi đã làm như vậy cho đến nay:
Tạo tài liệu đào tạo
convert eng.myfont.exp0.pdf eng.myfont.exp0.tif
Train Tesseract
tesseract eng.myfont.exp0.tif eng.myfont.exp0 batch.nochop makebox
này tạo eng.myfont của tôi .exp0.box tập tin.
Tôi mở tệp bằng moshpytt và đảm bảo tệp được phát hiện chính xác.
Thức ăn tập tin hộp trở lại vào Tesseract
tesseract eng.myfont.exp0.tif eng.myfont.exp0.box nobatch box.train.stderr
Tôi có kết quả này:
Tesseract OCR mã nguồn mở cơ v3.03 với Leptonica
APPLY_BOXES:
Hộp đọc từ boxfile: 146
Tìm thấy 146 đốm màu tốt.
ĐÀO TẠO ... Tên Font = myfont.exp0
dữ liệu huấn luyện tạo cho 6 chữ- tập tin eng.myfont.exp0.box.tr và eng.myfont.exp0.box.txt tạo
thử để phát hiện các thiết lập nhân vật được sử dụng trong các tập tin hộp (đây là nơi tôi gặp khó khăn)
unicharset_extractor *.box
Kết quả:
unicharset_extractor: command not found
Tôi cũng tred unicharset_extractor eng.myfont.exp0.box
với kết quả tương tự.
Tôi đang sử dụng:
- Tesseract 3,03
- leptonica-1.70
- libgif 4.1.6 (?): Libjpeg 8d: libpng 1.2.50: libtiff 4.0.3: zlib 1.2. 8: webp 0.4.0
- Ubuntu 14.04.1 LTS
Điều đó khá đặc biệt. Nó chỉ có nghĩa là lệnh không thể được tìm thấy. Trên hệ thống của tôi, tôi có thể tìm thấy lệnh đó mà không có bất kỳ vấn đề nào trong '/ usr/local/bin/unicharset_extractor'. – mlissner