2014-10-05 37 views
6

Tôi đang cố gắng thêm phông chữ mới vào tesseract ocr. Tôi đang theo dõi this tutorial nhưng tôi đang gặp một số vấn đề.Thêm Phông chữ Mới vào Tesseract 3

Dưới đây là những gì tôi đã làm như vậy cho đến nay:

  1. Tạo tài liệu đào tạo

    convert eng.myfont.exp0.pdf eng.myfont.exp0.tif

  2. Train Tesseract

    tesseract eng.myfont.exp0.tif eng.myfont.exp0 batch.nochop makebox

    này tạo eng.myfont của tôi .exp0.box tập tin.

    Tôi mở tệp bằng moshpytt và đảm bảo tệp được phát hiện chính xác.

  3. Thức ăn tập tin hộp trở lại vào Tesseract

    tesseract eng.myfont.exp0.tif eng.myfont.exp0.box nobatch box.train.stderr

    Tôi có kết quả này:

    Tesseract OCR mã nguồn mở cơ v3.03 với Leptonica
    APPLY_BOXES:
    Hộp đọc từ boxfile: 146
    Tìm thấy 146 đốm màu tốt.
    ĐÀO TẠO ... Tên Font = myfont.exp0
    dữ liệu huấn luyện tạo cho 6 chữ

    • tập tin eng.myfont.exp0.box.tr và eng.myfont.exp0.box.txt tạo
  4. thử để phát hiện các thiết lập nhân vật được sử dụng trong các tập tin hộp (đây là nơi tôi gặp khó khăn)

    unicharset_extractor *.box

Kết quả:

unicharset_extractor: command not found

Tôi cũng tred unicharset_extractor eng.myfont.exp0.box với kết quả tương tự.

Tôi đang sử dụng:

  • Tesseract 3,03
  • leptonica-1.70
  • libgif 4.1.6 (?): Libjpeg 8d: libpng 1.2.50: libtiff 4.0.3: zlib 1.2. 8: webp 0.4.0
  • Ubuntu 14.04.1 LTS
+0

Điều đó khá đặc biệt. Nó chỉ có nghĩa là lệnh không thể được tìm thấy. Trên hệ thống của tôi, tôi có thể tìm thấy lệnh đó mà không có bất kỳ vấn đề nào trong '/ usr/local/bin/unicharset_extractor'. – mlissner

Trả lời

6

Các công cụ đào tạo cho Tesseract 3.03 RC đã được bỏ qua từ Ubuntu 14.04. Vì vậy, hoặc là quay trở lại Tesseract 3.02 hoặc nâng cấp lên Ubuntu 14.10, mà nên có nó.

+0

Tôi cũng gặp vấn đề tương tự trong thiết bị đầu cuối OS X EI Captain 10.11.1. Tôi đã sử dụng các phiên bản dưới đây tesseract 3.04.01 leptonica-1.72 libjpeg 8d: libpng 1.6.21: libtiff 4.0.6: zlib 1.2.5 –

Các vấn đề liên quan