2014-09-05 19 views
6

Tôi đang đọc thông tin từ thông tin Thẻ Nhận dạng bằng Thư viện Tesseract. Tôi có điểm số Tự tin của mỗi từ hoặc mỗi dòng.Làm thế nào để đọc từ từ thẻ nhận dạng bằng cách sử dụng Tesseract OCR.?

Image Link

Box[0]: x=13, y=12, w=1134, h=57, confidence: 40, text: REPUYBLIQUE FRANCAISE 

Box[1]: x=21, y=75, w=1119, h=50, confidence: 42, text: 7 NN99 3W F 59W 

Box[2]: x=17, y=137, w=539, h=52, confidence: 30, text: V7 7 D5 NOM1BOHEL 

Box[3]: x=6, y=189, w=954, h=46, confidence: 0, text: 
Box[4]: x=12, y=239, w=1016, h=34, confidence: 40, text:  5 Q HV2 H CHRISTIANL NICBLE HBNIOIJE 

Box[5]: x=21, y=310, w=975, h=53, confidence: 67, text: 2 E 20 06 1329 

Box[6]: x=28, y=372, w=1043, h=83, confidence: 0, text: 
Box[7]: x=11, y=397, w=1147, h=67, confidence: 0, text: 
Box[8]: x=251, y=461, w=837, h=46, confidence: 0, text: 
Box[9]: x=157, y=475, w=1019, h=105, confidence: 0, text: 
Box[10]: x=59, y=648, w=1045, h=32, confidence: 81, text: IDFRADOUEL<<<<<<<<<<<<<<<<<<<<932013 

Box[11]: x=57, y=722, w=1047, h=34, confidence: 76, text: 0506932020438CHRISTIANE<<NI2906209F3 

Dưới đây là mã được sử dụng.

Pix *image = pixRead("/usr/src/tesseract-3.02/phototest.tif"); 
    tesseract::TessBaseAPI *api = new tesseract::TessBaseAPI(); 
    api->Init(NULL, "eng"); 
    api->SetImage(image); 
    Boxa* boxes = api->GetComponentImages(tesseract::RIL_TEXTLINE, true, NULL, NULL); 
    printf("Found %d textline image components.\n", boxes->n); 
    for (int i = 0; i < boxes->n; i++) { 
    BOX* box = boxaGetBox(boxes, i, L_CLONE); 
    api->SetRectangle(box->x, box->y, box->w, box->h); 
    char* ocrResult = api->GetUTF8Text(); 
    int conf = api->MeanTextConf(); 
    fprintf(stdout, "Box[%d]: x=%d, y=%d, w=%d, h=%d, confidence: %d, text: %s", 
        i, box->x, box->y, box->w, box->h, conf, ocrResult); 
    } 

Bây giờ tôi cần phải đọc tất cả các từ từ nhận dạng card.But tôi thiết lập giá trị Tesseract :: RIL_TEXTLINE như Tesseract :: RIL_WORD và chạy mã. Tôi có giá trị tin cậy cao ngay cả những từ không có trong hình ảnh.

image link

1.Is điểm tự tin sử dụng để đọc thông tin từ Chứng minh nhân dân.?

1. Điểm số tin cậy thực sự được trả về từ OCR tesseract là gì?

+0

Điểm tin cậy là cho bạn biết kết quả của bạn tốt như thế nào, nhưng chúng tôi vẫn không chắc liệu kết quả có đúng 100% hay không – dervish

Trả lời

-1

Thử thêm ngôn ngữ tiếng Pháp vào cuộc gọi Init.

Các vấn đề liên quan