Tôi đang đọc thông tin từ thông tin Thẻ Nhận dạng bằng Thư viện Tesseract. Tôi có điểm số Tự tin của mỗi từ hoặc mỗi dòng.Làm thế nào để đọc từ từ thẻ nhận dạng bằng cách sử dụng Tesseract OCR.?
Box[0]: x=13, y=12, w=1134, h=57, confidence: 40, text: REPUYBLIQUE FRANCAISE
Box[1]: x=21, y=75, w=1119, h=50, confidence: 42, text: 7 NN99 3W F 59W
Box[2]: x=17, y=137, w=539, h=52, confidence: 30, text: V7 7 D5 NOM1BOHEL
Box[3]: x=6, y=189, w=954, h=46, confidence: 0, text:
Box[4]: x=12, y=239, w=1016, h=34, confidence: 40, text: 5 Q HV2 H CHRISTIANL NICBLE HBNIOIJE
Box[5]: x=21, y=310, w=975, h=53, confidence: 67, text: 2 E 20 06 1329
Box[6]: x=28, y=372, w=1043, h=83, confidence: 0, text:
Box[7]: x=11, y=397, w=1147, h=67, confidence: 0, text:
Box[8]: x=251, y=461, w=837, h=46, confidence: 0, text:
Box[9]: x=157, y=475, w=1019, h=105, confidence: 0, text:
Box[10]: x=59, y=648, w=1045, h=32, confidence: 81, text: IDFRADOUEL<<<<<<<<<<<<<<<<<<<<932013
Box[11]: x=57, y=722, w=1047, h=34, confidence: 76, text: 0506932020438CHRISTIANE<<NI2906209F3
Dưới đây là mã được sử dụng.
Pix *image = pixRead("/usr/src/tesseract-3.02/phototest.tif");
tesseract::TessBaseAPI *api = new tesseract::TessBaseAPI();
api->Init(NULL, "eng");
api->SetImage(image);
Boxa* boxes = api->GetComponentImages(tesseract::RIL_TEXTLINE, true, NULL, NULL);
printf("Found %d textline image components.\n", boxes->n);
for (int i = 0; i < boxes->n; i++) {
BOX* box = boxaGetBox(boxes, i, L_CLONE);
api->SetRectangle(box->x, box->y, box->w, box->h);
char* ocrResult = api->GetUTF8Text();
int conf = api->MeanTextConf();
fprintf(stdout, "Box[%d]: x=%d, y=%d, w=%d, h=%d, confidence: %d, text: %s",
i, box->x, box->y, box->w, box->h, conf, ocrResult);
}
Bây giờ tôi cần phải đọc tất cả các từ từ nhận dạng card.But tôi thiết lập giá trị Tesseract :: RIL_TEXTLINE như Tesseract :: RIL_WORD và chạy mã. Tôi có giá trị tin cậy cao ngay cả những từ không có trong hình ảnh.
1.Is điểm tự tin sử dụng để đọc thông tin từ Chứng minh nhân dân.?
1. Điểm số tin cậy thực sự được trả về từ OCR tesseract là gì?
Điểm tin cậy là cho bạn biết kết quả của bạn tốt như thế nào, nhưng chúng tôi vẫn không chắc liệu kết quả có đúng 100% hay không – dervish