Tôi nghĩ chất lượng của hình ảnh của bạn có thể ảnh hưởng. Binarizing hình ảnh của bạn đã không giúp đỡ: công nhận là zilch. Tôi cũng đã thử một hình ảnh đen trắng rất rõ ràng về giải pháp câu đố ô chữ. (xem bên dưới) Một lần nữa, không có gì được nhận ra dù ở định dạng thông thường hay được binarized.
Vì vậy, tôi loại bỏ các nền đen chỉ để lại các chữ cái và khung màu đen mỏng của họ. Một lần nữa, sự công nhận là khoảng 0%.
Khi tôi xóa khung hình xung quanh một số chữ cái VÀ binarized hình ảnh, những phần duy nhất có thể nhận ra được là những khu vực không có gì khác ngoài chữ cái. (Xem bên dưới) Thông báo
trong đầu ra dưới đây, ANTS, lốp xe, và TEXAS được xác định một cách chính xác (cũng như vec tơ), nhưng chỉ là về không có gì khác.
Cũng lưu ý rằng, mặc dù các chuỗi được đặt cách nhau rộng rãi, mma diễn giải chúng dưới dạng từ, chứ không phải là các chữ cái riêng biệt. Lưu ý "TEXAS" thay vì "T E X A S".
TextRecognize[[email protected]]
(* output *)
ANTS FFWWW FEEWF
E R o If IU I?
E A FI5F WWWFF 5
5552? L E F F
T s E NTT BT|
[email protected];EE F
5 W E ; OCS
FOFT W W R AL%AE
A TT I T ? _
i [email protected]'NF WG%S W
A A EW F I i
SWWTW W ALTFCWD N
H A V 5 A F F
PLATT EWWLIGHT
W N E T
HE TIRES C
TEXAS VECTORS
Tôi không có đủ kiên nhẫn để làm sạch hoàn toàn hình ảnh. Nó sẽ nhanh hơn nhiều để gõ lại văn bản bằng tay.
Kết luận: Không sử dụng tính năng nhận dạng văn bản trong mma trừ khi bạn có văn bản hoàn toàn rõ ràng dựa trên nền màu trắng, sáng, màu trắng thích hợp hơn.
Kết quả cũng khác nhau tùy thuộc vào định dạng tệp được sử dụng. Tránh .pdf hoàn toàn.
Sửa
acl bắt và cố gắng để nhận ra 5 dòng cuối cùng (trên Edit). Kết quả của ông (trong một bình luận dưới đây): chủ yếu là vô nghĩa.
Tôi đã quyết định làm như vậy. Nhưng kể từ khi Prashant cảnh báo rằng kích thước văn bản tạo ra sự khác biệt, tôi đã phóng to trước để văn bản xuất hiện (với mắt tôi) khoảng 20 pica. Dưới đây là hình ảnh của văn bản tôi đã quét và TextRecognize
d.
Dưới đây là kết quả của một unbinarized TextRecognize
(ít mà kích thước lớn):
Gliii. Q lk-ii`t`*¥ if EY £\[CloseCurlyDoubleQuote]1\[Euro]'EE \
Di'¥C~E\"P ITF SKI' T»f}!E'!',IL:?E\[CloseCurlyDoubleQuote] I 2 VEEE5\
\[CloseCurlyQuote] LEP \"- \"VE
1. ur e=\\..r.1.»».»\\\\ rw r 1»»\\|a'*r | r .fm -»'-an \
\[OpenCurlyQuote] -.-rr -_.»~|-.'i~-.w~,.-- nv n.w~»-\
\[OpenCurlyDoubleQuote]~"
Bây giờ, đây là kết quả cho TextRecognize
của hình ảnh binarized. Hình ảnh gốc là một .png từ Jing.
I didn't have the patience to completely clean up the image. It would \
have been much faster to retype the
text by hand.
Conclusion: Don't use text recognition in mma unless you have \
absolutely clear text against an even-
colored, bright, preferrably white, background.
The results also varied depending on the file format used. Avoid .pdf \
altogether.
Bạn có thể đặt câu hỏi * rõ ràng hơn trong mô tả của mình không? (BTW Tôi đã thử nó một lần, và tôi đồng ý, nó không phải là rất tốt. Tôi không bận tâm nhiều để làm cho nó hoạt động. Có lẽ nó thú vị để lưu ý nó sử dụng [Teserract] (http://code.google.com/p/ tesseract-ocr /)) – Szabolcs
Tôi nghĩ Calle muốn kiểm tra xem chức năng nhận dạng văn bản có hạn chế như anh nghi ngờ không. Nếu không, anh ta đã làm gì sai? Nếu vậy, nội dung cần được quét với tỷ lệ truy cập cao là gì? – DavidC
bạn có thể muốn bắt đầu với hình ảnh có độ phân giải cao, 'TextRecognize' không nhận ra văn bản dưới ngưỡng nhất định –