Theo trang web này http://www.searchable-pdf.com/content.php?lang=en&c=61, bạn có thể tìm kiếm PDF khi thêm lớp văn bản.Lớp PDF và văn bản
Tôi đang tìm kiếm đặc điểm kỹ thuật của PDF. Tôi nghĩ văn bản có thể được lưu trữ theo 2 cách dưới dạng PDF: a) dưới dạng lớp văn bản phía trên lớp hình ảnh (như được mô tả trong trang web ở trên) b) khi bạn tạo tệp PDF từ tài liệu Word (có văn bản), I đừng nghĩ rằng Word sẽ lưu trữ tất cả văn bản trong lớp văn bản. Tôi nghĩ rằng nó sẽ lưu trữ nó trong lớp hình ảnh? Đúng?
Kể từ PDF 1.4, XMP đã được thêm (http://en.wikipedia.org/wiki/Extensible_Metadata_Platform). Nhưng XMP là gì? Đây có phải là "lớp văn bản" mà tôi đã thảo luận ở trên không?
Nếu máy quét đang thực hiện OCR trên hình ảnh, liệu nó có lưu trữ văn bản trong "lớp văn bản" không? Hoặc trường "XMP"? Điều này chỉ có thể xảy ra khi PDF có phiên bản 1.4?
Và làm cách nào tôi có thể phát hiện xem tệp PDF đã có dữ liệu văn bản chưa? Ví dụ: PDF A đã được quét bằng OCR và PDF B thì không. Làm thế nào tôi có thể biết rằng PDF B nên được gửi đến một công cụ OCR riêng biệt?
Thông thường, sau OCR, văn bản được thêm vào chế độ hiển thị văn bản 'ẩn' thành nội dung * bình thường * của PDF (không phải lớp * thêm *, được ẩn - đó cũng là khả năng kỹ thuật trong PDF ; tìm kiếm * Nội dung tùy chọn * trong đặc tả PDF).---- Tuy nhiên, trong các tệp PDF thế giới thực (cả hai, 'được quét' cũng như các tệp PDF 'bình thường'), bạn sẽ thường thấy rằng bạn có thể chọn văn bản và sao chép nó - nhưng sau khi dán, bạn sẽ chỉ có gobbledigook. Hoặc nếu bạn sử dụng 'pdftotext' trên một tệp như vậy ... Nếu vậy, thì đó là vấn đề với * mã hóa * của phông chữ được sử dụng .... –