Lớp PDF và văn bản

Theo trang web này http://www.searchable-pdf.com/content.php?lang=en&c=61, bạn có thể tìm kiếm PDF khi thêm lớp văn bản.Lớp PDF và văn bản

Tôi đang tìm kiếm đặc điểm kỹ thuật của PDF. Tôi nghĩ văn bản có thể được lưu trữ theo 2 cách dưới dạng PDF: a) dưới dạng lớp văn bản phía trên lớp hình ảnh (như được mô tả trong trang web ở trên) b) khi bạn tạo tệp PDF từ tài liệu Word (có văn bản), I đừng nghĩ rằng Word sẽ lưu trữ tất cả văn bản trong lớp văn bản. Tôi nghĩ rằng nó sẽ lưu trữ nó trong lớp hình ảnh? Đúng?

Kể từ PDF 1.4, XMP đã được thêm (http://en.wikipedia.org/wiki/Extensible_Metadata_Platform). Nhưng XMP là gì? Đây có phải là "lớp văn bản" mà tôi đã thảo luận ở trên không?

Nếu máy quét đang thực hiện OCR trên hình ảnh, liệu nó có lưu trữ văn bản trong "lớp văn bản" không? Hoặc trường "XMP"? Điều này chỉ có thể xảy ra khi PDF có phiên bản 1.4?

Và làm cách nào tôi có thể phát hiện xem tệp PDF đã có dữ liệu văn bản chưa? Ví dụ: PDF A đã được quét bằng OCR và PDF B thì không. Làm thế nào tôi có thể biết rằng PDF B nên được gửi đến một công cụ OCR riêng biệt?

Nguồn

2012-07-10 Jochen Hebbrecht

Thông thường, sau OCR, văn bản được thêm vào chế độ hiển thị văn bản 'ẩn' thành nội dung * bình thường * của PDF (không phải lớp * thêm *, được ẩn - đó cũng là khả năng kỹ thuật trong PDF ; tìm kiếm * Nội dung tùy chọn * trong đặc tả PDF).---- Tuy nhiên, trong các tệp PDF thế giới thực (cả hai, 'được quét' cũng như các tệp PDF 'bình thường'), bạn sẽ thường thấy rằng bạn có thể chọn văn bản và sao chép nó - nhưng sau khi dán, bạn sẽ chỉ có gobbledigook. Hoặc nếu bạn sử dụng 'pdftotext' trên một tệp như vậy ... Nếu vậy, thì đó là vấn đề với * mã hóa * của phông chữ được sử dụng .... –

Đặc tả PDF không đề cập đến 'lớp văn bản'. Thông thường, chỉ có một cách để 'lưu trữ' văn bản: bằng cách hiển thị văn bản cho các toán tử. Các toán tử này vẽ văn bản tại một vị trí cụ thể, sử dụng một màu, phông chữ, kích thước phông chữ và chế độ hiển thị văn bản cụ thể. Có một số chế độ hiển thị văn bản. Với mục đích trả lời câu hỏi của bạn, văn bản có thể hiển thị hoặc ẩn.

Máy quét thực hiện OCR, hiển thị cả hình ảnh và văn bản raster vào tài liệu PDF. Văn bản được hiển thị bằng chế độ hiển thị văn bản ẩn. Kết quả là bạn có thể chọn văn bản bằng chuột (khu vực được đánh dấu sẽ được hiển thị ở vị trí mong muốn trên đầu hình ảnh) và bạn có thể tìm kiếm văn bản. Một lần nữa kết quả tìm kiếm sẽ được hiển thị ở vị trí chính xác.

Điều gì xảy ra khi bạn tạo PDF từ tài liệu Word phụ thuộc vào phần mềm bạn sử dụng để chuyển đổi. Theo hiểu biết của tôi, những người chuyển đổi này không tạo ra hình ảnh nhưng họ sẽ tạo ra văn bản có thể nhìn thấy.

XMP là dữ liệu meta thay vì dữ liệu hình ảnh.

Cuối cùng, đối với câu hỏi của bạn về việc phát hiện PDF có dữ liệu văn bản hay không, đây là similar question.

Nguồn

2012-07-10 14:44:37

Cảm ơn Frank. Xóa câu trả lời! –

Một số câu hỏi khác tôi có: * mỗi phiên bản (http://en.wikipedia.org/wiki/Portable_Document_Format#Adobe.27s_versions) của PDF có chứa văn bản không? Có một đặc tả trong định dạng cho bạn biết cách lưu trữ văn bản không?
* nếu bạn có một PDF đã được OCR'd, nhưng bạn "lại OCR" nó một lần nữa bằng cách sử dụng một công cụ OCR, điều gì sẽ xảy ra với văn bản OCR trước đó? –

@JochenHebbrecht: Nhìn vào câu trả lời của tôi. Nó cũng cung cấp một liên kết đến spec. ** Tất nhiên ** có các quy tắc chính xác trong thông số kỹ thuật về cách lưu trữ văn bản (nhưng bạn sẽ không tìm thấy chúng trong Wikipedia). –

Tôi upvoted câu trả lời của Frank Rem, bởi vì nó là 'hoàn thành'.

Hãy để tôi thêm một vài chi tiết tuy nhiên:

Các 'tàng hình' của văn bản xuất phát từ Tr, các hành chế độ render văn bản 3 trong PDF: "Không điền cũng không văn bản đột quỵ"(PDF-1.7 spec, Chapter 9.3.6).

Hãy xem câu hỏi về Siêu người dùng này: "PDF has an extra blank in all words after running through Ghostscript" và câu trả lời của tôi ở đó để tìm hiểu thêm một vài điều về chi tiết kỹ thuật (đặc biệt xem chi tiết kỹ thuật "Làm cách nào để chúng tôi có thể hiển thị văn bản ẩn?").

Nguồn

2012-07-10 17:45:09

cảm ơn, liên kết trong 2) làm cho nó rất rõ ràng đối với tôi! Bạn là một người chuyên nghiệp! :-) –

Lớp PDF và văn bản

Trả lời

Các vấn đề liên quan