Tôi đang cố gắng sử dụng pyPdf để trích xuất và in các trang từ một tệp PDF nhiều trang. Vấn đề là, văn bản không được trích xuất từ một số trang. Tôi đã đặt một tập tin ví dụ ở đây:pyPdf không thể trích xuất văn bản từ một số trang trong PDF
http://www.4shared.com/document/kmJF67E4/forms.html
Nếu bạn chạy sau, 81 trang đầu quay trở lại không có văn bản, trong khi trận chung kết 11 chiết xuất đúng cách. Có ai giúp được không?
from pyPdf import PdfFileReader
input = PdfFileReader(file("forms.pdf", "rb"))
for page in input1.pages:
print page.extractText()
Nhờ sự giúp đỡ của bạn. Tôi đã thử pdftotext và chuyển nó qua vì nó chỉ giải quyết một phần vấn đề. Tôi cần phải chia pdf thành các tệp riêng biệt trên cơ sở UID được tìm thấy trên mỗi trang. Tuy nhiên, 10 trang cuối cùng mà pyPdf có thể trích xuất, không có nhãn trang văn bản, vì vậy hãy sử dụng pdftotext, trong khi nó cung cấp cho tôi tất cả văn bản, không cung cấp cho tôi cách tạo danh sách trang cho UID đã cho . – DrJAKing
Điều này không làm việc xấu khi xuất văn bản PDF, nhưng không bảo toàn định dạng bảng. – s2t2