pyPdf là một thư viện tuyệt vời để chia nhỏ, hợp nhất các tệp PDF. Tôi đang sử dụng nó để chia tài liệu pdf thành 1 tài liệu trang. pyPdf là python tinh khiết và dành khá nhiều thời gian trong phương thức _sweepIndirectReferences() của đối tượng PdfFileWriter khi lưu trang được trích xuất. Tôi cần một cái gì đó với hiệu suất tốt hơn. Tôi đã thử sử dụng đa luồng nhưng vì phần lớn thời gian được sử dụng trong mã python, không có tăng tốc độ vì GIL (nó thực sự chạy chậm hơn).Thư viện chia tách PDF nhanh
Có thư viện nào được viết bằng c cung cấp chức năng giống nhau không? hoặc bất kỳ ai có ý tưởng hay về cách cải thiện hiệu suất (ngoài việc sinh ra một quy trình mới cho mỗi tệp pdf mà tôi muốn tách)
Cảm ơn bạn trước.
Theo dõi. Liên kết đến một vài giải pháp dòng lệnh, có thể chứng minh đôi khi nhanh hơn pyPDF:
- http://multivalent.sourceforge.net/Tools/pdf/Split.html
- http://www.linuxsolutions.fr/how-to-extract-pages-from-a-pdf/
tôi sửa đổi lớp pyPDF PdfWriter để theo dõi bao nhiêu thời gian đã được chi tiêu trên phương thức _sweepIndirectReferences(). Nếu nó đã quá dài (ngay bây giờ tôi sử dụng giá trị huyền diệu của 3 giây) sau đó tôi trở lại sử dụng ghostscript bằng cách thực hiện một cuộc gọi đến nó từ python.
Cảm ơn mọi câu trả lời của bạn. (tham chiếu xpdf của codelogic là thứ giúp tôi tìm cách tiếp cận khác)
Tôi cần phải tháo rời bản pdf. Nếu tôi hiểu đúng cách mbtPdfAsm lắp ráp các tệp pdf. – Nathan
Nó có thể được sử dụng để lắp ráp và tháo các tệp pdf. – codelogic