Vì vậy, tiểu bang tôi đang phát hành một loạt dữ liệu dưới dạng PDF, nhưng để làm cho vấn đề tồi tệ hơn, hầu hết (tất cả?) Của các tệp PDF xuất hiện là các chữ được nhập trong Office, in/fax, và sau đó được quét (chính phủ của chúng tôi vào thời điểm tốt nhất của nó?). Lúc đầu, tôi nghĩ rằng tôi đã điên, nhưng sau đó tôi bắt đầu nhìn thấy rất nhiều pdf được 'nghiêng', giống như ai đó đã không nhận được chúng trên máy quét đúng cách. Vì vậy, tôi đã tìm ra điều tốt nhất tiếp theo để nhận được văn bản thực tế của họ, sẽ biến từng trang thành một hình ảnh.Chuyển đổi PDF sang hình ảnh tự động
Rõ ràng điều này cần được tự động hóa và tôi muốn gắn bó với Python nếu có thể. Nếu Ruby hoặc Perl có một số hình thức thực hiện quá tuyệt vời để vượt qua, tôi có thể đi theo lộ trình đó. Tôi đã thử pyPDF để trích xuất văn bản, điều đó rõ ràng là không làm tôi tốt. Tôi đã thử swftools, nhưng những hình ảnh tôi nhận được từ đó chỉ là nhút nhát hoàn toàn không sử dụng được. Nó chỉ có vẻ như các phông chữ bị hủy hoại trong chuyển đổi. Tôi cũng không thực sự quan tâm đến định dạng hình ảnh trên đường ra, miễn là chúng tương đối nhẹ và có thể đọc được.
trước khi thực hiện điều đó, liên hệ với thực thể .gov tạo tệp. Bạn có thể truy cập dễ dàng vào các tệp kỹ thuật số thực tế đó. Đã từng làm việc trong .gov và gặp phải vấn đề tương tự, thường là do các yêu cầu pháp lý cổ (giấy chữ ký) và/hoặc thiếu hiểu biết kỹ thuật (thông thường, công cụ này sẽ bỏ qua nhóm CNTT/web nơi họ có thể bắt được nó).Bạn cũng có thể gọi chúng ra trên các vấn đề khả năng tiếp cận như một JPG khổng lồ của một trang là hoàn toàn không thể tiếp cận với công nghệ hỗ trợ. –
Ngoài ra, để công bằng với đất .gov, họ thường phải phục vụ cho một vực thẳm công nghệ cực kỳ rộng. Than ôi, chúng ta vẫn sống trong một thời điểm mà mẫu số chung thấp nhất là một dạng giấy. –
Đã bỏ phiếu để đóng: Xem http://stackoverflow.com/questions/331918/converting-a-pdf-to-a-series-of-images-with-python. – Brian