2008-11-09 50 views
20

Làm cách nào để chuyển đổi tệp PDF sang HTML bằng Python?Chuyển đổi PDF sang HTML bằng Python

Tôi đã suy nghĩ điều gì đó một mình về những gì Google làm (hoặc dường như làm) để lập chỉ mục các tệp PDF.

Mục tiêu cuối cùng của tôi là thiết lập Apache để hiển thị HTML cho tệp PDF, vì vậy mọi thứ dẫn tôi theo hướng đó cũng sẽ được đánh giá cao.

Trả lời

5

Gói poppler cung cấp tiện ích pdf2html mà bạn có thể sử dụng. Ngoài ra còn có một Python binding để libpoppler.

+0

Ràng buộc python chủ yếu là để hiển thị PDF trong tiện ích GTK/ui, vì vậy tôi không chắc chắn nó sẽ trợ giúp ở đây. –

+0

Tôi đã không thực sự sử dụng nó, nhưng nó phơi bày poppler_page_get_text, mà có thể hữu ích cho OP. –

+0

Phải, nhưng có vẻ như một sự lãng phí lớn của các ràng buộc GTK/Glib nếu đó là tất cả các O.P. muốn, đặc biệt là có những cách dễ dàng hơn không phụ thuộc vào bộ công cụ giao diện người dùng (ví dụ pdf2html bạn đề cập). Tôi nên nói rằng tôi thường thích các ràng buộc, và là tác giả ban đầu. Có lẽ không phải trong trường hợp này mặc dù. –

Các vấn đề liên quan