20
Làm cách nào để chuyển đổi tệp PDF sang HTML bằng Python?Chuyển đổi PDF sang HTML bằng Python
Tôi đã suy nghĩ điều gì đó một mình về những gì Google làm (hoặc dường như làm) để lập chỉ mục các tệp PDF.
Mục tiêu cuối cùng của tôi là thiết lập Apache để hiển thị HTML cho tệp PDF, vì vậy mọi thứ dẫn tôi theo hướng đó cũng sẽ được đánh giá cao.
Ràng buộc python chủ yếu là để hiển thị PDF trong tiện ích GTK/ui, vì vậy tôi không chắc chắn nó sẽ trợ giúp ở đây. –
Tôi đã không thực sự sử dụng nó, nhưng nó phơi bày poppler_page_get_text, mà có thể hữu ích cho OP. –
Phải, nhưng có vẻ như một sự lãng phí lớn của các ràng buộc GTK/Glib nếu đó là tất cả các O.P. muốn, đặc biệt là có những cách dễ dàng hơn không phụ thuộc vào bộ công cụ giao diện người dùng (ví dụ pdf2html bạn đề cập). Tôi nên nói rằng tôi thường thích các ràng buộc, và là tác giả ban đầu. Có lẽ không phải trong trường hợp này mặc dù. –