Tôi muốn có hàm python nhận pdf và trả về một danh sách văn bản của chú thích ghi chú trong tài liệu. Tôi đã nhìn vào python-poppler (https://code.launchpad.net/~poppler-python/poppler-python/trunk) nhưng tôi không thể tìm ra cách để có được nó để cho tôi bất cứ điều gì hữu ích.Chú thích phân tích cú pháp từ một pdf
Tôi đã tìm thấy phương pháp get_annot_mapping
và sửa đổi chương trình demo được cung cấp để gọi nó qua self.current_page.get_annot_mapping()
, nhưng tôi không biết phải làm gì với đối tượng AnnotMapping. Dường như không được triển khai đầy đủ, chỉ cung cấp phương thức sao chép.
Nếu có bất kỳ thư viện nào khác cung cấp chức năng này thì cũng tốt.
Mặc dù điều đó có thể hữu ích nếu tôi muốn trích xuất tất cả văn bản từ pdf, tôi chỉ muốn trích xuất chú thích. Lý do tôi đề cập đến poppler là vì nó cung cấp khả năng này khá dễ dàng (http://cgit.freedesktop.org/poppler/poppler/tree/glib/poppler-annot.h). Nhưng, tôi muốn sử dụng python. Tôi đã tìm thấy dự án liên kết python-poppler, nhưng nó dường như không cung cấp quyền truy cập đầy đủ vào các chú thích. Câu hỏi của tôi loại nhọt xuống "Tôi làm sai hay thư viện chưa đầy đủ?" và "Có người nào khác cung cấp chức năng giống nhau không?" – davidb