Tôi đang sử dụng Apache PDFBox để đọc tài liệu PDF có cấu trúc phân cấp được xác định bởi dấu trang. Hệ thống phân cấp ở dạng cây với nội dung chỉ ở cấp độ lá.Trích xuất văn bản giữa hai dấu trang bằng cách sử dụng Apache PdfBox
Trích xuất văn bản giữa hai bookmark mức lá sử dụng đoạn mã sau:
Stripper.setStartBookmark(),
Stripper.setEndBookmark(),
Stripper.writeText()),
Returns văn bản trong toàn bộ trang để thay thế. Trong ngắn hạn, vấn đề của tôi là tương tự như được đề cập trong this thread.
Có cách nào để trích xuất nội dung giữa hai dấu trang không?
Nếu có, thay đổi trong mã của tôi là gì?
@Shiram -Tôi có cùng một câu hỏi. xin vui lòng gửi câu trả lời nếu bạn đã tìm ra nó – Kasun
Bạn đã tìm thấy một giải pháp? Nếu bạn không có ví dụ về dấu trang (ví dụ, ở định dạng XML). – maffo