Khi tôi cố gắng trích xuất văn bản từ các tệp PDF của mình, dường như chèn khoảng trắng giữa các từ ngẫu nhiên.PDFBox thêm khoảng trắng trong các từ
Tôi đang sử dụng pdfbox-app-1.6.0.jar (phiên bản mới nhất) trên sau tập tin mẫu trong Downloads phần của trang này: http://www.sheffield.gov.uk/roads/children/parents/6-11/pedestrian-training
Tôi đã thử với nhiều tập tin PDF khác và nó có vẻ làm tương tự trên nhiều trang.
tôi làm như sau:
java -jar pdfbox-app-1.6.0.jar ExtractText -force -console ~/Desktop/PED đào tạo pdf.pdf
vào file tải về và bạn sẽ thấy khoảng trống trong sau đây chèn sai trong kết quả trên giao diện điều khiển: "• Nếu ildren ch có thể đi bộ đến schoo l một cách an toàn này có thể làm giảm tình trạng tắc nghẽn "
"• Phát triển hab tốt của nó đối với cuộc sống sau này."
"www.sheff ield.gov.uk"
"Think Ahead !, ich wh được dựa trên"
vv vv
Như bạn có thể thấy một vài chữ trên đã khoảng cách giữa chúng không có lý do gì tôi có thể hiểu được.
Tôi đang dùng ubuntu và chạy JDK 1.6 của Sun.
Tôi đã thử điều này trên một số tệp PDF khác nhau và cố gắng tìm kiếm giải pháp trên diễn đàn, có lỗi tương tự nhưng tất cả dường như đã được giải quyết.
Bất kỳ trợ giúp nào hoặc nếu bất kỳ ai khác có cùng sự cố, vui lòng nhận xét. Điều này gây ra vấn đề lớn trong việc lập chỉ mục nội dung phù hợp để tìm kiếm.
Cảm ơn Jukka, đôi khi thật nhẹ nhõm khi chỉ hiểu tại sao thứ gì đó không hoạt động như mong đợi và tôi cũng không làm bất cứ điều gì gây ra sự cố. –
Đây là một ví dụ về cách xây dựng một từ điển thuật ngữ như vậy nếu bạn đang sử dụng Lucene. [Làm thế nào để trích xuất một Vector thuật ngữ trong Lucene] (http://stackoverflow.com/a/8901758/165085) –