2010-07-28 51 views
5

Tôi đã sử dụng pdfbox để trích xuất thông tin văn bản từ các tệp PDF. Tôi đã phân tích cú pháp thành công tất cả các thuộc tính của văn bản như phông chữ, phông chữ, kích thước, vị trí, v.v.Java - PDFBox - Trích xuất văn bản

VẤN ĐỀ: Tôi đang sử dụng pdfbox1.2.1 (phiên bản mới nhất). Hàm getCharacter() trong lớp TextPosition trả về chuỗi đầy đủ ngoại trừ ký tự cuối cùng. Ký tự cuối cùng được phân tách thành một chuỗi riêng biệt.

Ví dụ: "Cách bạn" được phân tích cú pháp là "Làm thế nào là yo" và "u" (2 chuỗi riêng biệt).

Tôi không muốn nó xảy ra như vậy ..

Có ai đi qua chuyện này không? .. Tôi có làm điều gì sai ?? .. Đang chờ trả lời ..

Cảm ơn và Kính trọng, Magggi

+0

Tôi không nghĩ rằng bạn đang sử dụng sai. Có một tệp PDF tôi làm việc với trả về ** mọi ký tự ** dưới dạng một 'Chuỗi' riêng biệt. Thật không may, tôi không thực sự có nhiều giải pháp cho bạn. Tôi cũng tò mò muốn biết câu trả lời. –

+0

Tôi có thể trích xuất các dòng văn bản từ PDF.But trong mỗi dòng, phần tách như đã đề cập ở trên xảy ra. – Magggi

Trả lời

3

Vấn đề này được giải quyết.

Các mã sau vào processEncodedText(byte[] string) trong PDFStreamEngine.java

if(spacingText == 0 && (i + codeLength) < (string.length - 1)) 
{ 
    continue; 
} 

nên được thay đổi để

if(spacingText == 0 && (i + codeLength) < (string.length)) 
{ 
    continue; 
} 

Kính trọng, Maggi

Các vấn đề liên quan