2009-09-29 14 views
13

Vào ngày 28 tháng 9 năm 2009, phiên bản phát hành Apache POI project 3.5 đã chính thức hỗ trợ các định dạng OOXML được giới thiệu trong Office 2007, như DOCX và XLSX.Làm thế nào để trích xuất văn bản thuần từ tệp DOCX bằng cách sử dụng hỗ trợ OOXML mới trong Apache POI 3.5?

Vui lòng cung cấp mẫu mã để trích xuất nội dung tệp DOCX ở dạng văn bản thuần túy, bỏ qua mọi kiểu hoặc định dạng.

Tôi yêu cầu điều này bởi vì tôi không thể tìm thấy bất kỳ ví dụ nào về Apache POI bao gồm hỗ trợ OOXML mới.

Trả lời

16

Điều này phù hợp với tôi. Hãy chắc chắn rằng bạn thêm lọ yêu cầu (nâng cấp XMLBeans vv)

public String extractText(InputStream in) throws Exception { 
    XWPFDocument doc = new XWPFDocument(in); 
    XWPFWordExtractor ex = new XWPFWordExtractor(doc); 
    String text = ex.getText(); 
    return text; 
} 
6

Đây là chung chung hơn

POITextExtractor poitex = ExtractorFactory.createExtractor (in);

trả lại poitex.getText();

+1

Tôi đồng ý. Cảm ơn bạn đã có câu trả lời hay bao gồm việc trích xuất văn bản chung hơn. Tôi ước tôi có thể chấp nhận cả hai. – rcampbell

Các vấn đề liên quan