2011-11-22 28 views

Trả lời

4

Tôi muốn nói rằng bạn có hai lựa chọn, cả hai đều cung cấp bởi Apache POI

Một là sử dụng Apache Tika. Tika là một bộ công cụ trích xuất văn bản và siêu dữ liệu, và có thể trích xuất văn bản khá phong phú từ các tài liệu Word bằng cách thực hiện các cuộc gọi thích hợp tới POI. Kết quả là Tika sẽ cung cấp cho bạn XML kiểu XHTML cho nội dung của tài liệu word của bạn.

Tùy chọn khác là sử dụng một lớp được thêm gần đây vào POI, là WordToHtmlConverter. Điều này sẽ biến tài liệu word của bạn thành HTML cho bạn, và nói chung sẽ bảo toàn một chút cấu trúc và định dạng hơn so với Tika.

Tùy thuộc vào loại XML bạn đang hy vọng thoát ra, một trong số đó phải là một lựa chọn tốt cho bạn. Tôi khuyên bạn nên thử cả hai đối với một số tệp mẫu của bạn và xem tệp nào phù hợp nhất với miền và nhu cầu của bạn.

+0

WordToHtmlConverter, mà Jar tập tin lớp này là in Tôi nghĩ rằng nó vẫn còn trong giai đoạn đầu của phát triển và không được phát hành như là một tập tin Jar? – user2434

+0

Nó nằm trong tệp jar Scratchpad. Bạn sẽ muốn nhận phiên bản beta mới nhất, 3.8 Beta 4 và sử dụng jar POI jar + scratchpad chính từ đó. – Gagravarr

5

Mục đích của tiểu dự án HWPF chính xác là: xử lý tệp Word.

http://poi.apache.org/hwpf/index.html

Sau đó, để chuyển đổi dữ liệu XML để bạn phải xây dựng XML bằng cách ususal: Stax, JDOM, XStream ...

Apache cung cấp một Hướng dẫn nhanh:

http://poi.apache.org/hwpf/quick-guide.html

và tôi cũng đã phát hiện ra rằng:

http://sanjaal.com/java/tag/simple-java-tutorial-to-read-microsoft-document-in-java/

Nếu bạn muốn xử lý các file docx, bạn có thể muốn xem xét các tiểu dự án OpenXML4J:

http://poi.apache.org/oxml4j/index.html

Các vấn đề liên quan