Có thể chuyển đổi tệp MS Word thành XML bằng Apache POI không?Có thể phân tích MS Word bằng Apache POI và chuyển đổi nó thành XML không?
Nếu có, bạn có thể chỉ cho tôi bất kỳ hướng dẫn nào để làm điều đó không?
Có thể chuyển đổi tệp MS Word thành XML bằng Apache POI không?Có thể phân tích MS Word bằng Apache POI và chuyển đổi nó thành XML không?
Nếu có, bạn có thể chỉ cho tôi bất kỳ hướng dẫn nào để làm điều đó không?
Tôi muốn nói rằng bạn có hai lựa chọn, cả hai đều cung cấp bởi Apache POI
Một là sử dụng Apache Tika. Tika là một bộ công cụ trích xuất văn bản và siêu dữ liệu, và có thể trích xuất văn bản khá phong phú từ các tài liệu Word bằng cách thực hiện các cuộc gọi thích hợp tới POI. Kết quả là Tika sẽ cung cấp cho bạn XML kiểu XHTML cho nội dung của tài liệu word của bạn.
Tùy chọn khác là sử dụng một lớp được thêm gần đây vào POI, là WordToHtmlConverter. Điều này sẽ biến tài liệu word của bạn thành HTML cho bạn, và nói chung sẽ bảo toàn một chút cấu trúc và định dạng hơn so với Tika.
Tùy thuộc vào loại XML bạn đang hy vọng thoát ra, một trong số đó phải là một lựa chọn tốt cho bạn. Tôi khuyên bạn nên thử cả hai đối với một số tệp mẫu của bạn và xem tệp nào phù hợp nhất với miền và nhu cầu của bạn.
Mục đích của tiểu dự án HWPF chính xác là: xử lý tệp Word.
http://poi.apache.org/hwpf/index.html
Sau đó, để chuyển đổi dữ liệu XML để bạn phải xây dựng XML bằng cách ususal: Stax, JDOM, XStream ...
Apache cung cấp một Hướng dẫn nhanh:
http://poi.apache.org/hwpf/quick-guide.html
và tôi cũng đã phát hiện ra rằng:
http://sanjaal.com/java/tag/simple-java-tutorial-to-read-microsoft-document-in-java/
Nếu bạn muốn xử lý các file docx, bạn có thể muốn xem xét các tiểu dự án OpenXML4J:
WordToHtmlConverter, mà Jar tập tin lớp này là in Tôi nghĩ rằng nó vẫn còn trong giai đoạn đầu của phát triển và không được phát hành như là một tập tin Jar? – user2434
Nó nằm trong tệp jar Scratchpad. Bạn sẽ muốn nhận phiên bản beta mới nhất, 3.8 Beta 4 và sử dụng jar POI jar + scratchpad chính từ đó. – Gagravarr