Có thể phân tích MS Word bằng Apache POI và chuyển đổi nó thành XML không?

Có thể chuyển đổi tệp MS Word thành XML bằng Apache POI không?Có thể phân tích MS Word bằng Apache POI và chuyển đổi nó thành XML không?

Nếu có, bạn có thể chỉ cho tôi bất kỳ hướng dẫn nào để làm điều đó không?

Nguồn

2011-11-22 user2434

Tôi muốn nói rằng bạn có hai lựa chọn, cả hai đều cung cấp bởi Apache POI

Một là sử dụng Apache Tika. Tika là một bộ công cụ trích xuất văn bản và siêu dữ liệu, và có thể trích xuất văn bản khá phong phú từ các tài liệu Word bằng cách thực hiện các cuộc gọi thích hợp tới POI. Kết quả là Tika sẽ cung cấp cho bạn XML kiểu XHTML cho nội dung của tài liệu word của bạn.

Tùy chọn khác là sử dụng một lớp được thêm gần đây vào POI, là WordToHtmlConverter. Điều này sẽ biến tài liệu word của bạn thành HTML cho bạn, và nói chung sẽ bảo toàn một chút cấu trúc và định dạng hơn so với Tika.

Tùy thuộc vào loại XML bạn đang hy vọng thoát ra, một trong số đó phải là một lựa chọn tốt cho bạn. Tôi khuyên bạn nên thử cả hai đối với một số tệp mẫu của bạn và xem tệp nào phù hợp nhất với miền và nhu cầu của bạn.

Nguồn

2011-11-22 16:48:22 Gagravarr

WordToHtmlConverter, mà Jar tập tin lớp này là in Tôi nghĩ rằng nó vẫn còn trong giai đoạn đầu của phát triển và không được phát hành như là một tập tin Jar? – user2434

Nó nằm trong tệp jar Scratchpad. Bạn sẽ muốn nhận phiên bản beta mới nhất, 3.8 Beta 4 và sử dụng jar POI jar + scratchpad chính từ đó. – Gagravarr