Tôi đang tìm một cái gì đó trong Java để đọc trong tài liệu Word để xử lý văn bản của họ .. tất cả những gì tôi cần là có văn bản, không có gì lạ mắt. Tôi biết về Apache POI, tuy nhiên nó không bao gồm hỗ trợ cho DOCX ngay bây giờ, bất cứ điều gì ra khỏi đó?Đọc tài liệu Microsoft Word thành văn bản thuần tuý (DOC, DOCX) trong Java
Trả lời
Với một số googling tôi tìm thấy OpenXML4J. Điều này có thể giải quyết vấn đề của bạn. Tôi đã không sử dụng điều này trước khi tôi chắc chắn một người nào đó trong cộng đồng sẽ có cái nhìn sâu sắc hơn.
Lưu ý: Đây là câu hỏi trùng lặp. Điều này có giải pháp cộng với một chút thảo luận. Link to the question.
Nếu bạn không yêu cầu thông tin định dạng, hình ảnh và tất cả các nội dung ưa thích khác, thì công việc sẽ dễ dàng hơn rất nhiều. Chỉ cần khoảng 5 đến 10 dòng mã sẽ làm.
- coi DOCX là tệp zip. Nó bao gồm một loạt các tệp bao gồm 'document.xml'. Sử dụng ZipInputStream và giải nén tập tin đó một mình. (bạn có thể sử dụng tiện ích zip yêu thích của bạn và mở docx và xem cho chính mình!)
- Sử dụng trình phân tích cú pháp SAX và đọc nội dung giữa thân nút/p/r/t - thì bạn đã nhận được văn bản!
Điều này chỉ áp dụng nếu bạn cần văn bản chỉ.
Xin chào Joseph, bạn có thể viết xuống đoạn mã ngắn ở đây không? Nó sẽ giúp tôi rất nhiều ... –
Bạn có thể thử docx4j; xem http://dev.plutext.org/svn/docx4j/trunk/docx4j/src/main/java/org/docx4j/TextUtils.java
Hãy thử apache poi - nó có thể xử lý doc, docx, xls, xlsx, ppt, pptx.
Một giải pháp cấp sản xuất khác là OpenOffice ở chế độ không đầu mà thậm chí có thể được sử dụng trong kịch bản phía máy chủ.
- 1. Chuyển đổi tài liệu Word doc hoặc docx thành tệp văn bản?
- 2. cách đọc các tệp .doc, .docx, .xls trong android
- 3. Nhận văn bản thuần tuý từ văn bản RTF
- 4. python chuyển đổi tài liệu văn phòng microsoft sang văn bản thuần túy trên linux
- 5. Cách đọc tệp Doc hoặc Docx trong java?
- 6. Hiển thị tài liệu Microsoft Word trên trang web
- 7. Trích xuất bảng từ tài liệu Word DOCX trong python
- 8. Java - Chuyển đổi tệp doc/docx sang tệp chm
- 9. Cách tải văn bản của tài liệu MS Word trong C# (.NET)?
- 10. Mở tài liệu Microsoft Word trong dịch vụ Windows có vẻ như treo
- 11. HTML được hiển thị thành văn bản thuần tuý sử dụng Python
- 12. iTextSharp - Chuyển từ doc/docx sang pdf
- 13. Nhận văn bản thuần tuý từ một nhãn hiệu có chứa văn bản có dạng là
- 14. Thư viện Android của Microsoft Office (.doc, .docx, .xls, .ppt, v.v.)
- 15. Thay thế văn bản trong tài liệu Word bằng cách sử dụng Open Xml
- 16. Sử dụng JavaScript để "Tạo" Tài liệu Microsoft Word
- 17. Lưu trữ Microsoft Word 97 tài liệu trong cột SQL Server
- 18. Làm thế nào để mở và thao tác tài liệu Word/mẫu trong Java?
- 19. Chuyển đổi HTML sang odt, doc, docx
- 20. Lập trình chuyển đổi tệp docx thành tài liệu
- 21. Trích xuất dữ liệu Hộp văn bản từ nhiều tệp Microsoft Word
- 22. Trích xuất thông tin từ Văn bản thuần tuý và Viết sang XML Sử dụng DOM
- 23. lĩnh vực Điền trong Word bằng C# và Microsoft Word Interop
- 24. Không thể tìm thấy Tài liệu Microsoft Word trong Cấu hình DCOM
- 25. Biến NSAttributedString thành văn bản thuần túy
- 26. Làm cách nào để chuyển đổi tài liệu từ Latex thành Microsoft Word 2003?
- 27. Tìm và thay thế văn bản trong tệp .docx - Python
- 28. tạo tài liệu docx động
- 29. Làm thế nào để hiển thị PDF hoặc Word của DOC/DOCX bên trong cửa sổ WinForms?
- 30. Chuyển đổi tài liệu Word sang PDF bằng cách sử dụng Java
Có hợp lý để giữ cho cả hai câu hỏi, vì người ta hỏi về định dạng tài liệu Word và Excel khác? Chúng có thể là hai tập hợp con của một định dạng tài liệu lớn hơn, tôi thực sự không biết. –
Tôi tin rằng nó là một bản sao vì mỗi câu hỏi được hỏi về văn phòng 2007 java api. Câu hỏi khác, IMHO, không trả lời thư. :) – XanderLynn