2010-02-15 43 views

Trả lời

3

Với một số googling tôi tìm thấy OpenXML4J. Điều này có thể giải quyết vấn đề của bạn. Tôi đã không sử dụng điều này trước khi tôi chắc chắn một người nào đó trong cộng đồng sẽ có cái nhìn sâu sắc hơn.

Lưu ý: Đây là câu hỏi trùng lặp. Điều này có giải pháp cộng với một chút thảo luận. Link to the question.

+1

Có hợp lý để giữ cho cả hai câu hỏi, vì người ta hỏi về định dạng tài liệu Word và Excel khác? Chúng có thể là hai tập hợp con của một định dạng tài liệu lớn hơn, tôi thực sự không biết. –

+0

Tôi tin rằng nó là một bản sao vì mỗi câu hỏi được hỏi về văn phòng 2007 java api. Câu hỏi khác, IMHO, không trả lời thư. :) – XanderLynn

5

Nếu bạn không yêu cầu thông tin định dạng, hình ảnh và tất cả các nội dung ưa thích khác, thì công việc sẽ dễ dàng hơn rất nhiều. Chỉ cần khoảng 5 đến 10 dòng mã sẽ làm.

  1. coi DOCX là tệp zip. Nó bao gồm một loạt các tệp bao gồm 'document.xml'. Sử dụng ZipInputStream và giải nén tập tin đó một mình. (bạn có thể sử dụng tiện ích zip yêu thích của bạn và mở docx và xem cho chính mình!)
  2. Sử dụng trình phân tích cú pháp SAX và đọc nội dung giữa thân nút/p/r/t - thì bạn đã nhận được văn bản!

Điều này chỉ áp dụng nếu bạn cần văn bản chỉ.

+0

Xin chào Joseph, bạn có thể viết xuống đoạn mã ngắn ở đây không? Nó sẽ giúp tôi rất nhiều ... –

2

Hãy thử apache poi - nó có thể xử lý doc, docx, xls, xlsx, ppt, pptx.

Một giải pháp cấp sản xuất khác là OpenOffice ở chế độ không đầu mà thậm chí có thể được sử dụng trong kịch bản phía máy chủ.

Các vấn đề liên quan