Bất kỳ đề xuất nào về phương thức chuyển đổi .doc, .ppt và .xls thành văn bản thuần túy trên linux bằng python? Thực sự bất kỳ phương pháp chuyển đổi nào đều hữu ích. Tôi đã xem xét sử dụng Open Office nhưng, tôi muốn một giải pháp mà không yêu cầu phải cài đặt Open Office.python chuyển đổi tài liệu văn phòng microsoft sang văn bản thuần túy trên linux
Trả lời
Tôi muốn dùng giải pháp dòng lệnh (và sau đó sử dụng Python subprocess module để chạy các công cụ từ Python).
Convertors cho msword (catdoc), excel (xls2csv) và ppt (catppt) có thể được tìm thấy (theo mẫu nguồn) ở đây: http://vitus.wagner.pp.ru/software/catdoc/.
Không thể thực sự nhận xét về tính hữu ích của catppt nhưng catdoc và xls2csv hoạt động rất tốt!
Nhưng hãy chắc chắn tìm kiếm kho lưu trữ phân phối đầu tiên của bạn ... Trên ubuntu, ví dụ catdoc chỉ là một cách nhanh chóng để thoát.
+1 không sử dụng định dạng văn phòng mở, giống như OP muốn. – Droogans
Công cụ thông thường để chuyển đổi tài liệu Microsoft Office sang HTML hoặc các định dạng khác là mswordview, từ đó đã được đổi tên thành vwWare.
Nếu bạn đang tìm kiếm một công cụ dòng lệnh, họ thực sự khuyên bạn sử dụng AbiWord để thực hiện việc chuyển đổi:
AbiWord --to=txt
Nếu bạn đang tìm kiếm một thư viện, bắt đầu vào wvWare overview page. Họ cũng duy trì a list of libraries and tools which read MS Office documents.
Để xử lý bảng tính Excel xlwt là tốt. Nhưng nó sẽ không giúp được với các tệp .doc
và .ppt
.
(Bạn có thể tôi cũng đã nghe nói về PyExcelerator. Xlwt là một ngã ba này và duy trì tốt hơn vì vậy tôi nghĩ rằng bạn muốn được tốt hơn với xlwt.)
Bạn có thể truy cập vào OpenOffice via Python API.
Hãy thử sử dụng điều này như một cơ sở: http://wiki.services.openoffice.org/wiki/Odt2txt.py
Tôi đã có một số thành công trong việc sử dụng XSLT để xử lý các tệp văn phòng dựa trên XML vào một cái gì đó có thể sử dụng trong quá khứ. Nó không nhất thiết phải là giải pháp dựa trên python, nhưng nó hoàn thành công việc.
Cùng một vấn đề ở đây. Dưới đây là kịch bản đơn giản của tôi để chuyển đổi tất cả các tập tin doc trong dir 'docs /' sang dir 'txts /' bằng catdoc. Hy vọng nó sẽ giúp ai đó:
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import glob, re, os
f = glob.glob('docs/*.doc') + glob.glob('docs/*.DOC')
outDir = 'txts'
if not os.path.exists(outDir):
os.makedirs(outDir)
for i in f:
os.system("catdoc -w '%s' > '%s'" %
(i, outDir + '/' + re.sub(r'.*/([^.]+)\.doc', r'\1.txt', i,
flags=re.IGNORECASE)))
Haha ... + 1 để sử dụng python ... để sử dụng bash. Tốt công việc gắn bó với các yêu cầu của OP ... loại. ': D' – Droogans
@Droogans: anh ta, những kịch bản nhanh chóng đa ngôn ngữ này thực sự mỉa mai. Tôi đã bắt đầu làm trong bash, các quy tắc để thay đổi tên tập tin đầu ra trở nên lạ, sau đó tôi chỉ cần đặt nó bên trong một kịch bản python. Dễ dàng hơn việc sử dụng mô-đun subprocess, đường ống, v.v. – neves
- 1. Cách chuyển đổi reStructuredText thành văn bản thuần túy
- 2. Chuyển đổi ASCII thành văn bản thuần túy trong PHP
- 3. Chuyển văn bản thuần sang PDF bằng Python
- 4. Biến NSAttributedString thành văn bản thuần túy
- 5. HTML tới văn bản thuần túy (cho email)
- 6. Mã LaTeX chuyển đổi/phân tích cú pháp thành văn bản thuần túy
- 7. Gửi bản tin HTML với dự phòng thuần văn bản
- 8. RTF đến Văn bản thuần túy trong Java
- 9. Làm cách nào để chèn văn bản thuần túy?
- 10. Đọc tài liệu Microsoft Word thành văn bản thuần tuý (DOC, DOCX) trong Java
- 11. Hiển thị vcard php dưới dạng văn bản thuần túy
- 12. ASP cổ điển (VBScript) chuyển đổi mã HTML thành văn bản thuần túy
- 13. Mật khẩu văn bản thuần túy qua HTTPS
- 14. Nhận văn bản thuần tuý từ văn bản RTF
- 15. Gửi email văn bản thuần túy bằng PHPMailer
- 16. Hiển thị văn bản thuần túy trong ứng dụng Android
- 17. Đánh dấu xuống văn bản thuần túy trong Ruby?
- 18. Chuyển đổi từ Kanji sang romaji bằng Java thuần túy?
- 19. Tạo tài liệu văn bản (Python)
- 20. Hoạt động chuyển đổi có hoạt động trên các tài liệu có cấu trúc như HTML nếu chỉ được coi là văn bản thuần túy không?
- 21. Bạn muốn giới thiệu mô-đun CPAN nào để chuyển HTML thành văn bản thuần túy?
- 22. Python: Cách chuyển đổi văn bản được định dạng markdown thành văn bản
- 23. EWS văn bản thuần cơ thể
- 24. Chuyển đổi tất cả các trang người dùng Linux thành văn bản/html hoặc markdown
- 25. Chuyển đổi văn bản trên thẻ nút
- 26. Số lần xuất hiện của một char trong tập tin văn bản thuần túy
- 27. Lời nói để chuyển đổi văn bản trong Linux
- 28. SSH: Khi đăng nhập, mật khẩu có phải là văn bản thuần túy/sniffable không?
- 29. Nhận văn bản thuần tuý từ một nhãn hiệu có chứa văn bản có dạng là
- 30. Python chuyển đổi html sang văn bản và bắt chước định dạng
Tôi đã đi với một giải pháp dòng lệnh – Tim