Những người gửi nội dung đến trang web của tôi sử dụng Word, vì vậy tôi nhận được rất nhiều tài liệu Word để chuyển đổi sang HTML. Tôi chỉ muốn bảo tồn định dạng cơ bản - các tiêu đề, danh sách và sự nhấn mạnh - không có hình ảnh.Từ MS Word hoặc Libre Office để xóa HTML
Khi tôi chuyển đổi chúng bằng Libre Office "Lưu dưới dạng HTML", tệp kết quả là rất lớn, ví dụ: tệp doc 112K trở thành 450K HTML, hầu hết các thẻ FONT và SPAN vô dụng (vì lý do nào đó, mỗi dấu chấm câu được đính kèm trong khoảng riêng của nó!).
Tôi đã thử tập lệnh này: http://www.techrepublic.com/blog/opensource/how-to-convert-doc-and-odf-files-to-clean-and-lean-html/3708 dựa trên gọn gàng và an toàn, đồng thời giảm kích thước xuống khoảng 150K nhưng vẫn còn nhiều SPAN vô dụng.
Tôi đã cố gắng sao chép và chuyển sang Kompozer - một trình soạn thảo HTML, sau đó lưu dưới dạng HTML; nhưng nó đã chuyển đổi tất cả các chữ cái không phải tiếng Latinh (tiếng Do Thái) thành các thực thể như "ְ", tăng kích thước lên 750K!
tôi đã cố gắng docvert: https://github.com/holloway/docvert/issues/6 nhưng phát hiện ra rằng nó đòi hỏi một thư viện python mà đòi hỏi các thư viện khác, vv, mà có vẻ như một con đường vô tận của sự phụ thuộc ...
Có cách nào đơn giản để tạo HTML sạch từ tài liệu Office?
Đây có thể là một bản sao: http://stackoverflow.com/questions/67964/what-is-the-best-free-way-to-clean-up-word-html/1813798#1813798 –