Tôi đang làm việc trên một dự án có liên quan đến việc chuyển đổi một lượng lớn nội dung HTML thành văn bản thuần túy/văn bản. Tôi có một mô-đun tùy chỉnh bằng văn bản thực hiện công việc OK, nhưng tôi tự hỏi nếu có một số công cụ tiêu chuẩn để giúp hoàn thành công việc.Cách tốt nhất để chuyển đổi HTML sang dạng thô bằng cách sử dụng Python
Trả lời
Html2Text có vẻ là một lựa chọn tốt
Dưới đây là một thư viện python mà không phân tích cú pháp HTML:
BeautifulSoup là một tùy chọn.
Để tiết kiệm cho những người khác một khoảng thời gian từ Google trở lại SO, dưới đây là phần Hỏi & Đáp mô tả rằng Beautiful Soup không thực sự được duy trì nữa: [WebScraping with BeautifulSoup hoặc LXML.HTML] (http://stackoverflow.com/questions/5493514/webscraping-with-beautifulsoup-or-lxml-html). – sage
Súp đẹp dường như được duy trì ngay bây giờ tôi nghĩ. – contrebis
- 1. Chuyển đổi HTML sang PDF (không phải PDF sang HTML) bằng cách sử dụng PHP
- 2. Chuyển đổi định dạng wikitext sang HTML bằng cách sử dụng dòng lệnh
- 3. Chuyển đổi PDF sang HTML bằng Python
- 4. chuyển đổi html sang .doc bằng Python?
- 5. Làm cách nào để chuyển đổi định dạng của tệp từ Unicode sang ASCII bằng Python?
- 6. HTML tới chuỗi RTF bằng cách sử dụng Python
- 7. Chuyển đổi docx sang pdf bằng cách sử dụng PHP
- 8. Cách chuyển đổi HTML sang PDF bằng cách sử dụng iText
- 9. Cách chuyển đổi tệp video MP4 sang định dạng FLV bằng cách sử dụng FFMPEG
- 10. Chuyển html thô sang lưới Telerik
- 11. chuyển đổi HTML (có Javascript) sang PDF bằng cách sử dụng JavaScript
- 12. Chuyển đổi PDF sang JPG bằng cách sử dụng PHP
- 13. Làm cách nào để chuyển html thô sang chế độ xem khung công cụ?
- 14. Cách đơn giản nhất để chuyển đổi XML sang HTML bằng XSLT trong C#?
- 15. Chuyển đổi HTML sang PDF
- 16. Chuyển đổi TeX sang html
- 17. Chuyển đổi yêu cầu POST curl sang Python chỉ bằng cách sử dụng thư viện chuẩn
- 18. Trang trống bổ sung khi chuyển đổi HTML sang PDF bằng cách sử dụng abcPDF
- 19. Cách chuyển đổi tốt nhất một dấu vết ngăn xếp thành HTML (sử dụng .NET - C#)
- 20. Chuyển đổi chuỗi ANSI thoát sang HTML bằng cách sử dụng PHP
- 21. định dạng chuyển đổi (từ ngày sang số) bằng cách sử dụng SAS
- 22. Chuyển đổi tệp BibTex sang mục cơ sở dữ liệu bằng cách sử dụng Python
- 23. cách tốt nhất để tiêm html bằng cách sử dụng javascript
- 24. Chuyển đổi Gtk sang html
- 25. Cách thực hiện nhiều nhất để chuyển đổi định dạng ngày giờ sang định dạng Int
- 26. Cách tốt nhất để tích hợp mã Python với HTML
- 27. Chuyển đổi HTML sang XAML
- 28. Làm cách nào để chuyển đổi HTML sang Dệt may?
- 29. Chuyển đổi HTML sang XML
- 30. sử dụng python, Xóa thẻ HTML/định dạng khỏi chuỗi
trang này hoạt động rất tốt –
Trang web không còn truy cập được nữa kể từ Aaron, tác giả không còn nữa. –
nhưng mã có thể được tìm thấy trên https://github.com/aaronsw/html2text –