Tôi mới sử dụng Python hoàn toàn và đang sử dụng Python 3.1 trên Windows (pywin). Tôi cần phải phân tích cú pháp một số HTML, về cơ bản giá trị bổ sung giữa các thẻ HTML cụ thể và bị nhầm lẫn với các tùy chọn của tôi và mọi thứ tôi tìm thấy đều phù hợp với Python 2.x. Tôi đã đọc các bài hát về Beautiful Soup, HTML5Lib và lxml, nhưng tôi không thể tìm ra cách cài đặt bất kỳ thứ gì trong số này trên Windows.Thư viện tốt nhất để phân tích cú pháp HTML bằng Python 3 và ví dụ?
Câu hỏi:
- phân tích cú pháp HTML gì bạn đề nghị?
- Làm cách nào để cài đặt? (Hãy nhẹ nhàng, tôi hoàn toàn mới với Python và nhớ tôi đang sử dụng Windows)
Bạn có một ví dụ đơn giản về cách sử dụng thư viện được đề xuất để lấy mã HTML từ một URL cụ thể và trả về giá trị một cái gì đó như thế này:
< div class = "foo" > < bảng > <tr> <td> foo </td > </tr > </table > < một class = "liên kết" href = '/ blahblah '> Liên kết </a > </div >
(nói chúng tôi muốn trở lại "/ blahblah")
Bất kỳ ý tưởng nào về cách sử dụng trình phân tích HTML được tích hợp sẵn để xem nội dung của các thẻ? – Teifion
Súp đẹp có ghi tốt về tình trạng hiện tại của nó. http://www.crummy.com/software/BeautifulSoup/3.1-problems.html – dyork