Beautiful soup vẫn có thể là lựa chọn tốt nhất của bạn.
Nếu bạn cần "hỗ trợ JavaScript" cho mục đích chặn các yêu cầu Ajax thì bạn nên sử dụng một số loại chụp (chẳng hạn như YATT) để theo dõi những yêu cầu đó là gì và sau đó mô phỏng/phân tích chúng.
Nếu bạn cần "hỗ trợ JavaScript" để có thể xem kết quả cuối cùng của trang có JavaScript tĩnh là gì, thì lựa chọn đầu tiên của tôi là thử và tìm hiểu JavaScript đang làm gì trong trường hợp- cơ sở từng trường hợp (ví dụ: nếu JavaScript đang thực hiện điều gì đó dựa trên một số Xml, thì chỉ cần phân tích cú pháp trực tiếp Xml)
Nếu bạn muốn xem html là gì sau tập lệnh đã được chạy trên một trang) sau đó tôi nghĩ rằng bạn có thể sẽ cần phải tạo một thể hiện của một số điều khiển trình duyệt, và sau đó đọc kết quả html/dom trở lại từ điều khiển trình duyệt khi tải xong và phân tích nó bình thường với súp đẹp. Đó sẽ là phương sách cuối cùng của tôi.
Rất nhiều câu trả lời hữu ích về các vấn đề tương tự ở đây: http://stackoverflow.com/search?q=scraping+python – 3zzy
Bản sao chính xác: http://stackoverflow.com/questions/2081586/web-scraping-with-python –
không phải là bản sao chính xác. Điều này đề cập đến JavaScript, đòi hỏi các công cụ khác nhau hơn khi làm việc với HTML tĩnh. – hoju