2011-08-10 38 views
6

Tôi mới sử dụng Python nên tôi xin lỗi nếu đây là câu hỏi mới.Tùy chọn cạo web Python 3

Tôi đang cố gắng xây dựng một chương trình liên quan đến webscraping và tôi đã nhận thấy rằng Python 3 dường như có ít mô-đun tìm kiếm web ít hơn đáng kể so với chuỗi Python 2.x.

Súp đẹp, cơ giới hóa và cặn bã - ba mô-đun được đề xuất cho tôi - tất cả dường như không tương thích.

Tôi tự hỏi nếu có ai trên diễn đàn này có tùy chọn tốt cho webscraping bằng python 3.

Mọi đề xuất sẽ được đánh giá cao.

Cảm ơn, Will

Trả lời

3

lxml.html công trình trên Python 3, và được bạn html phân tích cú pháp, ít nhất.

BeautifulSoup 4, đang hoạt động, nên hỗ trợ Python 3 (Tôi đã thực hiện một số công việc về điều này).

+0

Việc phân tích cú pháp lxml tốt để xử lý HTML không hợp lệ gần như cũng như BeautifulSoup. Nó cũng nhanh hơn, nhưng khó cài đặt hơn. –

+1

Người dùng Ubuntu có thể chỉ cần cài đặt gói 'python3-lxml'. BeautifulSoup 4 sẽ sử dụng lxml (hoặc các trình phân tích cú pháp khác) và tập trung vào các phương thức để truy cập DOM. Vì vậy, nó sẽ được hưởng lợi từ tốc độ của lxml. –

Các vấn đề liên quan