2010-06-19 17 views
8

Tôi không phải là mới trong ngôn ngữ lập trình (python) nhưng tôi không có đầu mối về nơi mà tôi sẽ bắt đầu trong việc thực hiện một bot hoặc một scraper sử dụng python ?. tôi có nên học lập trình cgi không? hoặc scraper chạy chỉ bằng cách sử dụng một kịch bản python? Tôi có nên xây dựng một máy chủ cho điều đó không? Không có đầu mối cho điều này ... cảm ơn sự giúp đỡTôi sẽ bắt đầu tạo scraper hoặc bot bằng python ở đâu?

+0

Bỏ phiếu để đóng quá rộng. –

+0

Vâng, tôi cho là vậy, chỉ vì OP chưa bao giờ chấp nhận câu trả lời và đã không được xung quanh kể từ đó, vì vậy nó được treo xung quanh là "mở" kể từ đó. –

Trả lời

1

Screen cào bao gồm rất nhiều biểu thức thông thường để có được các dữ liệu chính xác mà bạn muốn. Bạn cũng muốn biết loại dữ liệu nào bạn muốn phân tích và cách bạn muốn lưu trữ dữ liệu đó.

Để có được các trang, bạn sẽ cần phải sử dụng thư viện như urllib (hoặc urllib2) và biểu thức thông thường (lại) hoặc một kịch bản tốt để sử dụng là BeautifulSoup để làm công việc bẩn thỉu của bạn (http://www.crummy.com/software/BeautifulSoup/)

Nếu bạn muốn xây dựng một bot thuần túy thực hiện những gì mà các công cụ tìm kiếm làm, bạn cũng phải xây dựng một bot đủ thông minh để biết rằng bạn không giữ cho cùng một miền liên tục (kết quả trong một cuộc tấn công DOS).

2

Nếu bạn đang cố gắng truy cập các trang web sử dụng nhiều JavaScript, bạn có thể thấy tổng thể, tìm thấy Selenium dễ dàng hơn.

Selenium là máy chủ điều khiển trình duyệt web thực trên máy chủ của bạn và thư viện khách (bao gồm cổng Python) cho phép bạn kiểm soát trình duyệt và kiểm tra các trang trong đó. Nó chắc chắn là chi phí cao hơn phía trước để cấu hình (và tìm ra) thư viện máy chủ và máy khách (và để chắc chắn rằng bạn có một trình duyệt đang hoạt động trên hệ thống của bạn), nhưng nếu trang web thực hiện rất nhiều thứ trong JavaScript, thì bạn cần phải làm như vậy. mã cạo thực tế của bạn có thể ít lông hơn nhiều.

Các vấn đề liên quan