Tôi không phải là mới trong ngôn ngữ lập trình (python) nhưng tôi không có đầu mối về nơi mà tôi sẽ bắt đầu trong việc thực hiện một bot hoặc một scraper sử dụng python ?. tôi có nên học lập trình cgi không? hoặc scraper chạy chỉ bằng cách sử dụng một kịch bản python? Tôi có nên xây dựng một máy chủ cho điều đó không? Không có đầu mối cho điều này ... cảm ơn sự giúp đỡTôi sẽ bắt đầu tạo scraper hoặc bot bằng python ở đâu?
Trả lời
Dưới đây là một số liên kết để giúp bạn bắt đầu.
Screen cào bao gồm rất nhiều biểu thức thông thường để có được các dữ liệu chính xác mà bạn muốn. Bạn cũng muốn biết loại dữ liệu nào bạn muốn phân tích và cách bạn muốn lưu trữ dữ liệu đó.
Để có được các trang, bạn sẽ cần phải sử dụng thư viện như urllib (hoặc urllib2) và biểu thức thông thường (lại) hoặc một kịch bản tốt để sử dụng là BeautifulSoup để làm công việc bẩn thỉu của bạn (http://www.crummy.com/software/BeautifulSoup/)
Nếu bạn muốn xây dựng một bot thuần túy thực hiện những gì mà các công cụ tìm kiếm làm, bạn cũng phải xây dựng một bot đủ thông minh để biết rằng bạn không giữ cho cùng một miền liên tục (kết quả trong một cuộc tấn công DOS).
Nếu bạn đang cố gắng truy cập các trang web sử dụng nhiều JavaScript, bạn có thể thấy tổng thể, tìm thấy Selenium dễ dàng hơn.
Selenium là máy chủ điều khiển trình duyệt web thực trên máy chủ của bạn và thư viện khách (bao gồm cổng Python) cho phép bạn kiểm soát trình duyệt và kiểm tra các trang trong đó. Nó chắc chắn là chi phí cao hơn phía trước để cấu hình (và tìm ra) thư viện máy chủ và máy khách (và để chắc chắn rằng bạn có một trình duyệt đang hoạt động trên hệ thống của bạn), nhưng nếu trang web thực hiện rất nhiều thứ trong JavaScript, thì bạn cần phải làm như vậy. mã cạo thực tế của bạn có thể ít lông hơn nhiều.
- 1. Tôi bắt đầu học chương trình bot ở đâu?
- 2. Tôi bắt đầu với bộ phận lắp ráp ở đâu?
- 3. Tôi bắt đầu với Zend Framework ở đâu?
- 4. Tôi bắt đầu điều tra quá trình Java của mình ở đâu sẽ không kết thúc?
- 5. Tôi bắt đầu với máy tính phân tán ở đâu?
- 6. Vỏ Python/Django sẽ không bắt đầu
- 7. Tôi bắt đầu tìm hiểu về lập trình GUI ở đâu?
- 8. Tôi bắt đầu với VBA và lập trình macro trong Word 2007 ở đâu?
- 9. StyleCop-Đầu ra của tôi ở đâu?
- 10. Tôi bắt đầu thực hiện việc nhập vào linux ở đâu?
- 11. Tôi muốn tạo trình duyệt web, nhưng tôi không chắc bắt đầu từ đâu?
- 12. Công cụ tìm kiếm bắt đầu thu thập thông tin ở đâu?
- 13. Lập trình trò chơi trong C, tôi bắt đầu ở đâu?
- 14. IPython sẽ không bắt đầu
- 15. Tôi cần một API. Tôi nên bắt đầu từ đâu?
- 16. Log4net sẽ tạo tệp nhật ký này ở đâu?
- 17. nodejs bắt đầu từ đâu?
- 18. Chọn ..... ở đâu .... HOẶC
- 19. Tôi có thể tìm đầu đọc Lisp ở đâu?
- 20. Ứng dụng web Clojure - tôi bắt đầu từ đâu?
- 21. Tôi bắt đầu với Lập trình hướng khía cạnh ở đâu?
- 22. SIP và Java, bắt đầu từ đâu và bằng gì?
- 23. Tôi có thể bắt ngoại lệ trong MVVM ở đâu?
- 24. C++ "xóa" chậm. Tôi nên nhìn đầu tiên ở đâu?
- 25. fpcmake và Makefile.fpc, tôi có thể đào tạo ở đâu?
- 26. SSAS đứng đầu ở đâu?
- 27. Tôi có thể bắt đầu tìm hiểu về Công cụ Quy tắc ở đâu?
- 28. Tôi có thể tìm hướng dẫn để bắt đầu học jQuery ở đâu?
- 29. IRC Python Bot: Best Way
- 30. Bắt đầu bằng C
Bỏ phiếu để đóng quá rộng. –
Vâng, tôi cho là vậy, chỉ vì OP chưa bao giờ chấp nhận câu trả lời và đã không được xung quanh kể từ đó, vì vậy nó được treo xung quanh là "mở" kể từ đó. –