Tôi đang cố gắng xóa một trang web yêu cầu người dùng nhập giá trị tìm kiếm và hình ảnh xác thực. Tôi đã có một thói quen nhận dạng ký tự quang học (OCR) cho captcha thành công khoảng 33% thời gian. Vì captchas luôn là văn bản chữ cái, tôi muốn tải lại hình ảnh xác thực nếu hàm OCR trả về các ký tự không phải chữ cái. Khi tôi có một từ "văn bản", tôi muốn gửi mẫu tìm kiếm.Làm cách nào để thiết lập Scrapy để xử lý hình ảnh xác thực
Kết quả trở lại trong cùng một trang, với biểu mẫu sẵn sàng cho tìm kiếm mới và hình ảnh xác thực mới. Vì vậy, tôi cần phải rửa sạch và lặp lại cho đến khi tôi đã cạn kiệt cụm từ tìm kiếm của mình.
Dưới đây là các thuật toán cấp cao nhất:
- trang tải ban đầu
- Tải hình ảnh captcha, chạy nó thông qua OCR
- Nếu OCR không quay trở lại với một văn bản chỉ dẫn , làm mới hình ảnh xác thực và lặp lại bước này
- Gửi biểu mẫu truy vấn trong trang có cụm từ tìm kiếm và hình ảnh xác thực
- Kiểm tra phản hồi để xem hình ảnh xác thực có chính xác không
- Nếu nó là đúng, cạo dữ liệu
- Đến 2
Tôi đã cố gắng sử dụng một đường ống dẫn để nhận được mã xác nhận, nhưng sau đó tôi không có giá trị cho việc nộp đơn. Nếu tôi chỉ cần lấy hình ảnh mà không đi qua khung, sử dụng urllib hoặc một cái gì đó, sau đó cookie với phiên không được gửi, do đó xác thực captcha trên máy chủ không thành công.
Cách lý tưởng để làm việc này là gì?