Tôi đang làm việc trên một dự án để phân tích cách trích dẫn các bài viết trên tạp chí. Tôi có một tập các tên bài báo lớn. Tôi dự định chuyển chúng sang Google Scholar và xem có bao nhiêu trích dẫn.Sử dụng tor và python để cạo Google Scholar
Dưới đây là chiến lược Tôi sau:
Sử dụng "scholar.py" từ http://www.icir.org/christian/scholar.html. Đây là tập lệnh python được viết trước để tìm kiếm học giả trên google và trả về thông tin về lần truy cập đầu tiên ở định dạng CSV (bao gồm số trích dẫn)
Học giả Google chặn bạn sau một số tìm kiếm nhất định (Tôi có khoảng 3000 tiêu đề bài viết truy vấn). Tôi đã thấy rằng hầu hết mọi người sử dụng Tor (How to make urllib2 requests through Tor in Python? và Prevent Custom Web Crawler from being blocked) để giải quyết vấn đề này. Tor là một dịch vụ cung cấp cho bạn một địa chỉ IP ngẫu nhiên sau mỗi vài phút.
Tôi có scholar.py và tor cả thiết lập và làm việc thành công. Tôi không phải là rất quen thuộc với python hoặc thư viện urllib2 và tự hỏi những gì sửa đổi là cần thiết để scholar.py để truy vấn được định tuyến thông qua Tor.
Tôi cũng tuân theo các đề xuất cho phương pháp tiếp cận dễ dàng hơn (và có khả năng khác đáng kể) cho truy vấn học tập google khối lượng nếu có.
Cảm ơn trước
Liên kết đầu tiên không còn hợp lệ – chrisfs
Liên kết thối, đó là lý do tại sao các câu trả lời chỉ liên kết sucks ... Tôi nên bao gồm các hướng dẫn trong câu trả lời, rất tiếc là tôi không có thời gian để làm điều đó ngay bây giờ, xin lỗi. –
liên kết đã được sao lưu ngay bây giờ – user3791372