Tôi muốn viết một spider web đơn giản hoặc chỉ sử dụng wget
để tải xuống kết quả pdf từ học giả google. Điều đó thực sự sẽ là một cách khá tốt để có được giấy tờ để nghiên cứu.Tải xuống tất cả các tệp pdf từ kết quả tìm kiếm của Google Scholar bằng cách sử dụng wget
Tôi đã đọc các trang sau trên stackoverflow:
Crawl website using wget and limit total number of crawled links
How do web spiders differ from Wget's spider?
Downloading all PDF files from a website
How to download all files (but not HTML) from a website using wget?
Trang cuối cùng có lẽ là cảm hứng nhất của tất cả. Tôi đã thử sử dụng wget
như được đề xuất trên this.
Trang kết quả tìm kiếm trên Google Scholar của tôi là thus nhưng không có nội dung nào được tải xuống.
Do mức độ hiểu biết của tôi về webspiders là tối thiểu, tôi nên làm gì để làm điều này có thể? Tôi nhận ra rằng viết một con nhện có lẽ là rất có liên quan và là một dự án tôi có thể không muốn thực hiện. Nếu có thể sử dụng wget
, điều đó hoàn toàn tuyệt vời.
Không, tiếc là cửa sổ đầu cuối của tôi bị treo và tắt khi tôi chạy lệnh này. Tôi không chạy Mozilla 5.0 ... nó là firefox 15 .. vì vậy tôi nên thực hiện một số thay đổi cho phù hợp? Tôi đã thay đổi 'firefox 3.0.3' thành' firefox 15' nhưng không có kết quả. – drN
Nó có thể là dòng tiếp tục (\). Đã chỉnh sửa để xóa chúng - hãy thử lại. Tác nhân người dùng có thể là bất cứ điều gì bạn thích… – dongle
hoạt động giống như một sự quyến rũ! ':)' – drN