Tôi đang tìm kiếm một cách để giả mạo một trang web. Điều quan trọng là tôi không thực sự muốn nội dung, mà là một danh sách các URI đơn giản. Tôi có thể lấy lý gần với ý tưởng này Wget sử dụng tùy chọn --spider
, nhưng khi đường ống đầu ra thông qua một grep
, tôi dường như không thể tìm thấy sự kỳ diệu ngay để làm cho nó làm việc:Nhện trang web và URL trả lại Chỉ
wget --spider --force-html -r -l1 http://somesite.com | grep 'Saving to:'
Bộ lọc grep
dường hoàn toàn không ảnh hưởng đến đầu ra wget
. Tôi đã có một cái gì đó sai hoặc là có một công cụ tôi nên thử đó là hướng tới việc cung cấp loại kết quả hạn chế này?
CẬP NHẬT
Vì vậy, tôi chỉ phát hiện ra ẩn đó, theo mặc định, wget
ghi vào stderr. Tôi đã bỏ lỡ điều đó trong các trang của người đàn ông (trên thực tế, tôi vẫn chưa tìm thấy nó nếu nó ở trong đó). Khi tôi chuyển đường trở lại thành công trình chuẩn bị, tôi đã tiến gần hơn đến những gì tôi cần:
wget --spider --force-html -r -l1 http://somesite.com 2>&1 | grep 'Saving to:'
Tôi vẫn muốn có phương tiện tốt hơn để thực hiện loại điều này, nếu có.
Xem câu hỏi/câu trả lời này theo cách khác bằng cách sử dụng tập lệnh python: http://stackoverflow.com/questions/9561020/how-do-i-use-the-python-scrapy-module-to-list-all- the-urls-from-my-website –
có thể trùng lặp của [Nhận danh sách URL từ một trang web] (http://stackoverflow.com/questions/857653/get-a-list-of-urls-from-a- trang web) –