2011-07-10 34 views
12

Làm cách nào để wget chỉ lưu các loại tệp nhất định được liên kết đến từ các trang được liên kết đến bởi trang đích, bất kể tên miền trong đó các tệp nhất định là gì?Làm cách nào để wget chỉ lưu các loại tệp được liên kết đến từ các trang được liên kết đến bởi trang đích?

Cố gắng tăng tốc công việc mà tôi phải thực hiện thường xuyên.

Tôi đã root thông qua tài liệu wget và googling, nhưng không có gì có vẻ hiệu quả. Tôi tiếp tục hoặc chỉ nhận được trang mục tiêu hoặc các trang con mà không có tệp (thậm chí sử dụng -H), vì vậy tôi rõ ràng đang làm điều này một cách tệ hại.

Vì vậy, về cơ bản, example.com/index1/ chứa các liên kết đến example.com/subpage1/ và example.com/subpage2/, trong khi các trang con chứa liên kết đến example2.com/file.ext và example2.com/file2 .ext, v.v. Tuy nhiên, example.com/index1.html có thể liên kết đến example.com/index2/ có liên kết đến nhiều trang phụ mà tôi không muốn.

Thậm chí có thể làm điều này, và nếu không thì bạn đề nghị tôi sử dụng điều gì? Cảm ơn.

Trả lời

1

Something như thế này nên làm việc:

wget --accept "*.ext" --level 2 "example.com/index1/" 
+0

Tôi đã thử, nhưng chỉ tải xuống example.com/index1/ vì một lý do nào đó ... Điều này khiến tôi hơi nghi ngờ vì nó thậm chí không phải là loại tệp đó. – Nomen

+0

Bạn có thể cung cấp trang web hoặc nếu không phải là trang web mẫu (nhưng thực tế) thay thế? – ssapkota

+0

Tôi có cùng một vấn đề, tôi thử sử dụng với: http://www.institutoveritas.net/livros-digitalizados.php – Delfino

14

lệnh sau làm việc cho tôi.

wget -r --accept "*.ext" --level 2 "example.com/index1/" 

Cần phải đệ quy để -r phải được thêm vào.

+1

Đây không phải là câu trả lời chính xác cho câu hỏi. Điều này làm cho wget tải về và sau đó từ chối (xóa) các tập tin (s). – Droidzone

Các vấn đề liên quan