gương trang duy nhất với httrack

Tôi đang cố gắng sử dụng httrack (http://www.httrack.com/) để tải xuống một trang duy nhất, không phải toàn bộ trang web. Vì vậy, ví dụ, khi sử dụng httrack để tải xuống www.google.com, nó chỉ nên tải xuống html được tìm thấy trong www.google.com cùng với tất cả các bảng định kiểu, hình ảnh và javascript và không theo bất kỳ liên kết nào đến images.google.com, labs.google.com hoặc www.google.com/subdir/ v.v.gương trang duy nhất với httrack

Tôi đã thử tùy chọn -w nhưng điều đó không tạo ra bất kỳ sự khác biệt nào.

Lệnh nào đúng?

EDIT

tôi đã cố gắng sử dụng httrack "http://www.google.com/" -O "./www.google.com" "http://www.google.com/" -v -s0 --depth=1 nhưng sau đó nó sẽ không sao chép bất kỳ hình ảnh.

Điều cơ bản tôi muốn chỉ là tải xuống tệp chỉ mục của tên miền đó cùng với tất cả nội dung chứ không phải nội dung của bất kỳ liên kết bên ngoài hoặc bên trong nào.

Nguồn

2009-12-28 Max

Bạn có thể sử dụng wget thay vì httrack không? wget -p sẽ tải xuống một trang duy nhất và tất cả “điều kiện tiên quyết” của nó (hình ảnh, biểu định kiểu).

Nguồn

2009-12-28 12:57:44

wget sẽ là giải pháp dự phòng của tôi nếu httrack không thể thực hiện công việc. – Max

câu hỏi về 'httrack', vì vậy hãy đi đúng hướng. wget không thực thi JS – Toolkit

'wget' không thành công nếu tài nguyên có truy vấn. Nó tải xuống các tệp có tên với chuỗi truy vấn. –

Mục đích của HTTTrack là đi theo liên kết. Thử đặt --ext-depth=0.

Nguồn

2009-12-28 08:01:29

Nhìn vào ví dụ:

httrack "http://www.all.net/" -O "/tmp/www.all.net" "+*.all.net/*" -v

Phần cuối cùng là một regex. Chỉ cần thực hiện một regex hoàn toàn phù hợp.

httrack "http://www.google.com.au/" -O "/tmp/www.google.com.au" "+*.google.com.au/*" -v ---depth=2 --ext-depth=2

Tôi phải bản địa hóa, nếu không tôi sẽ nhận được trang chuyển hướng. Bạn nên bản địa hóa cho bất kỳ google nào bạn được hướng đến.

Nguồn

2009-12-28 08:03:22 torger

Điều đó đã giúp, nhưng không phải là hoàn toàn đúng. Bạn có thể xem chỉnh sửa của tôi không? – Max

Điều này có vẻ như sao chép hình ảnh và js. – torger

httrack "http://www.google.com/" -O "./www.google.com" "http://www.google.com/" -v -s0 --depth=1 -n

tùy chọn -n (hoặc --g) sẽ tải xuống hình ảnh trên trang web bất kể vị trí của nó.

Nói hình ảnh nằm trong google.com/foo/bar/logo.png. như, bạn đang sử dụng s0 (ở nguyên trên cùng một thư mục), nó sẽ không tải hình ảnh trừ khi bạn chỉ định --near

Nguồn

2015-01-19 22:00:49

Bấm vào "Set Options"
Đến tab "Limits"
Đặt "chiều sâu bên ngoài tối đa" để 0

Nguồn

2017-05-05 13:21:40

gương trang duy nhất với httrack

Trả lời

Các vấn đề liên quan