2009-12-28 32 views
8

Tôi đang cố gắng sử dụng httrack (http://www.httrack.com/) để tải xuống một trang duy nhất, không phải toàn bộ trang web. Vì vậy, ví dụ, khi sử dụng httrack để tải xuống www.google.com, nó chỉ nên tải xuống html được tìm thấy trong www.google.com cùng với tất cả các bảng định kiểu, hình ảnh và javascript và không theo bất kỳ liên kết nào đến images.google.com, labs.google.com hoặc www.google.com/subdir/ v.v.gương trang duy nhất với httrack

Tôi đã thử tùy chọn -w nhưng điều đó không tạo ra bất kỳ sự khác biệt nào.

Lệnh nào đúng?

EDIT

tôi đã cố gắng sử dụng httrack "http://www.google.com/" -O "./www.google.com" "http://www.google.com/" -v -s0 --depth=1 nhưng sau đó nó sẽ không sao chép bất kỳ hình ảnh.

Điều cơ bản tôi muốn chỉ là tải xuống tệp chỉ mục của tên miền đó cùng với tất cả nội dung chứ không phải nội dung của bất kỳ liên kết bên ngoài hoặc bên trong nào.

Trả lời

6

Bạn có thể sử dụng wget thay vì httrack không? wget -p sẽ tải xuống một trang duy nhất và tất cả “điều kiện tiên quyết” của nó (hình ảnh, biểu định kiểu).

+1

wget sẽ là giải pháp dự phòng của tôi nếu httrack không thể thực hiện công việc. – Max

+0

câu hỏi về 'httrack', vì vậy hãy đi đúng hướng. wget không thực thi JS – Toolkit

+0

'wget' không thành công nếu tài nguyên có truy vấn. Nó tải xuống các tệp có tên với chuỗi truy vấn. –

0

Mục đích của HTTTrack là đi theo liên kết. Thử đặt --ext-depth=0.

1

Nhìn vào ví dụ:

httrack "http://www.all.net/" -O "/tmp/www.all.net" "+*.all.net/*" -v 

Phần cuối cùng là một regex. Chỉ cần thực hiện một regex hoàn toàn phù hợp.

httrack "http://www.google.com.au/" -O "/tmp/www.google.com.au" "+*.google.com.au/*" -v ---depth=2 --ext-depth=2 

Tôi phải bản địa hóa, nếu không tôi sẽ nhận được trang chuyển hướng. Bạn nên bản địa hóa cho bất kỳ google nào bạn được hướng đến.

+0

Điều đó đã giúp, nhưng không phải là hoàn toàn đúng. Bạn có thể xem chỉnh sửa của tôi không? – Max

+0

Điều này có vẻ như sao chép hình ảnh và js. – torger

3
httrack "http://www.google.com/" -O "./www.google.com" "http://www.google.com/" -v -s0 --depth=1 -n 

tùy chọn -n (hoặc --g) sẽ tải xuống hình ảnh trên trang web bất kể vị trí của nó.

Nói hình ảnh nằm trong google.com/foo/bar/logo.png. như, bạn đang sử dụng s0 (ở nguyên trên cùng một thư mục), nó sẽ không tải hình ảnh trừ khi bạn chỉ định --near

2
  • Bấm vào "Set Options"
  • Đến tab "Limits"
  • Đặt "chiều sâu bên ngoài tối đa" để 0

copy one page only with httrack

Các vấn đề liên quan