Tôi cần một tập lệnh có thể thu thập dữ liệu một trang web và trả về danh sách tất cả các trang được thu thập thông tin ở dạng văn bản thuần hoặc tương tự; mà tôi sẽ gửi cho các công cụ tìm kiếm dưới dạng sơ đồ trang web. Tôi có thể sử dụng WGET để tạo sơ đồ trang web của một trang web không? Hoặc là có một kịch bản PHP có thể làm như vậy?Tôi có thể sử dụng WGET để tạo sơ đồ trang web của một trang web được cung cấp URL không?
7
A
Trả lời
30
wget --spider --recursive --no-verbose --output-file=wgetlog.txt http://somewebsite.com
sed -n "[email protected]\+ URL:\([^ ]\+\) .\[email protected]\[email protected]" wgetlog.txt | sed "[email protected]&@\&@" > sedlog.txt
này tạo ra một tập tin gọi là sedlog.txt
có chứa tất cả các liên kết được tìm thấy trên các trang web cụ thể. Bạn có thể sử dụng PHP hoặc một kịch bản lệnh shell để chuyển đổi sơ đồ trang web tệp văn bản thành một sơ đồ trang web XML. Tinh chỉnh các tham số của lệnh wget (chấp nhận/từ chối/bao gồm/loại trừ) để chỉ nhận các liên kết bạn cần.
1
Bạn có thể sử dụng kịch bản perl này để làm các trick:
+0
Nó sẽ tạo bằng cách quét hệ thống tệp nhưng sẽ không "thu thập thông tin". Các trang web tôi muốn nhện là năng động. –
Các vấn đề liên quan
- 1. Có thể sử dụng url sơ đồ trang web tương đối trong robots.txt không?
- 2. Trực quan hóa Sơ đồ trang web của một trang web lớn (số trang)
- 3. Chọn mặt của một Sơ đồ trang web trong GLSL
- 4. Cách sử dụng sơ đồ trang web với FadeSlideShow?
- 5. Tôi có thể sử dụng MiniProfiler để trang bị một trang web ASP.NET MVC WebApi không?
- 6. Sơ đồ trang web SDL2 - quá chậm
- 7. Tự động xác định ngôn ngữ tự nhiên của trang web được cung cấp URL
- 8. Cách tạo sơ đồ trang web bằng Sitecore
- 9. Thứ tự url có quan trọng trong sơ đồ trang web XML không?
- 10. Cắt an ninh Sơ đồ trang web ném lỗi SQL
- 11. Sơ đồ trang web động trong ASP.NET MVC
- 12. Cách tự động điền tệp sơ đồ trang web
- 13. Sơ đồ trang web ngẫu nhiên ngắt theo thời gian
- 14. Tôi có thể sử dụng HTML5 ngay bây giờ để tạo một trang web
- 15. Sử dụng bản thân để tạo một sơ đồ trang web với toctree trong nhân sư có vẻ bị hỏng?
- 16. Triển khai sơ đồ trang web ở Django
- 17. Sơ đồ trang web cho nội dung động?
- 18. Bản đồ trang web ASP.NET
- 19. Trang web nào cung cấp các mẫu thiết kế trang web miễn phí, chất lượng?
- 20. Công cụ hay trang web tốt để sử dụng để kiểm tra hiệu suất trang web/trang web là gì?
- 21. Có thể một trang web độc hại đánh cắp cookie của tôi từ một trang web khác không?
- 22. Tạo một liên kết đến Top của một trang web Nếu không có Sử dụng neo
- 23. Magento và Sơ đồ trang web Google - Cron
- 24. Tại sao lại sử dụng Sơ đồ trang web của Google?
- 25. Disqus Comment Sử dụng Đăng nhập trang web của tôi
- 26. Cách tốt nhất để tạo sơ đồ trang web là gì?
- 27. Làm thế nào để bạn tìm thấy hình ảnh "chính" của trang web, được cung cấp URL?
- 28. Khi tôi sử dụng các yêu cầu python để kiểm tra một trang web, nếu trang web chuyển hướng tôi đến một trang khác, tôi có biết không?
- 29. Thêm sơ đồ trang web theo cách thủ công vào s3 vào công cụ quản trị trang web của google
- 30. Nhận tên trang web IIS từ một trang web ASP.NET
+1 Không thể sử dụng nó giống như nó vì nó đã cho tôi một loạt các lỗi (có lẽ vì các phiên bản wget/sed khác nhau). Nhưng một khi tôi đã làm một số tinh chỉnh, nó làm việc như một say mê. Cảm ơn! – Julian
Bạn nên thêm một sự chậm trễ nhỏ giữa các yêu cầu bằng cách sử dụng '--wait = 1', nếu không nó có thể ảnh hưởng đến hiệu suất của trang web. – Liam