Tôi có thư mục chứa> 1000 tệp .html và muốn kiểm tra tất cả các liên kết đó cho các liên kết xấu - tốt nhất là sử dụng bảng điều khiển. Bất kỳ công cụ nào bạn có thể đề xuất cho công việc đó?Điều gì sẽ sử dụng để kiểm tra các liên kết html trong dự án lớn, trên Linux?
Trả lời
Bạn có thể trích xuất liên kết từ tệp html bằng cách sử dụng trình duyệt văn bản Lynx. Bash kịch bản xung quanh điều này không phải là khó khăn.
Tôi muốn sử dụng checklink (một dự án W3C)
Miễn là bạn cẩn thận thiết lập tác nhân người dùng và chấp nhận các tiêu đề (để tránh các mã lỗi không có thật từ các trình dò tìm bot), điều này sẽ hoạt động. –
Nó sẽ trông ok, nhưng nó chắc chắn không dành cho các dự án lớn như vậy - nó không có bất kỳ cách nào để chỉ liệt kê các liên kết bị hỏng, và đầu ra cho dự án của tôi là * thực sự * lớn. –
Thử webgrep công cụ dòng lệnh hoặc, nếu bạn cảm thấy thoải mái với Perl, module HTML::TagReader của cùng tác giả.
bạn có thể sử dụng wget
, ví dụ:
wget -r --spider -o output.log http://somedomain.com
ở dưới cùng của file output.log, nó sẽ cho biết wget
đã tìm thấy liên kết bị hỏng. bạn có thể phân tích cú pháp đó bằng cách sử dụng awk/grep
Một dòng lệnh ** wget ** thay thế để kiểm tra các liên kết bị hỏng có thể được tìm thấy trong [câu trả lời này] (http://stackoverflow.com/a/15029100/1497596). Cũng lưu ý rằng một nhận xét mà tôi để lại trên câu trả lời đó cung cấp một liên kết đến ** wget cho Windows **. – DavidRR
- 1. Tôi sẽ sử dụng điều gì để xóa html thoát khỏi các tập dữ liệu lớn
- 2. Sử dụng Emac cho các dự án lớn lớn
- 3. kiểm tra một dự án có sử dụng ActionBarSherlock
- 4. Cách sử dụng #include trong các dự án lớn?
- 5. Sử dụng Firebird trong các dự án lớn
- 6. java sẽ không liên tục giải quyết các liên kết tượng trưng trên Linux
- 7. Điều gì cần kiểm tra trong ứng dụng Grails?
- 8. Kiểm tra các liên kết bằng rspec?
- 9. Cách kiểm tra xem trước dự án trên site.com
- 10. Cách tìm phụ thuộc phần đầu cho các dự án quy mô lớn trên linux
- 11. Bạn sẽ làm gì khi đột nhiên bị ném vào một dự án lớn?
- 12. Liên kết các dự án riêng biệt trong GHC
- 13. Sử dụng NodeJS cho một dự án lớn
- 14. Sử dụng thư viện được kiểm soát nguồn trong các dự án được kiểm soát nguồn
- 15. cách kiểm tra dự án phần mềm?
- 16. Tách/Modularizing các dự án ứng dụng web ASP.NET lớn
- 17. Làm thế nào để theo dõi các dự án không liên quan đến các dự án
- 18. Kiểm tra loại liên kết trong Sitecore
- 19. Lỗi liên kết dự án VS2012
- 20. Sử dụng jQuery để kiểm tra xem một liên kết có nằm trong hoặc ngoài
- 21. Có cách nào để liên kết các mục công việc trong các dự án trong TFS
- 22. Kiểm tra trong một dự án Eclipse vào SVN
- 23. Giải quyết nhiều liên kết SLF4J trong dự án maven
- 24. Điều gì sẽ tương đương với Win32 API trong Linux?
- 25. Làm cách nào để hủy liên kết dự án?
- 26. Thiết kế dự án/Bố cục FS cho các dự án django lớn
- 27. Cách hoàn hảo để xác nhận và kiểm tra các mối liên kết Rails 3 (sử dụng RSpec/Remarkable)?
- 28. Sử dụng các đoạn web (API Servlet 3.0) trong môi trường dự án lớn
- 29. Một số dự án C# để xem xét thực hiện tốt các bài kiểm tra đơn vị là gì?
- 30. Liên kết libquadmath với C++ trên Linux
Lynx có thể làm điều đó, nhưng nó không thực sự hỗ trợ nó. wget phù hợp hơn nhiều với mục đích. – reinierpost
Làm thế nào để bạn có được wget để xuất một danh sách các liên kết trong một trang? – Quentin
Đó là một ý tưởng thực sự tuyệt vời. Tại sao tôi không nghĩ về nó trước đó? –