Tốt nhất là để gõ cùng nhện của riêng bạn trong ngôn ngữ kịch bản của bạn lựa chọn, nó có thể được thực hiện một cách đệ quy dọc theo dòng:
// Pseudo-code to recursively check for broken links
// logging all errors centrally
function check_links($page)
{
$html = fetch_page($page);
if(!$html)
{
// Log page to failures log
...
}
else
{
// Find all html, img, etc links on page
$links = find_links_on_page($html);
foreach($links as $link)
{
check_links($link);
}
}
}
Sau khi trang web của bạn đã nhận được một mức độ nhất định của sự chú ý từ Google, webmaster tools của họ là vô giá khi hiển thị các liên kết bị hỏng mà người dùng có thể gặp phải, nhưng điều này khá phản cảm - các liên kết chết có thể tồn tại trong vài tuần trước khi google lập chỉ mục và ghi nhật ký 404 trong bảng điều khiển web của bạn.
Viết tập lệnh của riêng bạn như trên sẽ hiển thị cho bạn tất cả các liên kết hỏng có thể, mà không phải đợi google (công cụ quản trị trang web) hoặc người dùng của bạn (404 trong nhật ký truy cập).
Ngoài ra còn có [HTTrack] (http://www.httrack.com/) có thể thực hiện công việc khá tốt. –
Nếu bạn quan tâm đến việc tìm các liên kết đã chết, bao gồm cả việc xem xét nếu số nhận dạng phân đoạn là trực tiếp, sau đó xem xét https://github.com/gajus/deadlink. – Gajus
@DaviddCeFreitas: Chăm sóc để tạo ra một câu trả lời để chúng ta có thể thấy chính xác chúng ta có thể sử dụng httrack để tìm liên kết chết như thế nào? –