câu hỏi ngắn:Bất kỳ ai có bất kỳ mã C# để phân tích robots.txt và đánh giá URL chống lại nó
Có ai có bất kỳ mã C# để phân tích robots.txt và sau đó đánh giá URL chống lại nó để xem nếu họ sẽ được loại trừ hoặc không phải.
Câu hỏi dài:
Tôi đã tạo sơ đồ trang web mới chưa được phát hành cho google. Sơ đồ trang web có hai chế độ, một chế độ người dùng (như một sơ đồ trang web truyền thống) và một chế độ 'quản trị'.
Chế độ quản trị sẽ hiển thị tất cả URL có thể có trên trang web, bao gồm URL hoặc URL mục nhập tùy chỉnh cho đối tác bên ngoài cụ thể - chẳng hạn như example.com/oprah
cho bất kỳ ai xem trang web của chúng tôi trên Oprah. Tôi muốn theo dõi các liên kết đã được xuất bản ở đâu đó ngoài một bảng tính Excel.
Tôi sẽ phải giả định rằng ai đó có thể xuất bản liên kết /oprah
trên blog của họ hoặc ở đâu đó. Chúng tôi không thực sự muốn trang web 'mini-oprah' này được lập chỉ mục vì điều đó sẽ dẫn đến những người xem không phải Oprah có thể tìm thấy các ưu đãi đặc biệt của Oprah.
Vì vậy, cùng lúc tôi tạo sơ đồ trang web, tôi cũng đã thêm URL như /oprah
để loại trừ khỏi tệp robots.txt
của chúng tôi.
Sau đó (và đây là câu hỏi thực tế) Tôi nghĩ 'sẽ không đẹp nếu có thể hiển thị trên sơ đồ trang web có được lập chỉ mục và hiển thị cho robot' hay không. Điều này sẽ khá đơn giản - chỉ cần phân tích cú pháp robots.txt và sau đó đánh giá một liên kết với nó.
Tuy nhiên đây là một 'tính năng tiền thưởng' và tôi chắc chắn không có thời gian để đi và viết nó (thậm chí nghĩ rằng nó có thể không phức tạp) - vì vậy tôi đã tự hỏi nếu có ai đã viết bất kỳ mã nào để phân tích robot .txt?
oops. bị thừa nhận tôi đã không tìm kiếm google lần này. Tuy nhiên trớ trêu thay câu hỏi này bây giờ là trận đấu đầu tiên cho 'C# robots.txt' :-) tôi sẽ thấy nếu tôi có thể trích xuất những gì tôi cần từ đó. cảm ơn –
Tôi hy vọng bạn không bị kẹt trong vòng lặp vô hạn ngay bây giờ ;-) Hài hước, họ thậm chí còn hiển thị chính xác phần Google của câu trả lời của tôi dưới dạng văn bản xem trước. Tôi đã không nhận ra rằng Google đã trở nên quá nhanh ngay bây giờ ngay cả đối với các trang web không phải tin tức, rất thú vị. – realMarkusSchmidt
Tôi có rơi vào vòng lặp không? :) – Velcro