2009-03-11 24 views
6

câu hỏi ngắn:Bất kỳ ai có bất kỳ mã C# để phân tích robots.txt và đánh giá URL chống lại nó

Có ai có bất kỳ mã C# để phân tích robots.txt và sau đó đánh giá URL chống lại nó để xem nếu họ sẽ được loại trừ hoặc không phải.

Câu hỏi dài:

Tôi đã tạo sơ đồ trang web mới chưa được phát hành cho google. Sơ đồ trang web có hai chế độ, một chế độ người dùng (như một sơ đồ trang web truyền thống) và một chế độ 'quản trị'.

Chế độ quản trị sẽ hiển thị tất cả URL có thể có trên trang web, bao gồm URL hoặc URL mục nhập tùy chỉnh cho đối tác bên ngoài cụ thể - chẳng hạn như example.com/oprah cho bất kỳ ai xem trang web của chúng tôi trên Oprah. Tôi muốn theo dõi các liên kết đã được xuất bản ở đâu đó ngoài một bảng tính Excel.

Tôi sẽ phải giả định rằng ai đó có thể xuất bản liên kết /oprah trên blog của họ hoặc ở đâu đó. Chúng tôi không thực sự muốn trang web 'mini-oprah' này được lập chỉ mục vì điều đó sẽ dẫn đến những người xem không phải Oprah có thể tìm thấy các ưu đãi đặc biệt của Oprah.

Vì vậy, cùng lúc tôi tạo sơ đồ trang web, tôi cũng đã thêm URL như /oprah để loại trừ khỏi tệp robots.txt của chúng tôi.

Sau đó (và đây là câu hỏi thực tế) Tôi nghĩ 'sẽ không đẹp nếu có thể hiển thị trên sơ đồ trang web có được lập chỉ mục và hiển thị cho robot' hay không. Điều này sẽ khá đơn giản - chỉ cần phân tích cú pháp robots.txt và sau đó đánh giá một liên kết với nó.

Tuy nhiên đây là một 'tính năng tiền thưởng' và tôi chắc chắn không có thời gian để đi và viết nó (thậm chí nghĩ rằng nó có thể không phức tạp) - vì vậy tôi đã tự hỏi nếu có ai đã viết bất kỳ mã nào để phân tích robot .txt?

Trả lời

8

Ghét khi nói điều đó, nhưng chỉ cần google "Trình phân tích cú pháp robots.txt C#" và nhấp vào lần truy cập đầu tiên. Đó là một CodeProject article about a simple search engine implemented in C# called "Searcharoo", và nó chứa một Searcharoo.Indexer.RobotsTxt lớp, được mô tả như sau:

  1. Kiểm tra, và nếu có, tải về và phân tích file robots.txt trên trang web
  2. Cung cấp một giao diện cho Spider để kiểm tra mỗi Url chống lại các quy tắc robots.txt
+2

oops. bị thừa nhận tôi đã không tìm kiếm google lần này. Tuy nhiên trớ trêu thay câu hỏi này bây giờ là trận đấu đầu tiên cho 'C# robots.txt' :-) tôi sẽ thấy nếu tôi có thể trích xuất những gì tôi cần từ đó. cảm ơn –

+0

Tôi hy vọng bạn không bị kẹt trong vòng lặp vô hạn ngay bây giờ ;-) Hài hước, họ thậm chí còn hiển thị chính xác phần Google của câu trả lời của tôi dưới dạng văn bản xem trước. Tôi đã không nhận ra rằng Google đã trở nên quá nhanh ngay bây giờ ngay cả đối với các trang web không phải tin tức, rất thú vị. – realMarkusSchmidt

+0

Tôi có rơi vào vòng lặp không? :) – Velcro

1

một chút tự quảng bá, nhưng kể từ khi tôi cần một người phân tích cú pháp tương tự và không thể tìm thấy bất cứ điều gì tôi đang hài lòng với, tôi tạo của riêng tôi:

http://nrobots.codeplex.com/

Tôi rất muốn bất kỳ thông tin phản hồi

Các vấn đề liên quan