2011-08-29 23 views
27

Tôi dường như không thể làm việc này nhưng có vẻ thực sự là cơ bản.robots.txt chỉ cho phép root, không cho phép mọi thứ khác?

Tôi muốn root domain được thu thập thông

http://www.example.com 

Nhưng không có gì khác để được thu thập thông và tất cả các thư mục con là động

http://www.example.com/* 

tôi đã cố gắng

User-agent: * 
Allow:/
Disallow: /*/ 

nhưng webmaster của Google công cụ kiểm tra cho biết tất cả các thư mục con đều được phép.

Bất kỳ ai có giải pháp cho điều này? Cảm ơn :)

+0

Thử xóa dòng 'Allow' hoặc đặt nó sau' Disallow'. Người thu thập thông tin phải dừng ở trận đấu đầu tiên. –

+0

Brian là đúng, quy tắc kết hợp đầu tiên, nhưng hãy cẩn thận khi không cho phép mọi thứ theo cách này, Google "xem nhanh" sẽ không thể tải bất kỳ hình ảnh hoặc tập lệnh nào, vì vậy hiển thị có thể bị thay đổi. Vì vậy, có lẽ bạn sẽ cần phải tạo ít nhất một thư mục công cộng duy nhất để trang chủ của bạn được hiển thị tốt trên "chế độ xem nhanh". –

Trả lời

-2
User-agent: * 
Allow: index.html (or /index.php) 
Disallow:/

nên làm điều kỳ diệu.

+0

index.html (hoặc .php) không phải là đường dẫn gốc "/" –

25

Theo định nghĩa phân tích cú pháp biểu mẫu Backus-Naur (BNF) trong Google's robots.txt documentation, thứ tự của chỉ thị AllowDisallow không quan trọng. Vì vậy, thay đổi thứ tự thực sự sẽ không giúp bạn.

Thay vào đó, bạn nên sử dụng toán tử $ để cho biết việc đóng đường dẫn của bạn.

Kiểm tra robots.txt này. Tôi chắc chắn nó sẽ làm việc cho bạn (Tôi cũng xác nhận trong GWT):

user-agent: * 
Allow: /$ 
Disallow:/

này sẽ cho phép http://www.example.comhttp://www.example.com/ để được thu thập thông nhưng mọi thứ khác bị chặn.

lưu ý: rằng chỉ Allow thỏa mãn trường hợp sử dụng cụ thể của bạn, nhưng nếu bạn có index.html hoặc default.php, các URL sẽ không được thu thập.

lưu ý phụ: Tôi chỉ thực sự quen thuộc với các hành vi của Googlebot và bingbot. Nếu có bất kỳ công cụ nào khác mà bạn đang nhắm mục tiêu, họ có thể hoặc không có quy tắc cụ thể về cách chỉ thị được liệt kê. Vì vậy, nếu bạn muốn "thêm" chắc chắn, bạn luôn có thể hoán đổi vị trí của các khối chỉ thị AllowDisallow, tôi chỉ đặt chúng theo cách đó để xóa một số nhận xét.

+0

Chỉ có thể thu thập dữ liệu trang gốc? Hoặc http://www.example.com/electr/pr.html cũng OK? – gmlvsv

2

Khi bạn nhìn vào các thông số kỹ thuật robots.txt google, bạn có thể thấy rằng:

Google, Bing, Yahoo, Ask và hỗ trợ một hình thức hạn chế về "ký tự đại diện" cho các giá trị con đường.Đó là:

  1. * chỉ định 0 hoặc nhiều trường hợp của bất kỳ ký tự hợp lệ
  2. $ chỉ định vào cuối URL

thấy https://developers.google.com/webmasters/control-crawl-index/docs/robots_txt?hl=en#example-path-matches

Rồi như eywu nói , giải pháp là

user-agent: * 
Allow: /$ 
Disallow:/
Các vấn đề liên quan