2015-02-13 15 views
5

Tôi muốn trang web của tôi được lập chỉ mục trong các công cụ tìm kiếm ngoại trừ một vài thư mục con. Sau đây là robots.txt xác lập cá nhân:robots.txt cho phép tất cả ngoại trừ một vài thư mục con

robots.txt trong thư mục gốc

User-agent: * 
Allow:/

riêng robots.txt trong thư mục con (được loại trừ)

User-agent: * 
Disallow:/

Đó có phải là cách chính xác hoặc thư mục gốc quy tắc sẽ ghi đè quy tắc thư mục con?

Trả lời

7

Không, điều này là sai.

Bạn không thể có tệp robots.txt trong thư mục con. Robots.txt must be placed in the document root của máy chủ lưu trữ của bạn.

Nếu bạn muốn không cho phép crawl các URL mà đường dẫn bắt đầu với /foo, sử dụng hồ sơ này trong robots.txt của bạn (http://example.com/robots.txt):

User-agent: * 
Disallow: /foo 

này cho phép tất cả mọi thứ bò (vì vậy không có nhu cầu Allow) ngoại trừ các URL như

  • http://example.com/foo
  • http://example.com/foo/
  • http://example.com/foo.html
  • http://example.com/foobar
  • http://example.com/foo/bar
  • ...
+0

Tôi có thể có tệp robots.txt riêng cho thư mục tên miền phụ không? –

+1

Mỗi tên miền phụ là một * máy chủ * mới, vì vậy đối với 'foo.example.com', robots.txt cần phải có sẵn tại' foo.example.com/robots.txt'. Cách bạn đạt được điều này ở phía máy chủ không quan trọng miễn là rô bốt thấy robots.txt khi họ truy cập URL dành riêng này. – unor

1

Có có

User-agent: * 
Disallow:/

Chỉ thị trên rất hữu ích nếu bạn đang phát triển một trang web mới và không muốn công cụ tìm kiếm để chỉ mục trang web đầy đủ của bạn. cũng có, bạn có thể nhận thông tin nâng cao ngay here

+1

này sẽ chặn tất cả mọi thứ mà không gì OP muốn. –

+0

Cũng lưu ý rằng không phải tất cả trình thu thập thông tin đều tôn trọng robots.txt, vì vậy nó không phải là sự thay thế cho các cơ chế kiểm soát truy cập thực. – Robert

0

Bạn có thể quản lý chúng bằng robots.txt nằm trong thư mục gốc. Đảm bảo có các mẫu cho phép trước các mẫu không cho phép của bạn.

Các vấn đề liên quan