BingBot & BaiduSpider không tôn trọng robots.txt

Sau khi việc sử dụng CPU của tôi đột nhiên vượt quá 400% do các bot làm xáo trộn trang web của tôi, tôi đã tạo robots.txt như sau và đặt tệp vào thư mục gốc, ví dụ: "www.example .com/":BingBot & BaiduSpider không tôn trọng robots.txt

User-agent: * 
Disallow:/

Bây giờ Google tôn trọng tệp này và không có sự xuất hiện nào khác trong tệp nhật ký của tôi của Google. Tuy nhiên, BingBot & BaiduSpider vẫn hiển thị trong nhật ký của tôi (và rất nhiều).

Vì tôi đã tăng mức sử dụng CPU này rất lớn và tôi đã xóa tất cả các trang của mình qua địa chỉ IP bằng .htaccess & rồi tạo tệp robots.txt đó.

Tôi đã tìm kiếm ở khắp mọi nơi để xác nhận rằng tôi đã thực hiện đúng các bước (chưa thử tùy chọn "ReWrite" trong .htaccess).

Có ai có thể xác nhận rằng những gì tôi đã làm nên thực hiện công việc không? (Kể từ khi tôi bắt đầu liên doanh này, việc sử dụng CPU của tôi đã giảm xuống còn 120% trong vòng 6 ngày, nhưng ít nhất việc chặn các địa chỉ IP nên đã giảm mức sử dụng CPU xuống 5-10% thông thường của tôi).

Nguồn

2012-07-10 Richard

buồn bã, robots.txt là một "thỏa thuận quý ông", nếu bạn có quyền truy cập vào một bức tường lửa sau đó bạn có thể chặn họ hoàn toàn, những người khác có cùng một vấn đề bạn có: http://www.webmasterworld.com/search_engine_spiders/4348357.htm (địa chỉ ip để cấm trong liên kết này) –

Xin chào Harald, cảm ơn vì liên kết. Chặn chúng hoàn toàn qua địa chỉ ip. Đoán đó là lý do tại sao họ không đọc robots.txt và thẻ meta của tôi (tôi đã thay đổi). Cpu sử dụng xuống đến 51%, vì vậy bây giờ tôi để cho một vài địa chỉ ip thông qua để họ có thể đọc các quy tắc robots.txt & quy tắc thẻ meta và sẽ thấy nó như thế nào đi. Cảm ơn một lần nữa, Richard – Richard

Nếu đây là những trình thu thập thông tin hợp pháp từ Bingbot và Baiduspider thì cả hai đều nên tôn trọng tệp robots.txt của bạn như đã cho. Tuy nhiên, nó có thể mất thời gian trước khi họ nhặt nó lên và bắt đầu hành động trên nó nếu những tập tin này trước đó đã được lập chỉ mục - đó có lẽ là trường hợp ở đây.

Nó không áp dụng trong trường hợp này, nhưng cần lưu ý rằng việc giải thích tiêu chuẩn robots.txt của Baiduspider hơi khác so với các chương trình chính thống khác (ví dụ: Googlebot) ở một số khía cạnh. Ví dụ: trong khi tiêu chuẩn xác định đường dẫn URL trên bản ghi Disallow: chỉ đơn giản là tiền tố , Baiduspider sẽ chỉ khớp với toàn bộ tên thư mục/đường dẫn. Trong trường hợp Googlebot sẽ khớp với URL http://example.com/private/ khi được chỉ thị Disallow: /priv, Baiduspider sẽ không.

tham khảo:
http://www.baidu.com/search/robots_english.html

Nguồn

2014-04-01 11:16:16 MrWhite

Cảm ơn thông tin – Richard

Xin chào, cảm ơn thông tin ... nhưng liên kết đã bị hỏng. Có ai biết nơi đó đã chuyển sang? – rosuav

@rosuav Tôi đã cập nhật liên kết (cho dù đây là _exactly_ cùng một trang tôi không chắc chắn?). Tuy nhiên, các ví dụ không rõ ràng - đến mức mâu thuẫn. Trong chỉ thị 'Disallow', nó nói" không cho phép:/help' không cho phép ... '/ helpabc.html'", tuy nhiên, trong bảng các ví dụ theo sau nó ngụ ý rằng 'Disallow:/tmp' sẽ _not_ không cho phép'/tmphoho'! Họ cũng đưa ra cùng một ví dụ hai lần ('Disallow:/tmp' và URL'/tmp') và trong một ví dụ phù hợp và cái kia thì không !? (Điều đó thực sự không có ý nghĩa, vì vậy có lẽ đã có điều gì đó bị mất trong bản dịch !?) – MrWhite

BingBot & BaiduSpider không tôn trọng robots.txt

Trả lời

Các vấn đề liên quan