Chặn bingbot thu thập dữ liệu trang web của tôi

Tôi muốn chặn hoàn toàn việc bing thu thập dữ liệu trang web của tôi (trang web tấn công trang web của tôi với tốc độ đáng báo động (500GB dữ liệu một tháng). công cụ bing webmaster vì vậy tôi không thể đi và thiết lập tốc độ trườn mỗi một. tôi đã cố gắng ngăn chặn nó bằng cách sử robots.txt nhưng nó không làm việc đây là robots.txt của tôiChặn bingbot thu thập dữ liệu trang web của tôi

# robots.txt 
User-agent: * 
Disallow: 
Disallow: *.axd 
Disallow: /cgi-bin/ 
Disallow: /member 
Disallow: bingbot 
User-agent: ia_archiver 
Disallow:/

Nguồn

2014-11-28 Zoinky

Tôi cũng tìm thấy bingbot thực hiện điều này trên nhiều trang web mà tôi quản lý. Bỏ qua hoàn toàn quy tắc "*" chung và bất kỳ sự chậm trễ Thu thập thông tin nào. – WooDzu

này chắc chắn sẽ ảnh hưởng đến SEO của bạn/xếp hạng tìm kiếm và sẽ khiến các trang bị giảm từ chỉ mục vì vậy hãy sử dụng cẩn thận

Bạn có thể chặn các yêu cầu dựa trên chuỗi user-agent nếu bạn có các mô-đun IIS viết lại cài đặt (nếu không đi here)

Và sau đó thêm một quy tắc để webconfig của bạn như thế này:

<system.webServer> 
    <rules> 
    <rule name="Request Blocking Rule" stopProcessing="true"> 
     <match url=".*" /> 
     <conditions> 
     <add input="{HTTP_USER_AGENT}" pattern="msnbot|BingBot" /> 
     </conditions> 
     <action type="CustomResponse" statusCode="403" statusReason="Forbidden: Access is denied." statusDescription="You do not have permission to view this page." /> 
    </rule> 
    </rules> 
</system.webServer>

Điều này sẽ trả lại 403 nếu bot truy cập trang web của bạn.

CẬP NHẬT

Nhìn vào robots.txt của bạn tôi nghĩ rằng nó nên là:

# robots.txt 
User-agent: * 
Disallow: 
Disallow: *.axd 
Disallow: /cgi-bin/ 
Disallow: /member 
User-agent: bingbot 
Disallow:/
User-agent: ia_archiver 
Disallow:/

Nguồn

2014-11-28 16:54:06 Carl

Cảm ơn bạn dường như hoạt động .. ít nhất là từ việc xác minh hộp công cụ quản trị trang web. – Zoinky

Không vấn đề gì - Tôi cũng đã thêm vào câu trả lời của tôi những gì tôi cho rằng tệp rô bốt của bạn nên là ("không được phép đầu tiên"/"chứ không phải là trống.) Bots làm mất thời gian để nhận các thay đổi trong tệp robots.txt, nếu bạn gửi chúng qua công cụ quản trị trang web. – Carl

Robot được cập nhật sẽ cấm tất cả các trình thu thập thông tin mà tôi nghĩ. ngay bây giờ tôi đang cố gắng dừng việc bò khỏi bò cho đến khi tôi tìm ra lý do tại sao nó tấn công nó rất nhiều. – Zoinky

robots.txt của bạn là không đúng:

Bạn cần ngắt dòng giữa bản ghi (bản ghi bắt đầu bằng một hoặc nhiều dòng User-agent).
Disallow: bingbot không cho phép thu thập thông tin các URL có đường dẫn bắt đầu bằng "bingbot" (tức là, http://example.com/bingbot), có thể không phải là những gì bạn muốn.
Không phải là lỗi, nhưng Disallow: là không cần thiết (vì đây là mặc định).

Vì vậy, bạn có thể muốn sử dụng:

User-agent: * 
Disallow: *.axd 
Disallow: /cgi-bin/ 
Disallow: /member 

User-agent: bingbot 
User-agent: ia_archiver 
Disallow:/

này không cho phép crawl của bất cứ điều gì cho "bingbot" và "ia_archiver". Tất cả các bot khác đều được phép thu thập dữ liệu mọi thứ ngoại trừ các URL có đường dẫn bắt đầu bằng /member, /cgi-bin/ hoặc *.axd.

Lưu ý rằng *.axd sẽ được diễn giải theo nghĩa đen theo bot theo thông số robots.txt gốc (vì vậy chúng sẽ không thu thập thông tin http://example.com/*.axd, nhưng chúng sẽ thu thập thông tin http://example.com/foo.axd). Tuy nhiên, nhiều bot mở rộng đặc tả và giải thích * như một loại ký tự đại diện.

Nguồn

2014-11-29 19:00:21 unor

Chặn bingbot thu thập dữ liệu trang web của tôi

Trả lời

Các vấn đề liên quan