2011-10-16 21 views
5

Chúng tôi có thể yêu cầu các bot thu thập thông tin hoặc không thu thập dữ liệu trang web của chúng tôi trong robots.txt. Mặt khác, chúng tôi có thể kiểm soát tốc độ thu thập thông tin trong Google Webmasters (số lượng bot của Google thu thập dữ liệu trang web). Tôi tự hỏi liệu có thể giới hạn hoạt động của trình thu thập thông tin theo robots.txtCó thể kiểm soát tốc độ thu thập dữ liệu bằng robots.txt không?

Tôi có nghĩa là chấp nhận rô bốt để thu thập dữ liệu trang nhưng giới hạn sự hiện diện của chúng theo thời gian hoặc trang hoặc kích thước!

Trả lời

2

Không phải là tôi đã tìm thấy. Robots.txt là nơi để đặt các thư mục hoặc tệp bạn muốn bot bao gồm hoặc loại trừ. Nếu có một cách nó không phải là tiêu chuẩn được nêu ra. Hãy nhớ rằng bất kỳ ai tạo ra các bot chọn có hay không tôn trọng robots.txt, không phải tất cả các bot ("bots xấu") đều tôn trọng tệp này.

Hiện tại, nếu có cài đặt để giảm tốc độ thu thập thông tin, thời gian trên trang web, v.v ... trên bot theo cơ sở bot và không được chuẩn hóa thành giá trị robots.txt.

Thông tin thêm: http://www.robotstxt.org/robotstxt.html

1

Không, file robots.txt chỉ có thể xác định những trang web mà bạn không muốn được lập chỉ mục và những gì đại lý người dùng những quy tắc áp dụng quá. Bạn không thể làm bất cứ điều gì khác với tập tin.

Một số trang web sử dụng các chỉ thị AllowSitemap, nhưng chúng dường như không phải là chỉ thị hợp lệ theo trang web chính thức, mặc dù một số trình thu thập thông tin có thể tôn trọng chúng.

5

Có một chỉ thị bạn có thể sử dụng trong robots.txt, đó là "Thu thập thông tin chậm trễ".

Ví dụ: Crawl-delay: 5

robot Ý nghĩa nên bò không có nhiều hơn một trang mỗi 5 giây. Nhưng chỉ thị này không được robots.txt hỗ trợ chính thức, nhiều như tôi biết.

Ngoài ra, có một số rô bốt thực sự không tính tập tin robots.txt. Vì vậy, ngay cả khi bạn không cho phép truy cập vào một số trang, chúng vẫn có thể bị một số rô bốt thu thập dữ liệu, tất nhiên là không phải là những con lớn nhất như Google.

Baidu chẳng hạn có thể bỏ qua robots.txt, nhưng điều đó không chắc chắn.

Tôi không có nguồn chính thức cho thông tin này, vì vậy bạn chỉ có thể sử dụng Google.

+1

Tôi nghe nói cuối cùng, Googlebot bỏ qua Thu thập thông tin chậm trễ, vì vậy điều này thực sự không giúp ích gì cho Google. Sẽ cho một vài chương trình khác, mặc dù. Nếu không có thông tin về chương trình nào nó hoạt động, câu trả lời này khá không đầy đủ. – derobert

+2

Tìm hiểu thêm về 'Thu thập thông tin-Delay' xem câu hỏi SO này: http://stackoverflow.com/questions/17377835/robots-txt-what-is-the-proper-format-for-a-crawl-delay-for-multiple -user-agent –

+1

Độ trễ thu thập dữ liệu không phải là một phần của tiêu chuẩn, nhưng một số bot tôn trọng nó: https://en.wikipedia.org/wiki/Robots_exclusion_standard#Crawl-delay_directive – nmit026

0

Tôi biết đây là một câu hỏi thực sự cũ, nhưng tôi muốn thêm rằng theo các tài liệu google đây là câu trả lời chính thức:

Bạn thường có thể điều chỉnh các thiết lập tốc độ trườn trong Google Webmaster Tools của bạn tài khoản.

mỗi: https://developers.google.com/webmasters/control-crawl-index/docs/faq#h04

Từ bên trong webmaster-công cụ mà bạn có thể làm theo các bước sau:

  1. Trên trang điều khiển Tìm kiếm Home, nhấp vào trang web mà bạn muốn.

  2. Nhấp vào biểu tượng bánh răng, sau đó nhấp vào Cài đặt trang web.

  3. Trong phần Tốc độ thu thập thông tin, chọn tùy chọn bạn muốn và sau đó giới hạn tốc độ thu thập dữ liệu như mong muốn.

Tốc độ thu thập dữ liệu mới sẽ có giá trị trong 90 ngày.

ref: google support question

+0

tôi chỉ cần đặt tốc độ thu thập dữ liệu và nó cho biết nó hợp lệ trong một tháng, chứ không phải 90 ngày – Sharky

+0

@Sharky có nghĩa là Google không giữ tài liệu được cập nhật? :-) – john

Các vấn đề liên quan