2009-07-20 38 views
5

Có cách nào để phát hiện công cụ tìm kiếm hoặc trình thu thập thông tin trên trang web của tôi không. tôi đã thấy trong phpBB tại quản trị, chúng tôi có thể xem và cho phép các công cụ tìm kiếm và chúng tôi cũng có thể xem lượt truy cập cuối cùng của bot (như Google Bot).cách phát hiện các công cụ tìm kiếm trên trang web của tôi? như phpBB

bất kỳ tập lệnh nào trong PHP? Không phải Google Analytic hoặc cùng một loại ứng dụng. tôi cần phải thực hiện điều đó cho trang blog của mình, tôi nghĩ có cách nào đó để tìm hiểu?

Trả lời

10

Bạn có thể đi theo một trong hai địa chỉ IP hoặc chuỗi 'User-Agent' mà bot hoặc trình duyệt web gửi cho bạn.

Khi Googlebot (hoặc hầu hết các robot hoạt động tốt khác) truy cập trang web của bạn, họ sẽ gửi cho bạn biến số $ _SERVER ['HTTP_USER_AGENT'] xác định chúng là gì. Một số ví dụ là:

Googlebot/2,1 (+ http://www.google.com/bot.html)

NutchCVS/0.8-dev (Nutch; http://lucene.apache.org/nutch/bot.html

Baiduspider + (+ http://www.baidu.com/search/spider_jp.html)

Mozilla/5.0 (X11; U; Linux i686; en-US) AppleWebKit/531.4 (KHTML, như Gecko)

Bạn có thể tìm thấy nhiều ví dụ khác tại các trang web này: link text link text

Sau đó, bạn có thể sử dụng PHP để kiểm tra các chuỗi tác nhân người dùng đó và xác định xem người dùng đó có phải là công cụ tìm kiếm hay không. Tôi sử dụng một cái gì đó như thường này:

$searchengines = array(
    'Googlebot', 
    'Slurp', 
    'search.msn.com', 
    'nutch', 
    'simpy', 
    'bot', 
    'ASPSeek', 
    'crawler', 
    'msnbot', 
    'Libwww-perl', 
    'FAST', 
    'Baidu', 
    ); 
$is_se = false; 
foreach ($searchengines as $searchengine){ 
    if (!empty($_SERVER['HTTP_USER_AGENT']) and 
      false !== strpos(strtolower($_SERVER['HTTP_USER_AGENT']), strtolower($searchengine))) 
    { 
      $is_se = true; 
      break; 
    } 
} 
if ($is_se) { print('Its a search engine!'); } 

Hãy nhớ rằng không có phương pháp phát hiện (Google Analytics hoặc thống kê một gói hay cách khác) sẽ là chính xác 100%. Một số trình duyệt web cho phép bạn đặt chuỗi tác nhân người dùng tùy chỉnh và một số trình thu thập dữ liệu web không đúng có thể không gửi chuỗi tác nhân người dùng. Tuy nhiên, phương pháp này có thể có hiệu quả đối với 95% + trình thu thập dữ liệu/khách truy cập.

+0

Tôi nghĩ rằng điều này đang tìm kiếm .... – coderex

0

Alternatives đến Google Analytics cho phép bạn để giữ cho dữ liệu của bạn:

Piwik được thực hiện trong PHP và hoạt động trong cùng một cách như GA . Hai loại còn lại là máy phân tích nhật ký máy chủ web.

-2

Google Analytics sẽ cho phép bạn xem thống kê thu thập dữ liệu cho trang web của mình.

5
  1. Bạn có thể thử phát hiện chúng bằng chuỗi tác nhân người dùng của họ. Một danh sách của họ có thể được tìm thấy ở đây: http://www.botsvsbrowsers.com/

    Công cụ tìm kiếm có xu hướng sử dụng các từ bánh xíchRobot.

  2. Công cụ tìm kiếm gần như là người dùng internet duy nhất truy cập robots.txt.

  3. Có một số IP được biết là rô bốt như GoogleBot.

Các vấn đề liên quan