2011-09-07 23 views
5

Chúng tôi muốn thiết lập một hình ảnh honeypot nhỏ trong các cơ thể html của chúng tôi để phát hiện các trình thu thập dữ liệu/rô bốt xấu.Lời khuyên cho việc sử dụng thẻ img honeypot để phát hiện các mẩu/chương trình xấu

Có ai đã thiết lập điều gì đó như thế này trước đây không?

Chúng tôi đang nghĩ cách tốt nhất để đi vào nó sẽ được:

a) Bình luận html ra qua:

<!-- <img src="http://www.domain.com/honeypot.gif"/> --> 

b) Áp dụng phong cách css đến hình ảnh mà sẽ làm cho nó ẩn từ các trình duyệt qua:

.... id="honeypot" .... 

#honeypot{ 
    display:none; 
    visibility:hidden; 
} 

Bằng cách sử dụng ở trên, mọi người có thấy hình ảnh/cố gắng hiển thị hình ảnh đó không?

honeypot.gif sẽ là một tập lệnh php mod_rewritten, nơi chúng tôi sẽ thực hiện việc ghi nhật ký của mình.

Mặc dù tôi hiểu rằng hai điều kiện trên có thể bị bỏ qua bởi bất kỳ trình thu thập mã được mã hóa tốt nào, ít nhất nó cũng sẽ làm sáng tỏ một số thông tin chi tiết về những cái rất bẩn.

Bất kỳ con trỏ nào khác là cách tốt nhất để thực hiện việc này?

+0

Định nghĩa của bạn về "bot xấu" là gì? Bạn đang cố ngăn chặn những thứ gì? Một bot hoạt động kém trong việc tìm nạp các trang của bạn có thể không phải là nạn nhân của một điều phân tích cú pháp html như thế này - bạn có thể không bắt được nó. Có thể có những cách dễ dàng hơn để phát hiện những gì bạn đang tìm kiếm. –

+0

Tôi không hiểu làm thế nào đây là một thực hiện honeypot. Thông thường nó liên quan đến một trường mẫu được ẩn từ người dùng thông qua script/css mà bot vô tình điền vào. – TheCodeKing

+0

Trong khi nó có thể âm thanh quá rộng, định nghĩa của chúng tôi về một bot/scraper xấu là một trong những người không xác định sản phẩm nguồn (read: domain.com) thông qua useragent OR cho biết domain.com không cung cấp cách cấm truy cập thông qua robot .txt. Chúng tôi thấy rất nhiều những cunts nhỏ. Chúng tôi đã có một hệ thống khá toàn diện cho phép chúng tôi phát hiện các thông tin này thông qua useragent/missing, thiếu header chấp nhận, số lần truy cập/khoảng thời gian, v.v. v.v. Vì vậy, đây sẽ là một phần bổ sung cho hệ thống này. về những gì ips tập trung nhân lực vào. –

Trả lời

3

Một bot sẽ bỏ qua thẻ img của bạn vì nó nằm trong nhận xét. Thay vào đó, bạn có thể xem xét việc tạo một div vô hình chứa liên kết đến một URL kích hoạt trên cùng một trang web (tốt nhất là trong cùng một thư mục, trong trường hợp bot có độ sâu nhạy cảm).

+0

+1 cho độ sâu nhạy cảm. –

+0

chúng tôi đã làm cả hai, hình ảnh ẩn và liên kết ẩn. cảm ơn! –

0

IMO Tôi nghĩ rằng mọi trình đánh dấu tốt sẽ biết cách chuyển HTML bằng cách sử dụng SGML parser và chỉ bỏ qua hình ảnh đã nhận xét, nhưng tôi có thể sai.

Tối đa, nó sẽ cung cấp cho bạn ý tưởng khi điều đó xảy ra, nhưng không cung cấp cách để chống lại scraper. Bạn có lẽ sẽ tốt hơn khi đưa ra một số giải pháp dựa trên cookie, vì hầu hết các chương trình có thể không quan tâm đến chúng. Bạn cũng có thể ngẫu nhiên đường dẫn hình ảnh giữa các yêu cầu và hết hạn sau một khoảng thời gian ngắn.

Kiểm tra liên kết giới thiệu là điều hiển nhiên, nếu bạn không quan tâm đến các trình duyệt không hỗ trợ họ hoặc những người ẩn/thay đổi chúng.

Các vấn đề liên quan