Chúng tôi hoạt động một cụ rút gọn URL, trong tuần qua, hay như vậy chúng tôi đã bắt đầu nhìn thấy nhiều yêu cầu lạ cho {normal url}/no_facebook_preview_picture.jpg
từ các IP Facebook sở hữu và user agent facebookexternalhit/1.0 (+http://www.facebook.com/externalhit_uatext.php)
yêu cầu Facebook cho {url} /no_facebook_preview_picture.jpg trên 404 liên kết
Nếu tôi đăng một liên kết bình thường vào trang web của chúng tôi trên tường của tôi (thiết lập như Only Me
vì vậy tôi có thể kiểm tra) tôi nhận được sự xâm nhập sau trong bản ghi truy cập của chúng tôi
66.220.152.6 - - [05/Feb/2013:16:31:36 +0000] "GET /44_U HTTP/1.1" 200 1314 "-" "facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)" "-"
Tuy nhiên nếu tôi gửi một liên kết mà trả về 404 hoặc 410 (liên kết spam đã bị xóa sau khi tạo) Tôi nhận được điều này
69.171.237.15 - - [05/Feb/2013:16:49:16 +0000] "GET /notexistURL HTTP/1.1" 404 1319 "-" "facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)" "-"
sau đó trong vòng một giờ hoặc lâu hơn
173.252.110.113 - - [05/Feb/2013:17:15:15 +0000] "GET /notexistURL/no_facebook_preview_picture.jpg HTTP/1.1" 404 0 "-" "facebookexternalhit/1.0 (+http://www.facebook.com/externalhit_uatext.php)" "-"
Một WhoIs của IP mà báo cáo
NetName FACEBOOK-INC
NetHandle NET-173-252-64-0-1
Vì vậy, họ chắc chắn Facebook IP.
Chúng tôi nhận được khoảng 10-20 yêu cầu như thế này mỗi ngày, tất cả đều giống nhau. Chúng tôi chỉ có thể nhận được 7 ngày giá trị của các tệp nhật ký trở lại nhưng những yêu cầu này đã xảy ra 7 ngày trước.
Tôi đã thử nghiệm các liên kết duy nhất, vì vậy không có cách nào khác cho bất kỳ điều gì để tìm liên kết đó. Tôi không đích thân sử dụng Facebook nhiều, và tất cả ngoại trừ các liên kết thử nghiệm của tôi được tạo ra/đăng bởi người dùng khác nhưng tôi nhận ra tất cả các ứng dụng được liên kết với tài khoản Facebook của tôi và không có gì bất thường nên tôi không nghĩ đây là bên thứ 3 ứng dụng (Tôi có thể cung cấp danh sách nếu cần nhưng tất cả đều là ứng dụng tên tuổi lớn)
Trong quá trình kiểm tra tệp nhật ký, Facebook thậm chí không có vẻ đang tạo yêu cầu này một cách mù quáng, chỉ cần gắn bó một cách mù quáng chuỗi /no_facebook_preview_picture.jpg
ở cuối URL, ngay cả với chuỗi truy vấn. Ví dụ;
69.171.228.114 - - [05/Feb/2013:17:19:13 +0000] "GET /iAmNotARealURL1234777?ref=fb&cows_go=moo HTTP/1.1" 404 1118 "-" "facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)" "-"
69.171.228.114 - - [05/Feb/2013:17:19:13 +0000] "GET /iamnotarealurl1234777 HTTP/1.1" 404 1118 "-" "facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)" "-"
173.252.103.4 - - [05/Feb/2013:17:44:41 +0000] "GET /iAmNotARealURL1234777?ref=fb&cows_go=moo/no_facebook_preview_picture.jpg HTTP/1.1" 404 1118 "-" "facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)" "-"
Google dường như hiển thị nhiều kết quả ngẫu nhiên, chủ yếu từ người tạo liên kết nhưng tôi không thể tìm thấy bất kỳ thông tin nào về những yêu cầu này.
Các yêu cầu này là gì? Facebook cần gì cho họ? Đây có phải là lỗi trong ứng dụng của chúng tôi hoặc những yêu cầu này có thể được bỏ qua một cách an toàn không?
Cập nhật:
Một số ngày chúng tôi bây giờ nhận được 2-3 trăm lượt truy cập vào các URL
[[email protected] nginx]$ for DAYLOG in `find ./ | grep "dftbashort.log-"`; do COUNT=`cat $DAYLOG | grep no_facebook_preview_picture | wc -l`; echo "${DAYLOG} has ${COUNT} occurences"; done
./dftbashort.log-20130201 has 0 occurences
./dftbashort.log-20130130 has 2 occurences
./dftbashort.log-20130129 has 2 occurences
./dftbashort.log-20130128 has 2 occurences
./dftbashort.log-20130202 has 378 occurences
./dftbashort.log-20130207 has 222 occurences
./dftbashort.log-20130205 has 257 occurences
./dftbashort.log-20130209 has 178 occurences
./dftbashort.log-20130131 has 2 occurences
./dftbashort.log-20130203 has 266 occurences
./dftbashort.log-20130206 has 667 occurences
./dftbashort.log-20130204 has 12 occurences
./dftbashort.log-20130127 has 4 occurences
./dftbashort.log-20130208 has 260 occurences
Chúng tôi không cung cấp bất kỳ mở đồ thị các thẻ meta, và trang web không có nội dung khác với chuyển hướng meta/javascript.
Vâng, tôi hiểu trình thu thập thông tin của Facebook, rất tốt và chúng tôi nhận được nhiều lượt truy cập từ đó để mở rộng các URL mà chúng tôi đã rút ngắn. Vì tôi đã thực hiện bài đăng này, chúng tôi hiện nhận được hàng trăm yêu cầu mỗi ngày cho các URL "no_facebook_preview_picture' = (https://gist.github.com/samarudge/0c4a040c389c5b339278 – Smudge