2013-02-05 40 views
10

Chúng tôi hoạt động một cụ rút gọn URL, trong tuần qua, hay như vậy chúng tôi đã bắt đầu nhìn thấy nhiều yêu cầu lạ cho {normal url}/no_facebook_preview_picture.jpg từ các IP Facebook sở hữu và user agent facebookexternalhit/1.0 (+http://www.facebook.com/externalhit_uatext.php)yêu cầu Facebook cho {url} /no_facebook_preview_picture.jpg trên 404 liên kết

Nếu tôi đăng một liên kết bình thường vào trang web của chúng tôi trên tường của tôi (thiết lập như Only Me vì vậy tôi có thể kiểm tra) tôi nhận được sự xâm nhập sau trong bản ghi truy cập của chúng tôi

66.220.152.6 - - [05/Feb/2013:16:31:36 +0000] "GET /44_U HTTP/1.1" 200 1314 "-" "facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)" "-" 

Tuy nhiên nếu tôi gửi một liên kết mà trả về 404 hoặc 410 (liên kết spam đã bị xóa sau khi tạo) Tôi nhận được điều này

69.171.237.15 - - [05/Feb/2013:16:49:16 +0000] "GET /notexistURL HTTP/1.1" 404 1319 "-" "facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)" "-" 

sau đó trong vòng một giờ hoặc lâu hơn

173.252.110.113 - - [05/Feb/2013:17:15:15 +0000] "GET /notexistURL/no_facebook_preview_picture.jpg HTTP/1.1" 404 0 "-" "facebookexternalhit/1.0 (+http://www.facebook.com/externalhit_uatext.php)" "-" 

Một WhoIs của IP mà báo cáo

NetName FACEBOOK-INC 
NetHandle NET-173-252-64-0-1 

Vì vậy, họ chắc chắn Facebook IP.

Chúng tôi nhận được khoảng 10-20 yêu cầu như thế này mỗi ngày, tất cả đều giống nhau. Chúng tôi chỉ có thể nhận được 7 ngày giá trị của các tệp nhật ký trở lại nhưng những yêu cầu này đã xảy ra 7 ngày trước.

Tôi đã thử nghiệm các liên kết duy nhất, vì vậy không có cách nào khác cho bất kỳ điều gì để tìm liên kết đó. Tôi không đích thân sử dụng Facebook nhiều, và tất cả ngoại trừ các liên kết thử nghiệm của tôi được tạo ra/đăng bởi người dùng khác nhưng tôi nhận ra tất cả các ứng dụng được liên kết với tài khoản Facebook của tôi và không có gì bất thường nên tôi không nghĩ đây là bên thứ 3 ứng dụng (Tôi có thể cung cấp danh sách nếu cần nhưng tất cả đều là ứng dụng tên tuổi lớn)

Trong quá trình kiểm tra tệp nhật ký, Facebook thậm chí không có vẻ đang tạo yêu cầu này một cách mù quáng, chỉ cần gắn bó một cách mù quáng chuỗi /no_facebook_preview_picture.jpg ở cuối URL, ngay cả với chuỗi truy vấn. Ví dụ;

69.171.228.114 - - [05/Feb/2013:17:19:13 +0000] "GET /iAmNotARealURL1234777?ref=fb&cows_go=moo HTTP/1.1" 404 1118 "-" "facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)" "-" 
69.171.228.114 - - [05/Feb/2013:17:19:13 +0000] "GET /iamnotarealurl1234777 HTTP/1.1" 404 1118 "-" "facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)" "-" 
173.252.103.4 - - [05/Feb/2013:17:44:41 +0000] "GET /iAmNotARealURL1234777?ref=fb&cows_go=moo/no_facebook_preview_picture.jpg HTTP/1.1" 404 1118 "-" "facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)" "-" 

Google dường như hiển thị nhiều kết quả ngẫu nhiên, chủ yếu từ người tạo liên kết nhưng tôi không thể tìm thấy bất kỳ thông tin nào về những yêu cầu này.

Các yêu cầu này là gì? Facebook cần gì cho họ? Đây có phải là lỗi trong ứng dụng của chúng tôi hoặc những yêu cầu này có thể được bỏ qua một cách an toàn không?

Cập nhật:

Một số ngày chúng tôi bây giờ nhận được 2-3 trăm lượt truy cập vào các URL

[[email protected] nginx]$ for DAYLOG in `find ./ | grep "dftbashort.log-"`; do COUNT=`cat $DAYLOG | grep no_facebook_preview_picture | wc -l`; echo "${DAYLOG} has ${COUNT} occurences"; done 
./dftbashort.log-20130201 has 0 occurences 
./dftbashort.log-20130130 has 2 occurences 
./dftbashort.log-20130129 has 2 occurences 
./dftbashort.log-20130128 has 2 occurences 
./dftbashort.log-20130202 has 378 occurences 
./dftbashort.log-20130207 has 222 occurences 
./dftbashort.log-20130205 has 257 occurences 
./dftbashort.log-20130209 has 178 occurences 
./dftbashort.log-20130131 has 2 occurences 
./dftbashort.log-20130203 has 266 occurences 
./dftbashort.log-20130206 has 667 occurences 
./dftbashort.log-20130204 has 12 occurences 
./dftbashort.log-20130127 has 4 occurences 
./dftbashort.log-20130208 has 260 occurences 

Chúng tôi không cung cấp bất kỳ mở đồ thị các thẻ meta, và trang web không có nội dung khác với chuyển hướng meta/javascript.

Trả lời

2

Tôi khá chắc chắn đây là scraper phần cố gắng xây dựng một bản xem trước của URL, chạy URL qua Facebook's Debug Tool và bạn sẽ thấy những gì Facebook thấy/đang tìm kiếm

Tôi không chắc chắn những gì yêu cầu /notexistURL/no_facebook_preview_picture.jpg là, giả sử bạn không có bất kỳ điều gì trong mã của bạn trỏ đến một URL như vậy; Nếu tôi đã đoán tôi muốn nói đó là một số loại mặc định hoặc dự phòng được sử dụng khi không có thẻ meta; có thể là một lỗi - Tôi khá tự tin nếu bạn bao gồm các thẻ meta chính xác cho Facebook, nó sẽ lấy những thẻ đó và không đưa ra các yêu cầu không hợp lệ, với lợi ích bổ sung của các URL của bạn đang tìm kiếm tốt hơn trên Facebook.com và các trang web khác hỗ trợ cùng một thẻ

+0

Vâng, tôi hiểu trình thu thập thông tin của Facebook, rất tốt và chúng tôi nhận được nhiều lượt truy cập từ đó để mở rộng các URL mà chúng tôi đã rút ngắn. Vì tôi đã thực hiện bài đăng này, chúng tôi hiện nhận được hàng trăm yêu cầu mỗi ngày cho các URL "no_facebook_preview_picture' = (https://gist.github.com/samarudge/0c4a040c389c5b339278 – Smudge

0

Tôi đã chạy vào cùng một điều sáng nay và đã thực hiện một số thao tác. Bạn có thể sử dụng thông tin tại this site để giúp hướng dẫn bạn đi đúng hướng. Dường như đã giúp trang web của tôi bị các lỗi này gây ra.

+0

" Câu trả lời "của bạn khá nhiều chỉ bao gồm một liên kết bên ngoài. Vui lòng [xem tại đây] (http://meta.stackexchange.com/questions/8231/are-answers-that-just-contain-links-elsewhere-really-good-answers) để biết một số cuộc thảo luận liên quan đến các loại câu trả lời này. .. – Lix

+0

Xin chào, chủ sở hữu trang web tại đây có thể đảm bảo với mọi người rằng AgentPhoenix và tôi không phải là cùng một người.Tài đăng trên blog của tôi có liên quan cụ thể đến các trang web công cộng của SharePoint.Nhưng một số ảnh chụp màn hình có thể hữu ích cho mọi người. upvoted) - sử dụng công cụ gỡ lỗi của Facebook và nó sẽ cho bạn biết những gì nó đang tìm kiếm Có siêu dữ liệu tốt cho trang web công cộng của bạn là tốt cho tất cả các công cụ tìm kiếm, đại lý tìm kiếm cũng như Facebook. –

Các vấn đề liên quan