2011-01-02 27 views
13

Tôi đang tạo công cụ tìm kiếm (để nghiên cứu) và tôi muốn biết Google nhận dạng nội dung và hình ảnh người lớn bằng Safesearch như thế nào (http://en.wikipedia.org/wiki/Safesearch).Google nhận ra nội dung người lớn bằng tìm kiếm an toàn như thế nào?

Ngôn ngữ chương trình không quan trọng, tôi chỉ muốn biết cách tiếp cận cho ngôn ngữ chương trình chung.

+0

Ai bỏ phiếu để đóng nội dung này để được bản địa hóa quá? Làm thế nào là nó quá địa hóa? – marcog

+0

Nếu ngôn ngữ không quan trọng, tại sao bạn đã gắn thẻ thẻ này bằng hai thẻ ngôn ngữ? – sbi

+0

@sbi: * có thể * đây là những ngôn ngữ yêu thích của anh ấy. Tôi sẽ retag họ nhưng tôi thích chờ đợi cho hành động của mình;) –

Trả lời

14

Nếu quy tắc cho bất kỳ loại bộ lọc nội dung nào rơi vào tay những người cố gắng lấy nội dung đó qua bộ lọc, bộ lọc sẽ trở nên không hiệu quả.

Vì vậy, tôi tưởng tượng rằng các quy tắc của Google (1) không có sẵn công khai và (2) thay đổi thường xuyên.

Điều đó nói rằng, bắt đầu với một danh sách đen các trang web dành cho người lớn và các liên kết đi sau (và/hoặc tìm các trang web có liên kết đến các trang web bị liệt vào danh sách đen) có thể tìm thấy một số lượng lớn các trang web người lớn. Nhưng không có nghĩa là tất cả, bạn muốn có một số loại xử lý văn bản và các thuật toán nhận dạng hình ảnh ngoài ra.

LƯU Ý: Lý thuyết phổ biến là các nhà cung cấp nội dung người lớn trả tiền cho mọi người để đặt câu hỏi trên stackoverflow.com để Jon Skeet và Marc Gravell sẽ có ít thời gian cập nhật bộ lọc Tìm kiếm an toàn hơn. Tuy nhiên, có thể dễ dàng chỉ ra rằng Jon và Marc trả lời các câu hỏi ở mức cao như vậy mà bất kỳ chiến lược nào như vậy sẽ không khả thi về mặt kinh tế.

+2

** Câu hỏi tiếp theo: ** Thuật toán nào đã chứng minh hữu ích trong việc tạo ra các câu hỏi stackoverflow mà Jon Skeet và Marc Gravell sẽ trả lời? – Xeoncross

+1

@Xeoncross: Các trang hồ sơ của họ cho thấy rằng việc áp dụng một trong các thẻ 'C#', '.net',' java' và 'linq' có khả năng hoạt động. Việc sử dụng nhiều hơn một trong các thẻ này có thể mang lại kết quả tốt hơn hoặc có thể khiến máy tính của bạn bị tấn công và tích hợp vào đám mây google borg. Sử dụng có nguy cơ của riêng bạn. –

2

Tôi đặt cược nó rất phức tạp.

Có thể với văn bản, họ lọc các trang có nhiều hơn n hoặc n% từ có liên quan đến người lớn.

Và với hình ảnh, có thể họ xem tên tệp và văn bản xung quanh trên trang mỗi hình ảnh được tìm thấy và lọc nó nếu có đầy đủ các từ dành cho người lớn. Họ cũng có thể thực sự quét các hình ảnh tìm kiếm các tông màu thịt và những người khỏa thân.

3

Câu trả lời của Ben đúng về tất cả các điểm, nhưng tôi muốn thêm các cân nhắc của tôi.

Giới thiệu về nhận dạng hình ảnh: bạn sẽ thấy khá dễ dàng, được cung cấp một bộ lớn hình ảnh để xác định các đối tượng như ngực trần truồng, dương vật và bên trong bằng cách sử dụng nhận dạng mẫu.

Tất cả các thuật toán thông minh nhân tạo, tuy nhiên, có điểm yếu. Bạn có thể trải nghiệm một tỷ lệ phần trăm nhất định của hình ảnh của bạn, tùy thuộc vào chất lượng của bộ phân loại được sử dụng, được phân loại sai.

Sau đó,, bạn phải áp dụng các tiêu chí khác ngoài xử lý hình ảnh. Chắc chắn các tiêu chí của Google không công khai, nhưng bạn muốn xem xét các thẻ ICRA để đánh dấu một cách rõ ràng tài liệu nhất định như tài liệu người lớn, xử lý văn bản và liên kết chéo. Nếu tôi là người tạo ra Safesearch, tôi đã sử dụng mẫu sau: trang web người lớn thường trao đổi liên kết, vì vậy bạn sẽ tìm thấy nhiều giao lộ trong biểu đồ liên kết giữa một nhóm các trang web người lớn.

Đưa nó tất cả cùng nhau, một cách tiếp cận phân loại tốt sử dụng một số nhỏ tiêu chí, ghi họ để xác định xem một hình ảnh là một hình ảnh trưởng thành hay không.

2

Có thể theo cách tương tự như cách lọc spam.

Bước đầu tiên là tạo bộ đào tạo, dựa trên các trang web người lớn đã biết và trích xuất các tính năng từ chúng.Đây có thể là từ khóa, màu sắc được sử dụng trong hình ảnh, cấu trúc tên miền, chi tiết whois, bất cứ điều gì. Bất cứ điều gì có thể theo một cách nào đó khác biệt cụ thể đối với nội dung người lớn so với nội dung không dành cho người lớn.

Bước tiếp theo là áp dụng một số loại mô hình thống kê cho điều đó. Các mô hình Bayes dường như hoạt động tốt cho spam, nhưng có thể không dành cho nội dung người lớn.

Support vector machines có vẻ phù hợp, nhưng điều đó phức tạp hơn nhiều và tôi không thực sự quen thuộc với bản thân.

Các vấn đề liên quan