2010-07-22 35 views
5

Tôi luôn ngạc nhiên bởi chất lượng cao của bộ lọc spam Gmail. Trong năm qua, nó lọc 99,95% thư rác và bị chặn do nhầm lẫn chỉ một thư. Bằng cách so sánh, bất kỳ dịch vụ thư nào khác mà tôi đã sử dụng đều có ít nhất một lỗi cho mỗi 50 thư.Cách bộ lọc spam của Gmail hoạt động?

Làm cách nào, trong nội bộ, Gmail có đạt được mức chất lượng này không? Có phải dựa trên phản hồi của khách hàng (ví dụ: nếu N khách hàng chặn thư là spam, nó được phân loại là spam cho mọi khách hàng khác)? Hoặc có một số thủ thuật? Có thể thuật toán lọc cơ bản lọc spam rõ ràng nhất và một số trường hợp khó khăn được phân tích bởi con người thực?

+4

Hahaha. Thật buồn cười. Hỏi chúng tôi cách thức hoạt động của thuật toán độc quyền, bí mật thương mại của Googles. Tại sao không hỏi họ? –

Trả lời

8

Nói ngắn gọn điều này dựa trên phản hồi của cộng đồng . Đây là trích dẫn từ lời giải thích chính thức:

Người dùng Gmail đóng vai trò quan trọng trong việc giữ thư spam trong hàng triệu hộp thư đến. Khi cộng đồng Gmail bỏ phiếu với các nhấp chuột của họ để báo cáo một email cụ thể là spam, hệ thống của chúng tôi sẽ nhanh chóng học cách bắt đầu chặn các thư tương tự. Càng nhiều spam cộng đồng đánh dấu, hệ thống của chúng tôi trở nên thông minh hơn.

Bạn có thể đọc thêm một chút về nó trên trang Spam Explained của họ.

7

Đây là câu hỏi triệu đô la và nếu nó có thể được trả lời trên stackOverflow thì bộ lọc spam của mọi người sẽ có hiệu quả.

+0

Nó không quá rõ ràng. Như tôi đã nói, có thể Google thuê người để lọc các trường hợp khó khăn hoặc bộ lọc dựa trên phản hồi của người dùng. Trong trường hợp này, có, tất cả những người có thể thuê người làm công cụ này hoặc dựa vào một cộng đồng lớn sẽ có thể tạo ra bộ lọc spam hiệu quả. –

+0

Không phải vì chất lượng cao của bộ lọc spam của họ là do lượng dữ liệu lớn mà họ có. Xem bài nói chuyện của Peter Norvig "Hiệu quả dữ liệu không hợp lý" – Wes

2

Tôi thực sự không biết chính xác cách Google lọc SPAM (nhưng tôi nghĩ đó là bí mật kinh doanh sau tất cả). Nếu bạn quan tâm đến cách hoạt động của tính năng lọc SPAM, tôi khuyên bạn nên xem bộ lọc Bayesian SPAM (http://en.wikipedia.org/wiki/Bayesian_spam_filtering). Đó là một phương pháp khá dễ hiểu.

-1

Google rất có thể sử dụng hệ thống phân loại, chẳng hạn như Hồi quy logistic hoặc Mạng nơron. Phát hiện spam nhà nước thường xuyên sử dụng các thuật toán Machine Learning như thế này.

Phân loại đầu ra là "Spam" hoặc "Không phải spam" và đầu vào, tôi chắc chắn, là bí mật hàng đầu tại Google, nhưng tôi chắc chắn các cụm từ văn bản email nhất định như "Mua ngay". Bán hàng, "" Viagra "hoặc" Tăng cường nam "là tất cả các yếu tố trong mô hình của họ.

Các vấn đề liên quan