2008-11-17 38 views
7

Tôi bị kẹt khi phải viết một bộ lọc spam đơn giản Tôi không thực sự chắc chắn về cách tôi sẽ làm điều đó.Cách viết bộ lọc thư rác

Cho đến giờ tôi đã tìm ra danh sách từ và lọc miền, sẽ cung cấp hoặc xóa điểm tới một ngưỡng nhất định.

Ví dụ: nếu bạn đang viết về "v1agr4" từ tên miền bị liệt vào danh sách cấm, bạn sẽ nhận được 2 điểm cho spam, nhưng nếu bạn đang viết về "v1agr4" từ tài khoản hotmail.com, bạn ' sẽ chỉ nhận được 1 "điểm spam".

Các bạn có bất kỳ đề xuất/tài nguyên nào khác không?

Đây là chi tiết về học tập các bộ lọc thư rác hơn đang phát triển một cái gì đó doanh nghiệp lớp

Trả lời

1

Nhìn vào Bayesian Spam Filtering.

Tôi biết perl có thư viện cho nó, vì vậy tôi cho rằng java cũng sẽ có một thư viện.

3

Một số mã nguồn mở dự án Java liên quan đến Bayesian Spam Filtering (đã được đề cập bởi LFSR Consulting):

Và một bổ sung cho C++:

0

Bạn có thể ủy quyền cho dịch vụ được phân phối. Akismet là một giải pháp rất tốt.

0

Viết bộ lọc spam tùy thuộc vào nhu cầu của bạn về khả năng mở rộng.

Nếu bạn muốn có giải pháp có thể mở rộng, thì lọc nội dung có lẽ không phải là lựa chọn thông minh để thực hiện vì nó tiêu tốn rất nhiều CPU và bộ nhớ, và thay vào đó bạn nên chọn lọc danh sách hoặc lọc dựa trên danh tiếng. cách CPU thân thiện hơn trên máy chủ của bạn cũng như dễ dàng hơn nhiều để viết.

Tôi đã viết một a post on my blog giải thích ý tưởng đằng sau viết bộ lọc spam từ quan điểm của người lập trình và bao gồm tất cả các tùy chọn từ lọc nội dung đến lọc danh sách đen.

Các vấn đề liên quan